Environ 2000 génomes mitochondriaux complètement séquencés sont disponibles à partir de la base de données RefSeq du NCBI, ainsi que des annotations manuellement curatées de leurs gènes codant pour des protéines, des ARNr et des ARNt. Ces informations d’annotation, qui se sont accumulées pendant deux décennies, ont été obtenues grâce à un ensemble diversifié d’outils informatiques et de stratégies d’annotation. Malgré tous les efforts de traitement manuel, elles sont toujours entachées d’erreurs d’attribution de sens de lecture, de noms de gènes erronés et d’annotations manquantes ou faussement positives, en particulier pour les gènes ARN. Dans l’ensemble, cela pose des problèmes importants aux pipelines entièrement automatiques qui visent à utiliser ces données de manière exhaustive pour les études de phylogénétique animale et l’évolution moléculaire des mitogénomes. Le pipeline MITOS est conçu pour calculer une annotation de novo cohérente des séquences mitogénomiques. Nous montrons que les résultats de MITOS correspondent à RefSeq et MitoZoa en termes de couverture et de qualité de l’annotation. En même temps, nous évitons les biais, les incohérences de nomenclature et les fautes de frappe provenant des stratégies de curation manuelle. Le pipeline MITOS est accessible en ligne à l’adresse http://mitos.bioinf.uni-leipzig.de.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.