La souris domestique (Mus musculus) est un petit mammifère de l’ordre des Rodentia, caractérisé par un museau pointu, de petites oreilles arrondies et une longue queue nue ou presque glabre. C’est l’une des espèces les plus abondantes du genre Mus. Bien qu’animal sauvage, la souris domestique vit principalement en association avec les humains.La souris domestique a été domestiquée comme animal de compagnie ou souris de fantaisie, et comme souris de laboratoire, qui est l’un des organismes modèles les plus importants en biologie et en médecine.
Assemblage
Le GRCm38.l’assemblage p6 a été soumis par Genome Reference Consortium en septembre 2017. L’ensemble est au niveau des chromosomes, composé de 885 contigs assemblés en 336 échafaudages. À partir de ces séquences, 21 chromosomes ont été construits. La taille N50 est la longueur telle que 50% du génome assemblé se trouve dans des blocs de taille N50 ou plus. La longueur N50 pour les contigs est de 32 273 079 tandis que l’échafaudage N50 est de 52 589 046.
Annotation génique
Le processus d’annotation génique a été effectué à l’aide d’une combinaison d’alignements protéine-génome, de mappage d’annotation d’une espèce de référence appropriée et d’alignements ARN-seq (où les données ARN-seq avec les métadonnées appropriées étaient accessibles au public). Pour chaque région de gène candidat, un processus de sélection a été appliqué pour choisir l’ensemble de transcrits le plus approprié en fonction de la distance évolutive, des preuves expérimentales des données sources et de la qualité des alignements.De petites ARNNC ont été obtenues en combinant BLAST et Infernal/RNAfold. Les pseudogènes ont été calculés en examinant des gènes avec un grand pourcentage d’introns non biologiques (introns de < 10bp), où le gène était recouvert de répétitions, ou où le gène était un exon unique et des preuves d’un paraloge multi-exons fonctionnel ont été trouvées ailleurs dans le génome. Les LINCRNA ont été générés via des données ARN-seq où aucune preuve d’homologie protéique ou de domaines protéiques n’a pu être trouvée dans le transcription.
Conformément à l’Accord de Fort Lauderdale, veuillez vérifier l’état de publication du génome / de l’assemblage avant de publier toute analyse à l’échelle du génome utilisant ces données.