La sélection dépendante de la fréquence négative contribue au maintien d’un polymorphisme global dans l’ADN mitochondrial

Construction de lignées d’introgression mito-nucléaires
Fondation des populations d’évolution expérimentale
Maintien des populations d’évolution expérimentale
Séquençage et assemblages de mitogénomes
Estimation des fréquences d’haplotype de l’ADNmt
Analyses statistiques
Estimations de la force de la sélection dépendante de la fréquence

Construction de lignées d’introgression mito-nucléaires

Pour isoler les effets génétiques de l’ADNmt du génome nucléaire, nos expériences ont été basées sur des lignées d’introgression mitonucléaires (MNILs). La construction de nos MNILs est expliquée en détail dans Kurbalija Novicic et al. . En bref, tous les MNILs utilisés ont été créés à partir de lignées isofemales (IFL), chacune ayant été fondée par une seule femelle accouplée récoltée à l’état sauvage provenant d’une seule population naturelle commune (Gorge de Sicevo – Serbie, S 43°19’55.58″N 22°0837.98″). Les lignées ont d’abord été génotypées pour leur haplotype d’ADNmt à l’aide d’enzymes de restriction et nous avons sélectionné six IFL, dont trois portaient des haplotypes HI et trois HII, chacun ayant ensuite été rétrocroisé avec un septième IFL commun (« D »). Dans chaque MNIL, un rétrocroisement a été effectué en jumelant 10 femelles vierges d’une IFL donnée avec 20 mâles de la lignée D. Nous avons utilisé cette procédure de rétrocroisement introgressif répété pour 12 générations suivantes pour remplacer le génome nucléaire d’une IFL donnée par le génome nucléaire D commun (> 99,95% remplacé). Notez que les IFL n’étaient pas consanguines ou autrement rendues isogènes. Pour exclure la possibilité de contamination pendant l’introgression, l’intégrité de l’ADNmt de toutes les MNIL a été validée à la génération 5, 8 et 12 en génotypant un échantillon de mouches de chaque MNIL. Nous avons également examiné la présence de Wolbachia dans toutes les MNILs, par un test de PCR utilisant des amorces spécifiques à l’ADNr 16S de Wolbachia en utilisant des méthodes détaillées dans García-Martínez et al. . Nous avons utilisé deux souches de Drosophiles différentes contenant du Wolbachia comme témoins positifs (stock de D. melanogaster no. 5, Centre de stock de Bloomington, D. simulans, souche Riverside). Ces tests PCR ont été négatifs pour toutes nos MNILs ainsi que pour la lignée D. Toutes les lignées ont été maintenues et toutes les expériences effectuées dans des conditions de laboratoire constantes, à 19 ° C, 60% d’humidité relative, une lumière de 300 lx, et à une photopériode de 12 h de lumière: 12 h d’obscurité.

Fondation des populations d’évolution expérimentale

Avant les expériences, nous avons amalgamé les trois MNILs portant HI en une population source HI et les trois MNILs HII en une population source HII pour homogénéiser la variation génétique nucléaire potentielle entre les MNILs. Cela a été fait en mélangeant 100 mouches adultes de chaque MNIL, dans deux cages de population (c.-à-d., N = 3 × 100 mouches par cage) (Cages en plexiglas, L25 cm x L15 cm x H15 cm, avec 3 boîtes contenant chacune 30 ml de semoule de maïs) et les maintenir pour une génération complète ultérieure dans des conditions de laboratoire standard. Les deux populations sources portaient donc soit l’haplotype de l’ADNmt HI, soit l’ADNmt HII, exprimé dans un contexte génétique nucléaire commun et surprisé (c.-à-d., D). Les mouches vierges de ces deux populations sources ont ensuite été sexuées et utilisées pour fonder les populations d’évolution expérimentale.

Nous avons initié N = 12 populations d’évolution expérimentale. Dans chaque population, N = 100 mouches vierges (sex-ratio 1:1) âgées de 3 à 5 jours ont été introduites à partir des populations sources dans une cage de population (L25 cm x L15 cm xH15 cm). Nous avons varié la fréquence de départ des haplotypes HI et HII et les conditions des ressources alimentaires entre les populations, en utilisant un plan croisé 2 × 2 (N = 3 populations par cellule), de la manière suivante. Dans la moitié des cages, 80% des mouches fondatrices provenaient de la population source HI et 20 % de la population source HII. Dans l’autre moitié, 20% des mouches fondatrices provenaient de la population source HI et 80% de la population source HII. En ce qui concerne les conditions des ressources alimentaires, la quantité de milieu (à la fois en volume et en surface) était identique dans les deux groupes de traitement, tandis que la variation de la concentration en nutriments au sein de la population était manipulée comme suit. La moitié des cages (conditions alimentaires homogènes) contenaient 3 plats alimentaires identiques, chacun avec 30 ml de milieu de semoule de maïs standard (YC) contenant 1,5% de levure. L’autre moitié des cages (conditions alimentaires hétérogènes) contenait également 3 plats contenant chacun 30 ml de milieu standard, mais ceux-ci différaient en concentration de levure (YL-0,375%, YC-1,5%, YH-6%).

Maintien des populations d’évolution expérimentale

Les populations ont été maintenues en laboratoire de manière à assurer des générations discrètes, 40 jours/cycle, à 19 °C, 60% d’humidité relative et un cycle 12 h lumière : 12 h obscurité. Au jour 40, les trois anciens plats alimentaires ont été remplacés par trois nouveaux et les mouches ont été autorisées au total 9 jours pour la ponte. Les nouveaux plats, contenant des œufs et des larves, ont ensuite été débarrassés de tout adulte et transférés dans une nouvelle cage pour commencer la prochaine génération. Toutes les mouches adultes dans chaque vieille cage ont ensuite été comptées, une fois qu’elles étaient mortes.

Séquençage et assemblages de mitogénomes

Avant l’estimation de la fréquence des haplotypes (voir ci-dessous), nous avons séquencé et assemblé tous les haplotypes d’ADNmt utilisés. L’ADN a été extrait des six lignées IF (HI: 1, 3, 5; HII: 21, 25, 29) utilisées pour créer les MNILs, en utilisant un protocole de précipitation sel-éthanol. Les mouches ont d’abord été macérées doucement et placées dans un tampon de préparation (NaCl 100 mM, Tris-HCl 10 mM, pH = 8,0, 0,5% SDS) avec la protéinase K, vortexées et incubées à 50 ° C pendant une nuit. Les échantillons ont ensuite été congelés pendant la nuit. Pour précipiter l’ADN, nous avons ajouté du NaCl saturé plusieurs fois avant d’ajouter de l’éthanol à 95%, et nous avons filé l’ADN dans une pastille. Le culot d’ADN a été mis en suspension dans du tampon TE 4 (pH = 7,6). La qualité et la quantité de l’ADN ont été évaluées à l’aide de NanoDrop, de Qubit et de Bioanalyseur, suivies d’une évaluation de la longueur des fragments sur un gel d’agarose.Des banques de séquençage

ont été préparées à partir de 100 ng d’ADN à l’aide du kit de préparation de banques d’ADN sans PCR de TruSeq. Les six échantillons ont ensuite été séquencés à des lectures d’extrémité appariées de 125 pb dans deux voies sur un système Illumina HiSeq2500 utilisant la chimie de séquençage v4. Au total, nous avons séquencé en moyenne 194 millions de lectures pour chaque bibliothèque. Les mitogénomes des six échantillons ont ensuite été assemblés en utilisant un sous-ensemble de 5% du nombre total de lectures de chaque bibliothèque. Les lectures ont été transmises à l’algorithme MITObim V 1.8 et à MIRA V 4.0.2 assembleur, pour réaliser des assemblages guidés, en utilisant le mitogénome de Drosophila pseudoobscura (GenBank: FJ899745.1) comme génome de référence. Tous les assemblages obtenus étaient des mitogénomes circulaires d’une taille de près de 16 kbp. Les assemblages finaux ont ensuite été alignés à l’aide de ClustalW et de MAFFT, et triés manuellement pour obtenir un assemblage final poli pour chaque haplotype. Les mitogénomes assemblés ont été annotés à l’aide de DOGMA et de MITOS, en utilisant les paramètres par défaut, et finalement organisés manuellement.

Pour évaluer la validité de notre assemblage de mitogénomes, toutes les séquences d’ADNmt de Drosophila subobscura disponibles sur GenBank (Cox1, Cox2, Cox3, Cob, Nad1, Nad2, Nad3, Nad5, rrnL, rrnS, la région riche en A+ T et plusieurs arnt), couvrant au total plus de 50% de l’assemblage total, ont été alignées sur nos mitogénomes. Sans exception, ceux-ci ont montré > 99% d’identité de séquence.

Plusieurs SNP uniques ont été trouvés dans chacun des six haplotypes de mitogénomes (voir ci-dessous), dont deux distinguaient systématiquement les groupes haplotypes HI et HII. La profondeur de couverture de chaque SNP a été vérifiée en retraçant les lectures utilisées pour l’assemblage du mitogénome à l’aide de Bowtie v 1.2. Ces efforts ont confirmé tous les SNP identifiés lors de l’étape d’assemblage. Ici, nous nous concentrons sur les deux principaux groupes d’haplotypes I et II, qui montrent un modèle frappant et cohérent de polymorphisme intra-population entre les populations (Fig. 1) et les différences phénotypiques fonctionnelles (voir Introduction). Bien que les SNP se produisent dans chacun des deux groupes d’haplotypes, de tels SNP sont rares (par exemple) et ne sont pas systématiquement polymorphes.

Estimation des fréquences d’haplotype de l’ADNmt

Nous avons utilisé pool-seq pour estimer l’évolution de la fréquence de l’haplotype, en séquençant des échantillons de mouches de la 5e et de la 10e génération de chaque population d’évolution expérimentale. Dans chaque échantillon, 105 mouches sélectionnées au hasard par cage ont été regroupées et soumises à une extraction d’ADN (par groupes de 15) et à des préparations de banques de séquençage comme décrit ci-dessus. Les N = 24 échantillons ont ensuite été séquencés à des lectures d’extrémité appariées de 125 pb dans deux voies sur un système Illumina HiSeq2500, en utilisant la chimie de séquençage v4. Notre effort pool-seq a été conçu pour fournir une profondeur de séquençage suffisante pour une estimation précise des fréquences d’haplotype de l’ADNmt, mais ne permet pas d’analyses détaillées du génome nucléaire.

Nous avons séquencé, en moyenne, 66 millions de lectures pour chaque bibliothèque. Les lectures de chaque bibliothèque ont ensuite été mappées aux six mitogénomes assemblés, en ne conservant que des mappages uniques et sans décalage à l’aide de Bowtie v 1.2. Le nombre de lectures correspondant aux deux SNP qui distinguent les types HI et HII (dans le Nad5 et dans l’ARNr 12S) a ensuite été compté et utilisé comme estimation de la fréquence relative de chaque haplotype principal (HI ou HII) dans chaque échantillon.

Analyses statistiques

Pour chaque échantillon, toutes les lectures mappées aux deux SNP diagnostiques (voir ci-dessous) ont été comptées comme étant de type HI ou de type HII. La proportion de lectures HI pour les deux SNP différents était en effet très étroitement corrélée entre les 24 échantillons (r = 0,987), de sorte que les deux marqueurs fournissaient des estimations pratiquement identiques. Ici, nous avons utilisé la proportion moyenne des deux SNP pour estimer la fréquence de HI présente dans chaque échantillon de pool-seq.

L’évolution peut être définie comme des changements dans les fréquences du génotype au sein d’une population, et notre conception nous a permis de dériver deux mesures répétées séparées temporellement des changements de fréquence d’haplotype par génération dans chaque lignée évoluante comme Δf0–5 = (f5–f0) /5 ou Δf5–10 = (f10–f5)/5 où les indices indiquent la génération à laquelle l’échantillon a été collecté. De plus, nous avons estimé Δf0–10 = (f10-f0)/10 pour évaluer le changement de fréquence net de l’haplotype. Parce que seulement deux génotypes étaient impliqués, la fréquence de HI : fI = 1-fII, et nous limitons donc nos analyses aux changements de fréquence d’un des haplotypes. Pour chaque estimation de Δf, nous avons également dérivé un coefficient de sélection dépendant de la fréquence (SI) correspondant à la force de sélection nécessaire pour provoquer le changement observé des fréquences d’haplotype (voir ci-dessous).

Chaque ligne évolutive représente une unité d’observation dans notre conception, et nous avons donc analysé nos données en utilisant des ANOVAs de mesures répétées (c’est-à-dire des ANOVAs intra-sujets). Ici, chaque ligne représente le sujet, et la fréquence de départ de HI (0,2 ou 0,8) et l’état de l’environnement (homogène ou hétérogène) étaient deux facteurs entre sujets, et les deux mesures répétées (de Δf ou SI) prises à différents intervalles générationnels ont été traitées comme un facteur à l’intérieur des sujets. Dans ces analyses, les facteurs focaux entre sujets testent les effets de nos traitements expérimentaux et le facteur intra-sujets teste si le modèle d’évolution a changé au cours de notre expérience. Cette stratégie analytique s’appuie sur le fait que nous suivons la dynamique des fréquences dans des lignées répliquées et indépendantes et que l’effet non focal de la dérive génétique aléatoire, qui devrait être important pour la dynamique de l’ADNmt, fait partie du terme résiduel de nos modèles inférentiels. Les tests F classiques des facteurs entre sujets ont été validés à l’aide de tests de permutation, basés sur 9999 permutations aléatoires de données. L’SI moyen pour différents groupes a été évalué à l’aide d’IC à 95% provenant de 9999 répliques de données bootstrap.

Estimations de la force de la sélection dépendante de la fréquence

Nous avons également souhaité évaluer plus explicitement si la force de la sélection dépendante de la fréquence sur HI et HII différait entre les deux traitements expérimentaux environnementaux (homogène / hétérogène). Pour permettre cela, nous avons dérivé des mesures simples de la sélection dépendante de la fréquence à partir de nos données empiriques en utilisant la justification suivante. Une modélisation explicite antérieure de données non expérimentales dans ce système a montré que la meilleure adéquation avec les données dynamiques de fréquence des haplotypes se produit lorsqu’il n’y a pas de sélection positive ou négative sur ces haplotypes d’ADNmt, mais lorsqu’il y a une sélection dépendante de la fréquence négative qui est également forte sur les deux haplotypes. Nous considérons les deux haplotypes d’ADNmt HI et HII, avec les fréquences pI et pII (pI + pII = 1) et les fitnesses WI et WII. Le changement de pI par génération est alors donné par

$$ \ Delta {p}_I= \frac {p_I{p}_{II}\ gauche ({W}_I-{W}_{II}\ droite)}{\overline{W}} $$

Observations des deux populations naturelles (voir fig. 1; Fichier supplémentaire 1) et les populations de cages de laboratoire répliquées suggèrent également que la sélection est symétrique avec un équilibre pour les deux haplotypes HI et HII au voisinage de pI = pII = 0,5. En supposant (i) une fréquence d’équilibre de pI = pII = 0.5, (ii) que la forme physique de l’haplotype est linéairement liée à la fréquence de l’haplotype et (iii) que la sélection est symétrique, ce qui est corroboré par des études antérieures, nous obtenons

$$ { W}_I = 1 – {p}_I {s}_I $$

$$ { L}_{II} = 1 – {p} _ {II} {s}_I $$

où sI est le coefficient de sélection dépendant de la fréquence. Étant donné que $\overline {W} = {p}_I{W}_I +{p}_{II}{W}_{II}$ nous pouvons alors estimer sI à partir de nos observations empiriques de ΔpI comme

$$ { s}_I = \frac {-\Delta{p}_I{p}_I-\Delta{p}_I {p}_{II}} {-\Delta {p}_I{p}}^2-{p_I{p}_{II}}^2 + {p_I}^2 {p}_{II}-\Delta {p}_I{p_I}^2{p}_{II}-\Delta {p}_I{p_I}^2} $$

Définie de cette façon, sI suppose une échelle arbitraire mais est positive lorsque de ΔpI change vers l’attracteur et négative lorsqu’elle s’éloigne de l’attracteur. Pour chaque cage, nous avons estimé deux mesures répétées indépendantes de sI basées sur les changements de fréquence d’haplotype observés entre les générations 0-5 et 5-10, respectivement. Nous notons que notre mesure sera précise lorsque le véritable équilibre est proche de pI = pII = 0,5 mais plus approximative si le véritable équilibre s’écarte de cette condition.