+ All Categories
Home > Documents > AncestryDNA Matching White Paper · 2 AncestryDNA Matching White Paper . Das Auffinden genetischer...

AncestryDNA Matching White Paper · 2 AncestryDNA Matching White Paper . Das Auffinden genetischer...

Date post: 22-Aug-2019
Category:
Upload: vanduong
View: 224 times
Download: 0 times
Share this document with a friend
46
AncestryDNA Matching White Paper © AncestryDNA 2016
Transcript

AncestryDNA Matching White Paper

© AncestryDNA 2016

2

AncestryDNA Matching White Paper Das Auffinden genetischer Übereinstimmungen in einer riesigen, stetig wachsenden Datenbank Letzte Aktualisierung 31. März 2016

Catherine A. Ball, Mathew J Barber, Jake Byrnes, Peter Carbonetto, Kenneth G. Chahine, Ross E. Curtis, Julie M. Granka, Eunjung Han, Eurie L. Hong, Amir R. Kermany, Natalie M. Myres, Keith Noto, Jianlong Qi, Kristin Rand, Yong Wang und Lindsay Willmore (in alphabetischer Reihenfolge)

1. Einleitung AncestryDNATM

führt verschiedene genetische Analysen durch, um den Kunden zu helfen, ihre Familiengeschichte zu erfahren, zu bewahren und zu teilen.

Hier wird erklärt, wie wir „Übereinstimmungen“ in der DNA finden – genauer ausgedrückt, wie wir lange Chromosomen-Segmente identifizieren, die von Paaren von Individuen geteilt werden, bei denen der Hinweis besteht, dass sie jüngere gemeinsame Vorfahren haben. Im Bereich der Genetik wird dies „Identity-by-Descent“ (IBD) genannt.

Wenn wir IBD-Segmente identifizieren, nutzen wir diese Information um einzuschätzen, wie Menschen miteinander verwandt sind (z. B. Cousins 1. Grades). Durch das Abbilden von Verbindungen zwischen Verwandten über ihre DNA, bieten wir Mitgliedern von AncestryDNA die Möglichkeit, ihren dokumentierten Stammbaum zu erweitern. Darüber hinaus ist das Matching ein wichtiger Baustein für weitere AncestryDNA-Merkmale, wie DNA CirclesTM – Gruppen von Menschen, die alle von demselben gemeinsamen Vorfahren abstammen (siehe unser DNA Circles White Paper).

In diesem Papier werden die Schritte beschrieben, die wir unternehmen, um die Segmente der DNA, die Identical-by-Descent zwischen Individuen sind, zu identifizieren und zu interpretieren. Wir beginnen mit einer Einführung in die Schlüsselbegriffe des DNA-Matching, erklären die Herausforderungen bei der Identifizierung der Übereinstimmungen und beschreiben abschließend wie wir das Problem angehen, die IBD in einer großen genetischen Datenbank zu erfassen.

3

1.1. Wie wird DNA vererbt – eine kurze Einführung

Um den Begriff Vererbung von einem gemeinsamen Vorfahren zu veranschaulichen,

betrachten Sie die kleine Familie in Abbildung 1.1. Menschen haben 22 Chromosomenpaare,

wobei ein Chromosom vom Vater und eines von der Mutter vererbt wird (geschlechts-

gebundene Chromosomen – X und Y – haben ein unterschiedliches Vererbungsmuster

und sind nicht in diesem Beispiel enthalten). In Abbildung 1.1 ist jedes Familienmitglied

nur durch ein Paar eines der 22 Chromosomenpaare (die beiden farbigen Balken)

repräsentiert, aber dieselben Konzepte, die wir darstellen, gelten gleichermaßen für alle

22 Chromosomenpaare.

Die Chromosomen sind in vier Farben dargestellt – in zwei blauen Farbtönen, die vom

Vater vererbt sind, und in zwei roten Farbtönen, die von der Mutter vererbt sind.

Es ist zu erkennen, dass jedes Kind einen gleichen Betrag der DNA (50 %) von der

Mutter (rot) und vom Vater (blau) erbt, da das Kind eine Kopie jedes Chromosoms von

jedem Elternteil erbt. Es ist auch zu erkennen, dass jedes der Chromosomen des Kindes

eine Mischung der beiden Chromosomen-Kopien jedes Elternteils ist. Jedes Kind hat

eine hellblaue und eine dunkelblaue Mischung vom Vater und eine hellrote und

dunkelrote Mischung von der Mutter. Diese Mischung ist bei jedem Kind

unterschiedlich. Der biologische Prozess, der für die Übertragung der Chromosomen

auf diese Weise von den Eltern zum Kind verantwortlich ist, wird als Meiose

bezeichnet. Die zufällige Mischung dieser Chromosomenfragmente während der

Meiose wird als Rekombination bezeichnet. Das Endergebnis ist, dass die DNA jedes

Kindes eine zufällige Mischung der DNA seiner Eltern ist.

4

Abbildung 1.1: Darstellung der Vererbung der DNA von Eltern zu den Kindern. Jedes Familienmitglied ist durch ein Chromosomenpaar repräsentiert, das es von seinen beiden Elternteilen geerbt hat. Die Chromosomen sind farbig dargestellt, um die DNA anzuzeigen, die von demselben Großelternteil vererbt wurde. Die Chromosomen jedes Kindes sind eine Mischung der Chromosomen seiner Eltern.

Vergleicht man die Chromosomen von Geschwistern, indem man sie von oben nach unten anordnet (Abbildung 1.1), ist zu erkennen, dass einige Bereiche der Chromosomen bei jedem Geschwister dieselbe Farbe haben. Dies zeigt, dass sie nahezu identische DNA-Sequenzen an diesen Stellen auf ihrem Chromosom haben. Diese Stellen auf dem Chromosom werden als „Identical-by-Descent“ (IBD) bezeichnet, da sie von einem gemeinsamen Vorfahren ererbt wurden (in diesem Fall ist der gemeinsame Vorfahre die Mutter oder der Vater).

Wenn wir weniger eng verwandte Individuen vergleichen, haben diese gewöhnlich kürzere und weniger IBD-Segmente. Abbildung 1.2 zeigt die Chromosomenpaare für drei Cousins 5. Grades, die dieselben beiden gemeinsamen Vorfahren haben (Ur-Ur-Ur-Ur-Großvater). In diesem Fall haben diese drei Cousins 5. Grades jeweils nur einen kleinen Anteil der DNA der beiden gemeinsamen Vorfahren ererbt. Es ist ebenfalls festzustellen, dass, da sich die Übertragung der DNA (über Meiose) über mehrere Generationen mehrere Male wiederholt hat, DNA von verschiedenen gemeinsamen Vorfahren (rot und blau) auf dasselbe Chromosom eines Individuums gelangen kann. Achten Sie darauf, dass die grauen Teile der Chromosomen von anderen Vorfahren ererbt wurden, die nicht im Diagramm dargestellt sind und die Segmente enthalten können oder nicht enthalten können, die IBD unter den drei Cousins 5. Grades sind.

5

Abbildung 1.2: Darstellung der DNA, die zwischen entfernten Cousins (C, D, E) Identical-by-Descent ist. Es sind die Chromosomen der gemeinsamen Vorfahren (A) und ihrer Kinder (B) dargestellt. Chromosomen anderer dazwischenliegender Generationen sind im Diagramm nicht dargestellt. Die blauen und roten Kreise zeigen Chromosomensegmente, die zwischen den angezeigten Chromosomen IBD sind. Siehe Beschriftung der Abbildung 1.1 um mehr zu erfahren.

Während die drei Cousins 5. Grades in Abbildung 1.2 alle etwas DNA von den in der Abbildung dargestellten gemeinsamen Vorfahren ererbt haben, sind nur einige wenige kurze Segmente der Chromosomen tatsächlich an denselben Stellen auf dem Chromosom der verschiedenen Cousins identisch. In diesem Beispiel ist zu sehen, dass nur 3 kurze Chromosomensegmente, die durch die blauen und roten Kreise angezeigt werden, IBD sind. Ein Segment der DNA wird von den Cousins C und D geteilt, und zwei Segmente werden von den Cousins D und E geteilt. Im Gegensatz dazu haben die Cousins C und E, trotz der Tatsache, dass sie über ihre Ur-Ur-Ur-Ur-Großeltern (A) verwandt sind, keine identische DNA, die bei diesen beiden gemeinsamen Vorfahren IBD sind.

Das erste Ziel des DNA-Matching ist es, präzise die DNA-Segmente auf den 22 Chromosomenpaaren zu identifizieren, die zwischen Paaren von Individuen Identical-by-Descent sind.

6

Ganz wichtig dabei ist, dass wir diese IBD-Segmente für jedes Paar von Kunden in unserer Datenbank identifizieren möchten. Dies genau und effizient für Millionen von Menschen durchzuführen, ist keine einfache Aufgabe, sondern ein aktiver Forschungsbereich in der Wissenschaftsgemeinde.

1.2. Genotyp-Phasierung

Das erste Hindernis, auf das wir treffen, ist, dass wir, obwohl DNA in langen Sequenzen von dem Elternteil auf das Kind übertragen wird, keinen direkten Zugriff auf diese exakten Sequenzen haben. (Es ist derzeit ein ungeheuer teurer und zeitaufwändiger Prozess, die exakte DNA-Sequenz zu lesen, die von dem jeweiligen Elternteil vererbt wurde.) Stattdessen betrachten wir nur die ungeordneten Paare der Neukleotide – die grundlegenden Bausteine der DNA, die gewöhnlich als A, T, G oder C dargestellt werden – an einer kleinen Anzahl von Stellen im Genom. Das heißt, dass wir nur einen kleinen Teil der gesamten DNA-Sequenz prüfen und nicht unbedingt wissen, welches Nukleotid von der Mutter und welches vom Vater kam.

Um besser zu verstehen, wie dies die Identifizierung des IBD erschwert, betrachten Sie die genetischen Daten in Tabelle 1.3. Diese Tabelle veranschaulicht, wie wir genetische Daten unserer Kunden in unserer Datenbank darstellen. An 8 spezifischen DNA-Stellen oder genetischen Markern haben wir den Genotyp eines einzelnen Individuums geprüft. Der Genotyp ist das Paar der auf den beiden Chromosomen für ein Individuum an einem gegebenen genetischen Marker vorhandenen Nukleotide. (Für weitere Einzelheiten, wie diese genetischen Marker ausgewählt werden, siehe Ethnicity Estimate White Paper). Beispielsweise sind am ersten genetischen Marker manchmal Individuen zu beobachten, die das „A“-Nukleotid haben (A steht für das Nukleotid-Base-Adenin), und manchmal sind Individuen zu beobachten, die das „G“-Nukleotid haben (G bezieht sich auf Guanin). In anderen Worten, an dieser genauen DNA-Stelle sind entweder ein A oder G in der DNA eines Individuums zu beobachten. Alle genetischen Marker, die wir verwenden, sind „polymorph“ (sich verändernd) in nur einem einzelnen Nukleotid, demnach werden sie als „Einzelnukleotid-Polymorphismen“ oder abgekürzt SNPs bezeichnet. Bei den meisten SNPs sind nur 2 mögliche Nukleotide zu beobachten. Genetiker nennen diese beiden Möglichkeiten „Allele.“

Da jeder Mensch zwei Chromosomenkopien hat (eine von jedem Elternteil ererbt), können wir für ein einzelnes Individuum entweder zwei As, zwei Gs oder ein A und ein G beobachten. In diesem Beispiel am ersten Marker sind zwei Kopien des G-

7

Allels im Genotyp der Person zu sehen. SNP-Beobachtungen können in unserer Datenbank einfach als 0, 1 und 2 gespeichert werden, sie repräsentieren die Anzahl der Male, die wir ein spezifisches Allel im Genotyp beobachtet haben.

Tabelle 1.3: Beispiel einer kleinen Menge genetischer Daten von einem einzelnen Individuum an 8 genetischen Markern. Die genetischen Daten sind ungeordnete Paare von Nukleotiden oder Genotypen, die mit Zahlen – 0, 1 oder 2 – für die Anzahl der Male dargestellt werden, die die Allele im Genotyp beobachtet werden.

In Tabelle 1.3, an den genetischen Stellen 1, 2, 5, 6 und 7, haben die Mutter und der

Vater dasselbe Allel an das Kind übertragen. Als Resultat kann direkt aus dem Genotyp

abgeleitet werden, welches Allel von jedem der beiden Chromosomen stammt.

Andererseits muss der genetische Marker 4 betrachtet werden. In diesem Fall ist der

Genotyp des Individuums ein A und ein G; wir wissen nicht, ob A vom Vater und G von

der Mutter, oder umgekehrt, stammt.

Wenn wir individuelle Chromosomen vergleichen möchten, um festzustellen,

welche Segmente IBD sind, müssen wir die Sequenz der Allele (Buchstaben) auf jedem

Chromosom kennen. Dies erfordert zunächst, dass die Zuordnung der Allele zu den

Chromosomen bestimmt wird; beispielsweise der A- und G-Allele an Marker 4 zu

jedem der väterlichen und mütterlichen Chromosomen. Dasselbe muss auch für die

Marker 3 und 8 durchgeführt werden. Der Prozess für die Bestimmung der Zuordnung

der Allel-Kopien zu Chromosomen wird Genotyp-Phasierung genannt. In Abschnitt 2

wird unser Ansatz für dieses Problem beschrieben.

8

1.3. Auffinden von übereinstimmenden Segmenten

Sobald die Phasierung abgeschlossen ist – das heißt, sobald wir die beiden Allel-Kopien jedes genetischen Markers jedem der beiden Chromosomen eines Individuums zugeordnet haben – ist der zweite Schritt, identische DNA-Sequenzen zwischen allen Paaren von Individuen in der Kunden-Datenbank zu identifizieren. Dies ist eine große Herausforderung, da eine große Zahl von Sequenzen verglichen werden muss. Zum Zeitpunkt des Verfassens dieses Dokuments haben wir mehr als 1,2 Millionen genotypisierte DNA-Proben in unserer Datenbank. Dies sind mehr als 700 Milliarden Paare von Individuen, die auf übereinstimmende Segmente geprüft werden müssen. Eine zusätzliche Komplikation ist, dass die Datenbank nicht statisch ist – sie wächst ständig weiter, da immer mehr Menschen den AncestryDNA-Test machen.

Quantitative Genetiker haben sehr schnelle Software, wie beispielsweise GERMLINE (Gusev et al., 2009) und Parente (Rodriguez et al., 2015) entwickelt, um Übereinstimmungen in einer großen Anzahl von Genotyp-Proben zu identifizieren. Selbst diese sehr schnelle Software ist zu langsam, um unsere riesige Kunden-Datenbank zu durchforsten. Daher haben wir eine Software entwickelt, die GERMLINE ähnlich ist und es uns erlaubt, schnell Übereinstimmungen in Hunderttausenden von phasierten Genotypen zu entdecken und schnell Übereinstimmungen bei Kunden zu finden, die jeden Tag neu in die Datenbank aufgenommen werden. Wir geben einen Überblick über unsere Software, J-GERMLINE, in Abschnitt 3.

1.4. Beurteilung der Aussagekraft der Übereinstimmungen für die Verwandtschaftsbewertung

Das Erfassen der Übereinstimmungen ermöglicht es uns, die Verwandtschaft zwischen Menschen zu bewerten. Im Allgemeinen gilt, je mehr IBD zwischen zwei DNA-Proben erkannt wird, desto wahrscheinlicher ist es, dass die beiden Menschen einen jüngsten gemeinsamen Vorfahren haben (siehe Abbildungen 1.1 und 1.2). In der Praxis kann das IBD, das wir erfassen, andere Faktoren widerspiegeln, wie Selektionsdruck (Albrechtsen et al., 2010), oder einen noch weiter entfernten gemeinsamen Stammbaum, wobei dieses IBD die Verwandtschaftsbewertungen durcheinanderbringt. Eine zusätzliche Überlegung ist es, dass, da kürzere IBD-Segmente schwierig ganz genau zu identifizieren sind, ein großer Anteil kürzerer IBD-Segmente, die wir erfasst haben, falsch sein könnte, und dadurch zu Fehlern in der Verwandtschaftsbewertung beitragen kann. Um die Genauigkeit unserer Verwandtschaftsbewertungen zu verbessern, haben wir einen einfachen, heuristischen Ansatz entwickelt, um die

9

„Aussagekraft“ des IBD für die Verwandtschaftbewertung zu quantifizieren. IBD-Segmente, von denen zu erwarten ist, dass sie für jüngste Verwandtschaften weniger aussagekräftig sind, bringen für die Verwandtschaftsbewertung weniger Nachweise. Wir beschreiben diesen Prozess, der als „Timber“ bezeichnet wird, in Absatz 4.

1.5. Verwandtschaftsbewertungen

Abschließend ist die vierte Herausforderung, wie die Identifizierung der IBD-Segmente übersetzt werden soll, um genaue Verwandtschaftsbewertungen durchzuführen. Eineiige Zwillinge sind IBD über ihr gesamtes Genom und Elternteil-Kind-Paare sind IBD in der Hälfte ihrer Chromosomen. Darüber hinaus ist jedoch, aufgrund des zufälligen Prozesses der Meiose und der Rekombination, die exakte Verwandtschaft zwischen zwei Individuen alleine auf der Grundlage des IBD unsicher. Durchschnittlich sind enger verwandte Menschen IBD über einen größeren Teil ihrer Genome, aber die Beziehung zwischen der Anzahl der Übereinstimmungen und der tatsächlichen Stammbaum-beziehung ist variabel.

Um ein Verfahren für eine genaue Verwandtschaftsbewertung aus dem IBD zu entwickeln, verwenden wir genetische Daten aus Tausenden von Paaren von Individuen mit bekannten Familienbeziehungen (entweder reale Personen mit dokumentiertem Stammbaum oder simulierte Individuen mit bekanntem Stammbaum). Zusätzlich verwenden wir weitere Informationen über das IBD hinaus, die aus den genetischen Daten erschlossen werden, um sicherzustellen, dass unsere Bewertungen der engen Verwandtschaften – spezifisch Eltern-Kind- und Geschwister-Beziehungen – so genau wie möglich sind. Verfahren für die Verwandtschaftsbewertung sind in Abschnitt 5 detailliert dargelegt.

Siehe Abbildung 1.4 für eine Übersicht zur Pipeline der Matching- und Verwandtschaftsanalyse.

10

Abbildung 1.4: Überblick über die Matching- und Analyse-Pipeline. Underdog ist der Name unseres Genotyp-Phasierungs-Algorithmus; J-GERMLINE ist unsere Matching-Software; und Timber ist unser Algorithmus für die Quantifizierung der Aussagekraft der übereinstimmenden Segmente.

2. Genotyp-Phasierungs-Algorithmus 2.1. Einleitung

Wie in Abschnitt 1.2 erklärt, können Genotypen alleine oft nicht darlegen, welche Allel-Kopie vom Vater und welche von der Mutter vererbt wurde. Eine Ausnahme ist es, wenn Proben von Genotypen sowohl von beiden Elternteilen als auch dem Kind genommen wurden (Trio genannt). In diesem Fall, da uns die Gesetze der genetischen Vererbung mitteilen, dass Allele nur in bestimmter Weise von einem Elternteil zu einem Kind übertragen werden können, ist diese Information nutzbar, um Allele jedem der beiden Chromosomen-Kopien ganz genau zuzuordnen. Da wir jedoch nicht abhängig davon sein dürfen, dass alle Kunden den AncestryDNA-Test mit beiden Elternteilen durchführen, benötigen wir einen hoch entwickelten Ansatz, der präzise die Phase der Genotypen – die Zuordnung der Allele zu den Chromosomen-Kopien – ohne Informationen eines Elternteils bestimmen kann.

Die Strategie ist es, die Genotypen gleichzeitig aus einer großen Anzahl nicht verwandter Individuen zu phasieren. Da die Genotypen, die an aufeinanderfolgenden SNPs beobachtet werden, auf viele verschiedene Arten phasiert sein können, ist es das Grundprinzip, eine Phase zu präferieren, die zu zwei Sequenzen auf jedem der Chromosomen führt, die auch in vielen anderen Proben beobachtet werden. In anderen Worten, wenn die Phasierung eine Sequenz ergibt, die einmalig ist, ist dies wahrscheinlich der falsche Weg, die Genotypen zu phasieren. Dieses Prinzip basiert

11

auf der Erwartung, dass kurze Sequenzen, Haplotypen genannt, gewöhnlich von vielen Menschen in einer großen Bevölkerung geteilt werden.

Praktisch ausgedrückt bedeutet dies, dass wir ein Huhn-Ei-Problem haben: eine genaue Phasierung der Genotypen erfordert das Bestimmen der allgemeineren Sequenzen (den Haplotypen); um die allgemeineren Haplotypen zu bestimmen, müssen wir zunächst wissen, wie die Genotypen phasiert werden sollen. Glücklicherweise ist Software, wie beispielsweise BEAGLE (Browning and Browning, 2007) und HAPI-UR (Williams et al., 2012) spezifisch entwickelt, um dieses Huhn-Ei-Problem gleichzeitig anhand Tausender von Proben zu lösen.

Ein bedeutender Vorteil solcher Ansätze ist es, dass sich die Phasierungs-Genauigkeit verbessert, da mehr unverwandte Proben gleichzeitig analysiert werden. Daher können wir prinzipiell eine sehr genaue Phasierung erhalten durch die gleichzeitige Analyse von Hunderttausenden von Genotyp-Proben der AncestryDNA-Kunden. So schnell Verfahren wie BEAGLE und HAPI-UR jedoch auch sind, sie sind nicht dafür ausgelegt, zusammen Millionen von Proben zu bearbeiten.

Daher haben wir eine modifizierte Strategie entwickelt, die wir „Underdog“ nennen. Underdog lernt Haplotyp-Häufigkeiten – oder genauer, Häufigkeiten der „Haplotyp-Cluster“ – in einer großen Zahl von AncestryDNA-Proben. Dann benutzen wir Underdog, sobald die Häufigkeiten der Haplotyp-Cluster bekannt sind, um die Genotypen der neuen Kunden schnell zu phasieren.

2.2. Der BEAGLE Genotyp-Phasierungs-Algorithmus

Aus den Genotyp-Daten erstellt BEAGLE ein statistisches Modell, das die Verteilung der Haplotypen in einer Population zusammenfasst, und verwendet die geschätzte Haplotyp-Verteilung, um die Genotyp-Phase zu schätzen. Um diese Berechnung durchführbar zu machen, unterteilen wir jedes Chromosom in kleine Segmente (oder „Fenster“) von jeweils 500 SNPs, und erstellen separat ein Haplotyp-Cluster-Modell für jedes dieser Chromosomen-Fenster. Die Wahrscheinlichkeitsverteilung über Haplotypen in einem Fenster wird mit einem Markov-Modell (Browning, 2006) definiert.

12

Um das Phasierungsverfahren zu veranschaulichen, nehmen wir an, dass wir ein Trainings-Set von Haplotypen haben, die mit sehr hoher Genauigkeit aus den Genotypen abgeleitet wurden (z.B. Genotypen, die zu Trios gehören). BEAGLE kann eine Genotyp-Phase ohne ein solches Trainings-Set bewerten, aber es ist einfacher, den Prozess auf diese Weise zu erklären, und spiegelt das Szenario wider, in dem Underdog (unten) eingesetzt wird, um neue Kunden-Genotyp-Proben zu phasieren.

Formaler ausgedrückt, innerhalb eines einzelnen 500-SNP-Fensters nimmt BEAGLE als Eingang (1) ein Referenz-Set R von zuvor phasierten Genotypen, und (2) ein Abfrage-Set U von unphasierten Genotypen (siehe Anhang A). BEAGLE startet durch zufällige Zuordnung einer Phase zu den Genotypen U. Dann erstellt es ein neues Set von Haplotyp-Cluster-Modellen aus den zufällig phasierten Genotypen U und den zuvor phasierten Genotypen R. Diese Haplotyp-Cluster-Modelle werden dann verwendet, um eine neue (und hoffentlich genauere) Phase für die Genotypen U zu bewerten. Der Prozess wiederholt sich bis die Haplotyp-Cluster-Modelle zu einer Lösung konvergieren. Dieses abschließende Set von Haplotyp-Cluster-Modellen wird verwendet, um die wahrscheinlichste Phase für jeden Genotyp in U zu berechnen. Die abschließende phasierte Genotyp-Probe wird aus der Phasenbewertung in jedem Fenster kombiniert. Für weitere Einzelheiten zum BEAGLE-Algorithmus schlagen Sie im Pseudocode in Anhang A und in der ursprünglichen Veröffentlichung (Browning and Browning, 2007) nach.

Das Verfahren, das BEAGLE für die Erstellung der Modelle aus einem Set von beispielhaften Haplotypen (R) nutzt, basiert auf den Grundlagen, die in Ron et al. (1998) beschrieben sind; siehe auch Browning (2006). Jeder Knoten im Modell repräsentiert einen „Cluster“ allgemein beobachteter Haplotypen; jeder Rand repräsentiert einen Übergang von einem allgemeineren Haplotyp-Cluster zu einem spezifischeren durch Splitten des Allels auf einer gegebenen Ebene (d. h. SNP). Ein Modell wird rekursiv durch Splitten von Knoten auf Ebene d in jeweils zwei Kinder erstellt, einen für jedes mögliche Allel auf dieser Ebene oder dem SNP. Knoten auf Ebene d + 1, deren Haplotyp-Cluster eine „ähnlich genug“-Verteilung von Haplotypen haben, werden jedoch verschmolzen. Nach dem Verschmelzen solcher Knoten-Paare wird das Verfahren für Ebene d + 1 abgeschlossen und die Modellerstellung geht zur nächsten Ebene über. Das Haplotyp-Cluster-Modell und der Prozess der Knotenver-schmelzung ist in Abbildung 2.1. dargestellt. Algorithmus 2 und 3 skizzieren dieses Modellerstellungsverfahren ausführlicher.

13

Abbildung 2.1: Eine Veranschaulichung des Haplotyp-Cluster-Modells in BEAGLE innerhalb eines einzelnen Fensters und Änderungen an BEAGLE, um große Datensätze (Underdog) zu verarbeiten. Für die Veranschaulichung enthält das Fenster nur 13 SNPs. (a) Jeder Knoten entspricht einem Cluster von Haplotypen; jeder Haplotyp wird von einer Sequenz farbiger Punkte repräsentiert. Der Startzustand besteht aus allen Haplotypen im Trainings-Set (R). (b) Jeder Knoten hat bis zu zwei ausgehende Übergänge für die zwei möglichen Allele (im Diagramm, blau und rot). Ein Übergang zu einem Knoten auf Ebene d splittet einen Haplotyp-Cluster, basierend auf dem SNP an Position d im Haplotyp. (c) Die Haplotyp-Cluster auf Ebene 1 ergeben sich aus dem Splitten des ersten (am weitesten links gelegenen) SNPs. Beachten Sie, dass nur die SNPs nach dem ersten in den Clustern dargestellt sind, da der Verschmelzungsprozess auf Ebene d nur mit der Verteilung der Haplotypen, die dem d-ten SNP folgen, befasst ist. (d) Wir behalten die Zählungen für jeden Übergang im Auge (dargestellt als eine Zahl neben jedem Pfeil). Sie bestimmen die Übergangswahrscheinlichkeiten für das HMM. (e) Diese beiden Knoten auf Ebene 2 werden während des Lernprozesses verschmolzen, da die Verteilung der Haplotypen in jedem der Knoten nach dem Splitten identisch ist. (f) BEAGLE-Modelle haben keine Ränder für Haplotypen, die nicht in dem Trainings-Set erscheinen (z.B. rot, rot, blau); in Underdog ist jedoch ein Rand erlaubt, der einer Haplotyp-Zählung von Null entspricht. Wenn die Übergangswahrscheinlichkeiten des Modells initialisiert werden, ordnen wir solchen Haplotypen eine Nicht-Null-Wahrscheinlichkeit zu. (g) Wir splitten und verschmelzen weiter Knoten (siehe Algorithmus bis alle D = 13 Allele in den Haplotypen in dem Modell repräsentiert sind. Ebene D ist immer ein einzelner Endknoten. Im Diagramm sind nur die ersten 3 der D = 13 Ebenen dargestellt.

Bis jetzt haben wir ein Modell beschrieben, das eine Wahrscheinlichkeitsverteilung für eine einzelne Haplotyp-Sequenz in einem einzelnen Fenster definiert. Um dieses Modell auf die Genotyp-Daten anzuwenden, müssen wir zusammen zwei Haplotypen modellieren; das heißt, wir haben ein Haplotyp-Cluster-Modell für jedes Chromosom in dem Paar. Zweckmäßigerweise kann ein Paar von Haplotyp-Cluster-Modellen verwendet werden, um ein Hidden Markov-Modell (HMM) zu definieren, in dem: (1) wir einen versteckten Zustand für

14

jede Ebene oder jeden SNP haben; (2) jeder versteckte Zustand im HMM die Zuordnung des Zustands des Haplotyp-Cluster-Modells zu jedem der Chromosomen der gegebenen SNP repräsentiert; und (3) die HMM Übergangswahrscheinlichkeiten durch die Zählungen der Übergänge in dem Haplotyp-Cluster-Modell definiert sind (Abbildung 2.1, Teil d). Daher erbringt das Set aller Pfade durch das HMM, die mit dem Genotyp übereinstimmen, eine Wahrscheinlichkeitsverteilung über mögliche Wege der Phasierung des Genotyps. Sobald das Haplotyp-Cluster-Modell erstellt ist, definieren wir ein HMM, und dieses HMM erlaubt uns, die Phase bei gegebenem Genotyp effizient zu prüfen. Die Genotyp-Phasenschätzung (siehe Algorithmus 1 in Anhang A) ist der wahrscheinlichste versteckte Zustand im HMM, dies wird effizient mit dem Viterbi Algorithmus berechnet (Rabiner, 1989). Die abschließende Phase über das gesamte Chromosom wird durch Verbinden der Phasenschätzungen aus einzelnen Fenstern erlangt; siehe Anhang B, um mehr zu erfahren.

Eine wichtige Beschränkung von BEAGLE ist, dass der Berechnungsaufwand des Modellerstellungsprozesses mit der Größe von R und U steigt. Darüber hinaus können die Ergebnisse von BEAGLE nicht einfach wieder verwendet werden, um neue Genotyp-Proben zu phasieren. Um diese Beschränkungen zu überwinden, schlagen wir einen alternativen Ansatz vor: wir lernen Haplotyp-Cluster-Modelle einmal aus einem großen Trainings-Set phasierter Genotypen, speichern die gelernten Modelle in einer Datei und verwenden diese Modelle dann, um neue Genotyp-Proben schnell zu phasieren. Wir beschreiben diese Erweiterungen von BEAGLE – die wir als Underdog bezeichnen – in Anhang B. Im folgenden Abschnitt beschreiben wir unsere Experimente, die die Verbesserungen beim Berechnungsaufwand und bei der Phasierungs-Genauigkeit durch die Verwendung von Underdog belegen.

2.3. Die Bewertung der Genotyp-Phasierungs-Algorithmen

Hier vergleichen wir die Laufzeit und Phasierungs-Genauigkeit von BEAGLE, angewendet auf Datensätze verschiedener Größen mit der Laufzeit und Genauigkeit des Underdog Phasierungs-Algorithmus. Wir haben die Phasierungs-Genauigkeit an einem Test-Set von 1188 nicht verwandten Individuen aus unserer Datenbank bewertet, die genau phasiert wurden, da sie jeweils zu einem Trio gehörten und unter Verwendung der elterlichen Information phasiert wurden (das heißt, wir haben die Genotypen beider Elternteile verwendet, um die Phase zu bestimmen, aber wir haben die Eltern nicht in das Test-Set aufgenommen, das BEAGLE und Underdog zur Verfügung steht). Um die Phasierungs-Genauigkeit zu bewerten, betrachten wir nur Genotypen, die im Trio

15

eindeutig phasiert werden können. Eine weitere Bewertungsmetrik, die wir einsetzen, ist das Unterstellen von Fehlern – die Rate, bei der Genotypen inkorrekt bewertet werden, wenn 1 % der Genotypen einheitlich und zufällig auf Fehlend eingestellt werden.

Tabelle 2.1 zeigt, dass unsere Implementierung die Phase neuer Genotyp-Proben präziser ableitet als BEAGLE – und mit viel geringerem Berechnungsaufwand – vorausgesetzt, wir können eine sehr große Panel phasierter Genotypen verwenden. Underdog ist in der Lage, eine hohe Genauigkeit zu erreichen, da es von Hunderttausenden von Proben profitiert. Ferner führt unsere verteilte Verarbeitungsimplementierung zu sehr geringen Laufzeiten. Da die AncestryDNA-Datenbank weiter gewachsen ist, konnten wir immer größere Phasierungs-Panele konstruieren, die zu immer größerer Genauigkeit bei der Phasierung von Kunden-Proben führen. (Zu Beginn des Jahres 2016 werden Kunden, die den AncestryDNA-Test machen, mit einem Panel von mehr als 300.000 Genotypen phasiert.)

Tabelle 2.1: Resultate aus einem Experiment, das die Phasierungs-Genauigkeit der BEAGLE Version 3.3.2 mit Datensätzen verschiedener Größen mit der Phasierungs-Genauigkeit von Underdog mit einem viel größeren Referenz-Panel von 189.503 Proben vergleicht, in dem diese Proben in großen Mengen mit HAPI-UR phasiert wurden. Dies sind Resultate nur für Chromosom 1. Wir führen BEAGLE mit Standard-Parametern aus, außer dass wir n = 20 einsetzen (dies ist die Zahl der Phasierungsschätzungen, die für jede Genotyp-Probe simuliert werden). Der Phasierungs-Fehler wird in einem Test-Set von 1188 trio-phasierten Proben bewertet. Der Phasierungs-Fehler oder die „Schaltfehler-Rate“ wird als die Rate der Nichtübereinstimmung zwischen der geschätzten Phase und dem trio-phasierten Haplotyp berechnet, nur für Loci, bei denen die Phase eindeutig bestimmt werden kann; d.h. Stellen mit mindestens einem homozygoten Individuum im Trio (Williams, 2012). „Modellgröße“ bezieht sich auf die Gesamtzahl der Haplotyp-Cluster-Modellzustände in allen Chromosomen-Fenstern. Für Underdog zeigen wir zwei Berechnungszeiten: die Gesamtzeit, die benötigt wurde, um die Berechnung auf einem einzelnen CPU auszuführen, und die Berechnungszeit auf einem Hadoop-Cluster mit 20 32-Kern Compute-Knoten (wir verwenden das MapReduce-Framework; siehe Dean and Ghemawat, 2008).

16

Insgesamt ist, da wir den Modellerstellungsprozess von der Genotyp-Schätzungsphase entkoppelt haben, eine größere Verringerung des Berechnungsaufwands für die Schätzungsphase bei neuen Proben festzustellen. Der intensivste Berechnungsschritt – das Erstellen der Haplotyp-Cluster-Modelle – ist eine nur einmal auftretende Berechnungsinvestition. Ein weiterer Vorteil dieses Ansatzes ist es, dass kein „Batch-Effekt“ auftritt, bei dem die Phasierungsschätzungen etwas unterschiedlich sind, abhängig davon, welche Proben in dem gleichzeitig zu phasierenden Batch enthalten sind. Dies stellt eine größere Konsistenz bei den Phasierungsschätzungen sicher.

3. Erfassen des IBD 3.1. Matching-Algorithmus

Sobald die Phase jeder Genotyp-Probe bewertet wurde, gehen wir das Problem an, IBD-Segmente oder „Übereinstimmungen“ zu finden, die von Proben-Paaren geteilt werden. Dies wird effektiv auf das Problem reduziert, lange Sequenzen (Strings von As, Ts, Gs und Cs) zu finden, die in den Chromosomenpaaren identisch sind. Es gibt jedoch einige praktische Fragen, die sich aus den Besonderheiten der genetischen Daten ergeben, ebenso aus der Größe unseres Datensatzes, die dieses Problem komplexer machen als es zunächst erscheinen mag. In diesem Abschnitt beschreiben wir zunächst unseren Ansatz, erklären dann wie dieser Ansatz einige der allgemeinen Probleme beim Auffinden von Übereinstimmungen in phasierten Genotyp-Daten angeht.

Unsere allgemeine Strategie ist in 5 Schritte unterteilt. Wir stellen die einzelnen Schritte in Abbildung 3.1. dar.

1. Unterteilen jedes Chromosoms in kurze Segmente, die wir „Fenster“ nennen.

In unserer Implementierung enthalten alle Fenster genau 96 SNPs. Diese Zahl wurde gewählt, um ein Gleichgewicht zwischen Berechnungsaufwand und Genauigkeit herzustellen. (Beachten Sie, dass diese Fenster nicht gleich sind wie die Fenster der Genotyp-Phasierung [siehe Abbildung 3.1, Abschnitt B] und dass wir 10 SNPs pro Fenster in dem Beispiel einsetzen, um sie übersichtlicher zu machen.)

2. Für jedes Individuen-Paar werden Fenster identifiziert, in denen die Allele an allen SNPs in einem der beiden phasierten Haplotypen des Individuums mit allen Allelen an denselben Positionen in einem der phasierten Haplotypen des

17

anderen Individuums identisch sind. Wir nennen dies „Seed Matches (Anfangsübereinstimmungen)“ (siehe Abbildung 3.1, Abschnitt D).

3. Für jeden Seed Match versuchen wir, diesen in beide Richtungen entlang des Chromosoms auszudehnen bis (a) der Anfang oder das Ende des Chromosoms erreicht ist, oder (b) eine homozygote Inkongruenz erfasst wird. Eine homozygote Inkongruenz ist ein Paar von Genotypen an demselben SNP, die nicht kompatibel sind, unabhängig davon, wie sie phasiert sind (zum Beispiel AA und GG). Der bewertete IBD-Bereich wird nach der Start- und Endposition der SNPs definiert, die in das erweiterte Segment fallen (siehe Abbildung 3.1, Abschnitt D).

4. Berechnen der Länge des gewählten Matching-Segments hinsichtlich des genetischen Abstands, gemessen in Centimorgan (cM). Der genetische Abstand ist proportional zu der erwarteten Rate von Rekombinationen entlang des Chromosomenabschnitts. Da individuelle Chromosomen die Rekombinationsereignisse in aufeinanderfolgenden Vererbungsgenerationen akkumulieren, lassen IBD-Segmente, die große genetische Abstände überspannen, auf eine jüngere Vererbung schließen. Unten wird erläutert, wie wir diesen genetischen Abstand der erfassten IBD-Segmente nutzen, um die Verwandtschaft zu bewerten.

5. Wenn das Segment länger als 6 cM ist, speichern wir das Segment als eine Übereinstimmung in der Datenbank.

Das hier skizzierte Verfahren ist der Strategie sehr ähnlich, die in der Software GERMLINE implementiert ist (Gusev et al., 2009).

Wie in Schritt 2 beschrieben, nutzen wir die phasierten Genotypen, um Seed Matches zu identifizieren. Im Beispiel (Abbildung 3.1) identifizieren wir 2 Seed Matches in 2 nebeneinanderliegenden Fenstern. Dann erweitern wir das gewählte IBD-Segment bis eine homozygote Inkongruenz auftritt. In dem Beispiel verhindert der Fehler in der bewerteten Phase nicht, dass SNPs in diesem Fenster in das IBD-Segment eingeschlossen werden. Dies zeigt wie wichtig es ist, sich nicht allein auf die Haplotyp-Sequenzen zu verlassen, die im Genotyp-Phasierungs-Schritt identifiziert wurden, um die IBD-Segmente zu identifizieren. Obwohl unsere Phasierung insgesamt sehr genau ist, können selbst kleine Phasierungsfehler die Erfassung langer Segmente, die IBD sind, vereiteln. Unsere Lösung ist, nur die phasierten Genotypen zu verwenden, um Anfangskandidaten (Seed Matches) vorzuschlagen, in Schritt 3 verwenden wir dann die unphasierten Genotyp-Daten, um die Übereinstimmungen zu erweitern. In diesem Beispiel erstreckt sich das

18

Matching-Segment über die meisten in der Abbildung dargestellten SNPs und ist nahezu identisch mit der Länge des Ground Truth IBD-Segments.

Abbildung 3.1: Das Beispiel der IBD-Erfassung in zwei DNA-Proben an 40 aufeinanderfolgenden genetischen Markern (SNPs). In A zeigen wir die (unbeobachteten) Ground Truth-Sequenzen an den 40 SNPs, wobei in Rot die Sequenzpaare hervorgehoben werden, die IBD sind. B zeigt die Genotyp-Daten – ungeordnete Paare von Allelen an 40 SNPs – die in unseren Daten verfügbar sind. Beachten Sie, dass die Genotypen „AG“ und „GA“ identisch sind, da die Reihenfolge der Allele im Genotyp nicht aussagefähig ist. Diese Genotypen werden in 4 Fenster unterteilt, die jeweils, nur zur Veranschaulichung, 10 SNPs enthalten. C zeigt die Genotyp-Phase – Zuordnung der Allele zu den beiden Chromosomenkopien – die von Underdog bewertet wird, wobei in rot dasselbe IBD-Segment wie in A hervorgehoben wird. Achten Sie darauf, dass Underdog die 7 am weitesten rechts liegenden SNPs im IBD-Segment falsch phasiert. D zeigt die Resultate des Matching durch J- GERMLINE zu den phasierten Genotypen, die in C dargestellt sind. Zunächst werden zwei Fenster identifiziert, die Seed Matches enthalten. Die Seed Matches, in hellblau hervorgehoben, sind innerhalb eines Fensters identische Sequenzen. Zweitens wird, mit einem der Seed Matches beginnend, das Matching-Segment in beide Richtungen erweitert bis eine homozygote Inkongruenz identifiziert wird. Die homozygoten Inkongruenzen werden mit einem Sternchen (*) gekennzeichnet. Das endgültige IBD-Segment überspannt 37 SNPs, wie es von dem orangefarbenen Balken angezeigt wird. Es ist nahezu identisch mit den SNPs, die vom Ground Truth IBD-Segment überspannt werden (in A dargestellt). Der einzige Fehler ist die Inklusion eines zusätzlichen SNP auf der linken Seite, der vor einer homozygoten Inkongruenz erreicht wird.

Ein wichtiges Merkmal unseres Verfahrens ist es, dass wir nicht alle Matching-Segmente im Auge behalten; in Schritt 5 filtern wir eine Kandidaten-Übereinstimmung heraus,

19

wenn ihr genetischer Abstand geringer als 6 cM ist. Der Cutoff von 6 cM wurde nach Berücksichtigung verschiedener Faktoren gewählt. Der erste Faktor ist die Datenspeicherung. Da die Zahl der Matching-Segmente exponentiell mit abnehmender Länge zunimmt, reduzieren wir die Speicheranforderungen an unsere Matching-Datenbank durch die Erhöhung des Cutoff erheblich. Ein zweiter und entscheidender Faktor ist, dass die Genauigkeit der IBD-Erfassung bei abnehmender IBD-Länge schnell abfällt – das heißt, je kürzer die Länge des erfassten IBD-Segments (ausgedrückt in genetischem Abstand), desto weniger wahrscheinlich ist es, dass das erfasste Chromosomen-Segment wirklich von einem gemeinsamen Vorfahren ererbt wurde.

Um das Phänomen der abnehmenden Genauigkeit mit abnehmender IBD-Länge zu veranschaulichen, untersuchen wir die Konkordanz des Matching zwischen Elternteil und Kind, unter Verwendung der beschriebenen IBD-Erfassungsstrategie. Normalerweise, wenn zwei Individuen, X und Z, über ein gegebenes Chromosomen-Segment IBD sind, würden wir erwarten, dass Z auch IBD mit mindestens einem der Elternteile von X ist. (Es wäre denkbar, dass X und Z IBD teilen, ohne dass ein Elternteil von X dasselbe IBD-Segment teilt, aber dies sollte sehr selten auftreten.) Daher können wir die Genauigkeit der IBD-Erfassung durch Quantifizierung der Konkordanz des IBD zwischen Elternteilen und Kind bewerten; eine genauere IBD-Erfassung sollte eine bessere Elternteil-Kind-Konkordanz erbringen.

Abbildung 3.2 fasst IBD zusammen, das in 20.000 ausgewählten Übereinstimmungen erfasst wurde, so dass für jede Übereinstimmung zwischen den Individuen X und Z eine entsprechende Übereinstimmung zwischen den Individuen Y und Z erfasst wird, so dass Y ein Elternteil von X ist. Wie erwartet häufen sich die meisten Punkte im Scatterplot um die Diagonale an (die gepunktete orangefarbene Linie); für diese Punkte ist der Betrag des im Kind erfassten IBD nahezu identisch mit dem Betrag, der im Elternteil erfasst wurde. Wenn wir uns jedoch die untere linke Ecke des Diagramms anschauen, sind immer mehr Punkte entfernt von der Diagonalen verteilt. Dies zeigt, dass die Konkordanz bei weniger IBD nicht so stark ist. (Beachten Sie, dass die geringere Anzahl der Punkte entfernt von der Diagonalen nahe 5 cM ein Artefakt ist, aufgrund der Tatsache, dass wir nur Paare mit einem gesamten IBD von mindestens 5 cM betrachten.)

20

Abbildung 3.2: Konkordanz der Übereinstimmung zwischen Kind und Eltern. Jeder Punkt im Scatterplot entspricht einem Tripel (X,Y,Z), so dass die Individuen X und Z IBD > 5 cM teilen, die Individuen Y und Z teilen IBD > 5 cM und Individuum Y ist ein Elternteil von X. Insgesamt 20.000 solcher Tripel sind in dieser Abbildung geplottet. Die horizontale und vertikale Achse stellen die gesamten erfassten IBD dar (in cM). Beachten Sie, dass IBD auf einer logarithmischen Skala und nur für IBD < 100 cM dargestellt ist.

Wir betrachten diese Konkordanz ein zweites Mal in Abbildung 3.3. Hier quantifizieren wir

die Konkordanz durch Zählen der Male, die IBD mit der Mutter, dem Vater oder beiden

Elternteilen geteilt wird, geschichtet nach der gesamten IBD-Länge im Kind – in cM.

(Wir vergleichen keine genauen Stellen der IBD-Segmente, nur die gesamte IBD-Länge

zwischen Paaren von Individuen.) Da die Länge des erfassten IBD-Segments zwischen Kind

X und Individuum Y abnimmt, ist es weniger wahrscheinlich, dass wir auch IBD > 6 cM

zwischen Individuum Y und einem der Elternteile von X erfassen. Dies zeigt, dass die

Erfassung kleinerer Beträge geteilter IBD weniger genau ist. In weiteren Experimenten

haben Durand et al. (2014) gezeigt, dass GERMLINE bei IBD-Längen unter 4 cM

besonders ungenau ist.

21

Abbildung 3.3: Konkordanz der Übereinstimmung zwischen Kind und Eltern. Für eine gegebene gesamte IBD-Länge zwischen Kind X und Individuum Y zählen wir die Anzahl der Male, die wir IBD bei diesen Längen erfassen und vergleichen sie mit der Anzahl der Male, die wir IBD (mit einer Gesamtlänge > 6 cM) erfassen, zwischen dem Vater von X (blau) und der Mutter von X (grün) und beiden Elternteilen (orange). Diese Abbildung wird aus Matching-Ergebnissen von 16.178 Mutter-Vater-Kind-Trios kompiliert.

Eine Komplikation ist, dass eine genaue Erfassung von IBD eine hohe Dichte von SNPs in allen Bereichen des Genoms erfordert. Die Array-Technologie, die wir einsetzen, um die Genotyp-Daten zu erfassen, erbringt hochdichte SNP-Daten über den größten Teil des Genoms, aber es gibt einige genomische Bereiche mit ungewöhnlich niedriger SNP-Dichte. Dies bedeutet, dass Übereinstimmungen, die diese SNP-armen Bereiche überlappen, weniger verlässlich sind. Um dieses Problem auszugleichen, rechnen wir diese Übereinstimmungen durch Verringerung ihrer Gesamtlänge heraus (in cM).

Eine weitere Komplikation ist, dass die Identifizierung von Seed Matches schnell unlösbar wird, wenn die Zahl der DNA-Proben wächst. Im Januar 2016 enthielt die AncestryDNA-Datenbank rund 1,5 Millionen Proben. Um die Seed Matches in einer Datenbank dieser Größe zu identifizieren, müssten ungefähr 4 × 500 Milliarden Sequenzvergleiche für jedes 96-SNP-Fenster durchgeführt werden. Um diesen Schritt lösbar zu machen, verwenden wir das Hashing. Hashing verhindert explizit die Ausführung von Milliarden von Sequenzvergleichen. Genauer gesagt implementieren wir eine Hash-Funktion, f(h,w), die eine Zeichenfolge h und einen Fensteridentifikator w in einem ganzzahligen Wert abbildet. Sie hat die Eigenschaft, dass, wenn zwei verschiedene Individuen identische Strings in demselben Fenster haben, sie denselben

22

Wert f(h,w) haben. Dies macht es möglich, genaue Übereinstimmungen in skalierbarer Art und Weise schnell zu identifizieren. Da die Zahl der Seed Matches in einem Fenster normalerweise einen sehr geringen Teil der gesamten Anzahl von Chromosomenpaaren ausmacht, bringt das Hashing eine äußerst schnelle Erfassung der Seed Matches.

GERMLINE ist in der Lage, effizient und genau IBD-Segmente zu identifizieren, die eine jüngere gemeinsame Vererbung in einer großen Datenbank von Genotypen andeuten. Wir können jedoch GERMLINE nicht direkt für das Erfassen von Übereinstimmungen in den AncestryDNA-Genotyp-Proben verwenden, da GERMLINE nicht für eine effiziente Erfassung von IBD in einer wachsenden Datenbank ausgelegt ist. Deshalb haben wir unser eigenes Software-Toolkit für die IBD-Erfassung und -Speicherung, mit der Bezeichnung J-GERMLINE entwickelt. Statt IBD in allen Proben gleichzeitig zu erfassen, verarbeitet es Genotypen inkrementell, wenn neue Kunden-Proben in die AncestryDNA-Datenbank eingegeben werden. Zusätzlich erreichen wir eine verbesserte Berechnungs-Skalierbarkeit mit dem MapReduce-Framework, die es erlaubt, die Berechnung auf verschiedene Compute-Knoten zu verteilen.

3.2. Leistungsfähigkeit von J-GERMLINE

Um die Vorteile unserer Softwareimplementierung, J-GERMLINE, zu zeigen, vergleichen wir die Verarbeitungszeiten von GERMLINE und J-GERMLINE in Genotyp-Datensätzen verschiedener Größen.

Zunächst zeigen wir, dass das inkrementelle Erfassen von IBD mit J-GERMLINE eine signifikante Reduzierung im Berechnungsaufwand im Vergleich zu einer erneuten Ausführung von GERMLINE mit sich bringt. Abbildung 3.4 vergleicht die Anzahl der Male, die benötigt werden, um neue IBD-Segmente zu erfassen, wenn wir 1000 Genotyp-Proben in Datenbanken verschiedener Größen aufnehmen. Die Verarbeitungszeit für GERMLINE wächst schneller als J-GERMLINE da GERMLINE die IBD-Resultate für alle Proben erneut berechnet, während J-GERMLINE nur IBD zwischen den Proben X und Y erneut berechnet, in denen X eine Probe aus der bestehenden Datenbank und Y eine neue Probe ist.

23

Abbildung 3.4: Die Verarbeitungszeit von GERMLINE und J-GERMLINE für das Erfassen von IBD in 1000 neuen Genotyp-Proben, die einer bestehenden Genotyp-Datenbank (Grundeinstellung) verschiedener Größen hinzugefügt werden. In dieser Einstellung erhöht sich die Laufzeit von J-GERMLINE linear in der Größe der Grundeinstellung, während sich die Laufzeit von GERMLINE quadratisch erhöht. Sowohl GERMLINE als auch J-GERMLINE werden auf einer einzelnen CPU ausgeführt.

Als nächstes zeigen wir in Abbildung 3.5, dass das Zurverfügungstellen von mehr

Berechnungsressourcen an J- GERMLINE die Zeit der Verarbeitung desselben

Datensatzes verringert. In diesem Beispiel ist das Ziel, IBD in 1000 neuen Genotyp-

Proben zu erfassen, die einer bestehenden Datenbank von 20.000 Proben

hinzugefügt werden. Wenn die Berechnung über sechs Knoten verteilt wird, dauert

es nur 100 Sekunden, um IBD in den 1000 Genotypen zu erfassen. Über sechs

Knoten hinaus führt das Hinzufügen von mehr Compute-Knoten zu einer

Verringerung der Verbesserungen in der Verarbeitungszeit, obwohl exakte

Resultate etwas von der spezifischen Hadoop-Implementierung und der Architektur

des Compute-Clusters abhängen.

24

Abbildung 3.5: Die Beziehung zwischen der J-GERMLINE Verarbeitungszeit und der Anzahl der für die Verarbeitung verfügbaren Compute-Knoten. In diesem Experiment verwenden wir J-GERMLINE, um IBD in 1000 neuen Genotyp-Proben zu erfassen, die einer bestehenden Datenbank von 20.000 Proben hinzugefügt wurden. Da die Berechnungszeit leicht variieren kann, wiederholen wir dieses Experiment 10 mal und berichten den Mittelwert (Kreise) und die Standardabweichung (Fehlerbalken) in diesen 10 Wiederholungen. Hier führt jeder Compute-Knoten gleichzeitig bis zu 16 Hadoop MapReduce-Mappers aus.

Zusammengefasst erlaubt uns J-GERMLINE, IBD-Segmente schnell und genau in einer großen, kontinuierlich wachsenden Datenbank zu identifizieren. Die verteilte Verarbeitungsarchitektur von J-GERMLINE gibt uns die Flexibilität, auf die wachsenden Verarbeitungsanforderungen aufgrund der wachsenden Datenbank zu reagieren. Danach betrachten wir die Herausforderung, die IBD-Informationen einzusetzen, um genaue Bewertungen der familiären Verwandtschaft auszuführen.

4. Anpassung von IBD für die Verwandtschaftsbewertung

4.1. Motivation

IBD, die zwischen zwei Genotyp-Proben erfasst werden, können verwendet werden, um eine Stammbaumbeziehung zu bewerten, denn näher verwandte Menschen haben

25

im Durchschnitt mehr DNA, die IBD ist. Um die Genauigkeit dieser Bewertung zu verbessern, wenden wir zunächst einen einfachen Algorithmus an, der die Nachweise aus den erfassten IBD (siehe Abschnitt 3), die wahrscheinlich weniger aussagekräftig für eine enge Verwandtschaft sind, abschwächt. Wir nennen diesen Algorithmus „Timber.“

Um die Motivation hinter diesem Algorithmus zu verstehen, ist es aufschlussreich, die Matching-Resultate, die sich aus einer großen Anzahl von Proben angesammelt haben, zu untersuchen. In Abbildung 4.1 zeigen wir aggregierte Matching-Resultate für drei Individuen, die aus unserer Datenbank ausgewählt sind. Für jedes der 96-SNP-Fenster, die für die IBD-Erfassung verwendet werden, zeigt Abbildung 4.1 die Gesamtzahl der IBD-Segmente, die länger als 6 cM sind, die in Paaren erfasst wurden (i, j), in denen i das ausgewählte Individuum und j ein Individuum aus einem Referenzpanel von 325.932 Genotypen ist (das Timber-Referenzpanel). Abschnitt A veranschaulicht einen allgemeinen Fall, in dem IBD in einem Individuum i mit nur einem sehr geringen Anteil an Proben im Timber-Referenzpanel innerhalb eines gegebenen Bereichs des Genoms erfasst wird. Dies spiegelt unsere Erwartung wider, dass sehr wenige Paare von Individuen in der AncestryDNA-Datenbank eng verwandt sind. Vergleichsweise hat Individuum B eine wesentlich höhere Matching-Rate mit dem Timber-Referenzpanel. Viele Faktoren könnten die verschiedenen genomweiten Raten von IBD, die von Individuum A und B geteilt werden, erklären. Wenn wir beispielsweise annehmen, dass die IBD-Erfassung bei Individuum A und B gleichermaßen genau ist, dann könnten demographische oder historische Faktoren die verschiedenen Matching-Raten erklären; beispielsweise könnte eine Hypothese sein, dass die Vorfahren von Individuum B längere Zeit in den Vereinigten Staaten gelebt haben, während die Vorfahren von Individuum A neuere Einwanderer in die Vereinigten Staaten sind. Bei diesem Szenario wäre es wahrscheinlicher, andere Verwandte von Individuum B zu finden als von Individuum A, da zum Zeitpunkt der Verfassung dieses Dokuments die große Mehrheit der Menschen, die den AncestryDNA-Test gemacht haben, aus den Vereinigten Staaten stammten. Dies veranschaulicht einen Trend, den wir generell beobachtet haben: das Gesamtmuster von IBD kann sich von einem Individuum zum nächsten wesentlich unterscheiden, und diese Unterschiede können eine unterschiedliche Herkunft von Vorfahren widerspiegeln.

26

Abbildung 4.1: A, B und C zeigen (separat für drei Individuen) Match-Counts in allen 96-SNP-Fenstern im Genom. Noch spezifischer zählen wir in jedem Fenster auf den autosomalen Chromosomen 1 bis 22 die Anzahl der Male, die das Fenster ein IBD-Segment überlappt, das zwischen den gegebenen Individuen (markiert mit A, B oder C) und Individuen, die in einem Referenzpanel von 325.932 Genotypen enthalten sind, erfasst wird.

Als nächstes ist das Individuum in Abschnitt C zu betrachten, das eine höhere Matching-Rate hat als die beiden Individuen A und B. Zusätzlich ist die Matching-Rate über das Genom höchst variabel; bestimmte Bereiche, wie ein Bereich in der Nähe des Zentromer von Chromosom 3, und ein Bereich auf Chromosom 10, überlappen eine ungewöhnlich hohe Zahl an erfassten IBD-Segmenten. Wenn das gesamte erfasste IBD auf die Vererbung von jüngeren gemeinsamen Vorfahren zurückgeht, ist es äußerst unwahrscheinlich, dass wir exzessive IBD in spezifischen Bereichen des Genoms beobachten können. Dies lässt vermuten, dass viele dieser Spitzen im IBD nicht sehr wahrscheinlich eine jüngere Vererbung von gemeinsamen Vorfahren widerspiegeln. Stattdessen spiegeln diese Spitzen mit höherer Wahrscheinlichkeit andere demographische Faktoren wieder (siehe beispielsweise Albrechtsen et al., 2010). Die Folgerung ist, dass IBD, das in Bereichen mit hoher Matching-Rate erfasst wird, weniger nützlich für die Bewertung jüngerer Verwandtschaften sein dürfte.

27

Aufgrund dieser Beobachtungen haben wir ein Verfahren, Timber, entwickelt, das Match-Counts nutzt, die sich über Tausende von Proben angesammelt haben, um die Verwandtschaftsbewertung vorzunehmen. Die Strategie ist es, Matching-Resultate zu analysieren, die sich über eine große Zahl von Genotyp-Proben angesammelt haben, dann separat für jedes Individuum Bereiche des Genoms mit ungewöhnlich hohen Matching-Raten zu identifizieren. Sobald wir diese Bereiche identifiziert haben, verringern wir den genetischen Abstand der erfassten IBD-Segmente, die diese Bereiche überlappen. Wir nennen diese angepassten Abstände „Timber Scores.“ Da Individuen in genomweiten Matching-Mustern stark variieren können, wie wir in Abbildung 4.1 gesehen haben, führen wir diese Analyse für jede Genotyp-Probe separat aus. Im nächsten Abschnitt beschreiben wir den Timber-Algorithmus ausführlicher.

4.2. Der Timber-Algorithmus

Um die Timber Scores für alle IBD-Segmente zu berechnen, führen wir die folgenden Schritte aus:

1. Timber-Referenzsatz, der mit R bezeichnet ist, auswählen. Unser Referenzsatz

enthält 325.932 Genotyp-Proben. 2. Das Genom in Fenster unterteilen. Hier nutzen wir dieselben 96-SNP-

Fenster, die für die Erfassung von IBD verwendet wurden. n soll die Anzahl der Fenster sein.

3. Für jede Probe i und für jedes Fenster, die Anzahl der Übereinstimmungen zählen, die in J-GERMLINE zwischen Probe i und i' ∈ R , die das Fenster überlappen, erfasst wurden. Wir stellen diese Zählungen als Vektor, Ci = dar (Ci,1, Ci,2, …, Ci,n).

4. Für jede Probe i die Gewichte Wi = <Wi,1, Wi,2, …, Wi,n> = f(Ci) berechnen, wobei jedes Gewicht Wi,j eine Zahl zwischen 0 und 1 ist, und f eine Wahrscheinlichkeitsdichtefunktion, die in die Matching-Daten Ci für Probe i eingefügt wird. (Hier besprechen wir nicht die Spezifikation dieses Modells und das Verfahren für die Einfügung dieses Modells in die Daten.)

5. Timber Score für jedes Matching-Segment berechnen. g soll ein Matching-Segment sein, das im Paar (i, i') erfasst wurde, und j∈ g soll der Satz aller Fenster j sein, die das Segment g überlappen. Der Timber Score für Segment g ist definiert als TimberScoreg =j∈g dist(j) × Wi,j × Wi',j, wobei dist(j) der genetische Abstand ist, der von den SNPs überspannt wird, die dem Fenster j zugeordnet sind.

28

Siehe Anhang C für eine Beschreibung derselben Schritte im Pseudocode. Wenn ein IBD-Segment einen Bereich nicht mit einer ungewöhnlich hohen Matching-Rate überlappt, ist der endgültige Timber Score nahezu identisch mit der ursprünglichen Länge des IBD-Segments. Wenn andererseits einige Fenster, die das Segment überlappen, eine unnormal hohe Matching-Rate gegenüber dem Timber-Referenzpanel zeigen, ist der Timber Score kleiner als der ursprüngliche genetische Abstand des IBD-Segments.

Ein Nachteil dieses Verfahrens ist es, dass es jedes Fenster isoliert betrachtet und die Informationen von benachbarten Fenstern auf demselben Chromosom ignoriert. Um zu veranschaulichen, warum dies eine Einschränkung sein kann, muss der Fall betrachtet werden, bei dem IBD zwischen zwei Individuen einen großen Teil von Chromosom 1 überspannt. In diesem Fall können wir uns normalerweise darauf verlassen, dass das erfasste IBD von einem jüngeren gemeinsamen Vorfahren ererbt wurde, daher würde es keinen Sinn ergeben, IBD, das Bereiche auf dem Chromosom mit einer ungewöhnlich hohen Matching-Rate überlappt, abzuschwächen. Demnach ist Timber am nützlichsten für kürzere IBD-Segmente, bei denen wir weniger Vertrauen in das Resultat haben. Deshalb wenden wir Timber nur für Übereinstimmungen mit gesamtem IBD unter 90 cM an.

Zusammenfassend haben wir unsere große genetische Datenbank eingesetzt, um ungewöhnliche Matching-Muster zu identifizieren, durch Quantifizierung dieser ungewöhnlichen Muster passen wir den Verwandtschaftsnachweis separat für jedes Individuum an. Timber verbessert die Verwandtschaftsbewertungen für entferntere Verwandte, wie Cousins 5. oder 6. Grades, durch Heruntergewichten des Nachweises aus Bereichen, die wahrscheinlich weniger aussagekräftig für eine engere Verwandtschaft sind.

5. Bewerten von familiären Verwandtschaften aus IBD

5.1. Hintergrund

Wie in Abschnitt 1.1 erklärt, ist bei ferner verwandten Individuen (z.B. Cousins 5. Grades) zu erwarten, dass sie einen kleineren Teil ihres Genoms von geteilten Vorfahren ererben als enger verwandte Individuen (z.B. Cousins 1. Grades). Wie auch schon besprochen, sollen diese chromosomalen Segmente, die von einem gemeinsamen

29

Vorfahren ererbt wurden, Identical-by-Descent (IBD) sein. Wir haben in diesem Dokument der Beschreibung viel Raum gewidmet, wie wir einen Genotyp eines Individuums analysieren, um alle IBD-Segmente (größer als 6 cM) in unserer Datenbank so zu erfassen, dass Genauigkeit und Berechnungseffizienz im Gleichgewicht stehen.

Der abschließende Schritt in unserer Analyse ist es, den Betrag der erfassten IBD zwischen einem Paar von Individuen, nach den Timber-Anpassungen, die im vorherigen Abschnitt beschrieben sind, zu nutzen, um eine Stammbaumbeziehung für jedes Paar von Individuen zu bewerten, die ein oder mehrere IBD-Segmente teilen. Noch spezifischer ausgedrückt, das Ziel der Verwandtschaftsbewertung ist es, die Anzahl der Meiosen (siehe Abbildung 5.1), die zwei Individuen trennen, so genau wie möglich abzuleiten.

In Abbildung 5.1 wird veranschaulicht, wie die Anzahl der reproduktiven

Ereignisse oder die Anzahl der Meiosen (siehe Abschnitt 1.1) einer

Stammbaumbeziehung entspricht. In Abschnitt A trennen zwei Meiosen zwei

(Voll-) Geschwister; jede Meiose wird durch eine gepunktete Linie angezeigt, die

ein Kind und ein Elternteil im Stammbaumdiagramm verbindet. In Abschnitt B

sind die am entferntesten verwandten Individuen im Stammbaum ein Paar von

Cousins 3. Grades, bei denen die beiden gemeinsamen Vorfahren Ur-Ur-Ur-

Großeltern des Individuums auf der linken Seite und Ur-Großeltern des

Individuums auf der rechten Seite sind. Die beiden Cousins 3. Grades sind durch

8 Meiosen getrennt.

30

Abbildung 5.1: Zwei Beispiele veranschaulichen die Übereinstimmung zwischen der Stammbaumbeziehung und der Anzahl der reproduktiven Ereignisse (Meiosen). Reproduktive Ereignisse werden durch die gepunkteten Linien zwischen den Individuen im Stammbaumdiagramm angezeigt. Beachten Sie, dass nur einer von zwei Elternteilen dargestellt ist. A zeigt den Stammbaum für zwei (Voll-) Geschwister, die dieselben beiden Elternteile teilen (nur ein Elternteil ist dargestellt). B zeigt den Stammbaum für eine ausgedehntere Familie, in der die beiden entferntesten verwandten Individuen Cousins 3. Grades sind.

Da die Übertragung von DNA von den Eltern auf das Kind ein von Natur aus zufälliger Prozess ist (erklärt in Abschnitt 1.1), kann der Betrag des Genoms variieren, der zwischen den Geschwistern IBD ist. Da die Anzahl der reproduktiven Ereignisse, die zwei Individuen trennen, zunimmt, nimmt auch die Anzahl der zufälligen Übertragungen zu, was zu einer größeren Variation im Anteil des Genoms führt, der von gemeinsamen Vorfahren ererbt wird. Deshalb stehen wir naturgemäß vor einer größeren Ungewissheit bei der Bewertung entfernterer Verwandtschaften. Wir untersuchen diese Konzepte ausführlicher im nächsten Abschnitt.

5.2. Verfahren für die Verwandtschaftsbewertung

Um die Beziehung zwischen dem Betrag des geteilten IBD und der Anzahl der trennenden Meiosen zu kennzeichnen, untersuchen wir IBD, das von Genotypen von Individuen mit bekannten Verwandtschaften abgeleitet ist. Auch wenn es möglich ist, zumindest prinzipiell, Genotypen zu nutzen, die für diesen Zweck mit Angaben zu

31

den Verwandtschaften versehen sind, führt dies im Allgemeinen zu Fehlern bei der Analyse, da Stammbaumbeziehungen gelegentlich falsch aufgezeichnet werden. Demnach haben wir uns dafür ausgesprochen, Genotypen durch Simulation zu erzeugen. Auf diese Weise können wir den Typ der Stammbaumbeziehung kontrollieren und sicherstellen, dass wir genaue genetische Daten aus einer großen Vielfalt von Stammbaumbeziehungen haben. Obwohl Simulationen die ganze Komplexität der heutigen menschlichen Bevölkerung nicht erfassen können, versuchen wir, diese Simulationen realistischer zu machen, indem wir Genotypen der Nachkommen in silico aus Kunden-Genotypen erzeugen.

Wir simulieren reproduktive Ereignisse aus einem Subset der 24.362 Kunden-Genotypen, die meistenteils unverwandt sind, da sie so ausgewählt wurden, dass kein Proben-Paar mehr als 20 cM IBD teilt (wie mit der in den vorherigen Abschnitten beschriebenen IBD-Analyse erfasst). Wir entnehmen daraus zufällige unverwandte Proben und ohne Austausch, um so nahe Stammbaumbeziehungen wie Elternteil-Kind und so weit entfernte wie Cousins 10. Grades zu simulieren. Alle Paare von Individuen in dieser Simulation teilen exakt zwei Vorfahren oder Nicht-Vorfahren; wir berücksichtigen keine weiteren Typen von Stammbaumbeziehungen, wie Halbgeschwister. Sobald wir die Stammbaumbeziehungen und Genotypen für dieses Simulationsexperiment generiert haben, lassen wir die oben beschriebenen Algorithmen ablaufen, um IBD-Segmente in diesen Daten zu erfassen.

Die IBD-Verteilung aus diesem Simulationsexperiment ist in Abbildung 5.2. zusammengefasst. (Beachten Sie, dass diese Resultate auf einer unbereinigten IBD-Länge basieren; das heißt, vor Ausführen des Timber-Algorithmus. Die bedingten Wahrscheinlichkeitsverteilungen für Timber-bereinigte Längen sind etwas verschieden und hier nicht dargestellt.) Wie oben angesprochen, beobachten wir, dass der Betrag von IBD im Durchschnitt für entferntere Verwandtschaften abnimmt. Wir beobachten ebenfalls eine größere Variation bei IBD – das heißt, den Wahrscheinlichkeitsverteilungen, die einen größeren Bereich der IBD-Längen überspannen – wenn die Anzahl der trennenden Meiosen größer ist; beachten Sie, dass die Verteilungen nach unten in Abbildung 5.2. viel mehr Überlappung zeigen. Folglich sind wir bei gegebenen kleineren Beträgen von erfassten IBD normalerweise unsicherer hinsichtlich der exakten Beziehung, die das erfasste IBD erklärt.

32

Abbildung 5.2: Die Verteilung des gesamten IBD, in cM, die in den Paaren erfasst wird, die verschiedenen simulierten Stammbaumbeziehungen entsprechen, gruppiert nach Anzahl der trennenden Meiosen. Eine Meiose entspricht Elternteil-Kind-Verwandtschaften, zwei Meiosen entsprechen Großelternteil-Kind oder (Voll-) Geschwistern, und so weiter. Jede Kurve repräsentiert die bedingte Wahrscheinlichkeitsverteilung der Anzahl der trennenden Meiosen bei gegebenem gesamtem erfasstem IBD. Die bedingten Wahrscheinlichkeitsverteilungen für 10 oder mehr trennende Meiosen sind nicht dargestellt. Beachten Sie, dass die gesamten IBD-Längen – die vertikale Achse im Diagramm – auf der logarithmischen Skala dargestellt sind, und nur IBD größer als 40 cM dargestellt sind. Zur Veranschaulichung zeigen wir auf der rechten Seite Intervalle, die Verwandtschaftsbewertungen der maximalen Wahrscheinlichkeit entsprechen.

33

Um das Verfahren für die Verwandtschaftsbewertung zu veranschaulichen, haben wir auf der rechten Seite der Abbildung 5.2 die IBD-Intervalle aufgezeichnet, die der Verwandtschaftsbewertung der maximalen Wahrscheinlichkeit entsprechen. (Beachten Sie, dass die exakten Intervalle, die für die Verwandtschaftsbewertung für AncestryDNA-Kunden verwendet werden, etwas von denen in Abbildung 5.2. abweichen können. Zusätzlich binden wir weitere Informationen in die Berechnung der endgültigen Verwandtschaftsbewertungen ein; siehe unten. Demnach werden diese Intervalle hauptsächlich gezeigt, um das Verfahren zu veranschaulichen.) Jedes dieser Intervalle gibt die Anzahl der trennenden Meiosen an, die am wahrscheinlichsten sind bei dem gegebenen Betrag von IBD, der in einem Paar verbundener Individuen erfasst wird (vorausgesetzt sie sind durch weniger als 10 Meiosen getrennt). Für eine gegebene Anzahl von Meiosen wird das Intervall über die Stellen auf der vertikalen Achse erweitert, wo die entsprechende Wahrscheinlichkeitsdichtekurve rechts von den anderen Kurven liegt.

Über die in Abbildung 5.2 veranschaulichten Intervalle hinaus, ist es ebenfalls wichtig, die Unsicherheit in einer bestimmten Verwandtschaftsbewertung zu berücksichtigen. Betrachten Sie beispielsweise den Fall, in dem geschätzt wird, dass zwei Individuen 1000 cM IBD teilen. Gemäß unseren Simulationen ist es sehr wahrscheinlich, dass diese beiden Individuen durch exakt 4 reproduktive Ereignisse, wie beispielsweise Cousins 1. Grades, getrennt sind (siehe Abbildung 5.2). Deshalb können wir die Verwandtschaftsbewertung mit hohem Konfidenzgrad berichten. Betrachten Sie auf der anderen Seite den Fall, bei dem zwei Individuen 650 cM IBD teilen. In dieser Situation können wir nicht sicher sein, ob die beiden Individuen durch 4 oder 5 reproduktive Ereignisse getrennt sind; sie könnten beispielsweise Cousins 1. Grades sein oder Cousins 1. Grades eine Generation verschoben. Diese Unsicherheit wird für weiter entfernte Verwandtschaften verstärkt und zeigt sich durch den höheren Betrag der Überlappung der entsprechenden Wahrscheinlichkeitsdichtekurven in Abbildung 5.2. Wir berücksichtigen die größere Unsicherheit bei weiter entfernten Verwandtschaften, wenn wir Kunden die Bewertungen vorlegen, indem wir einen Bereich möglicher Verwandtschaften berichten (z.B. Cousins 3. oder 4. Grades).

Sobald wir eine Prognose basierend auf dem bewerteten IBD erstellt haben, führen wir einen zusätzlichen Schritt aus, um sehr genaue Bewertungen enger Verwandtschaften sicherzustellen – insbesondere für Paare, die durch höchstens 3 Meiosen getrennt sind. Obwohl unsere Bewertungen enger Verwandtschaften auch schon allein auf IBD basierend als äußerst genau eingestuft werden, können zusätzliche Faktoren, die in

34

unseren Simulationen nicht berücksichtigt sind, wie ein ungewöhnlich hoher Phasierungs-Fehler, gelegentlich zu Fehlern in unseren Verwandtschaftsbewertungen beitragen. Deshalb führen wir einen zusätzlichen Schritt aus, um diese Fehler zu erfassen und zu korrigieren.

Um den Nutzen dieses letzten Schritts zu veranschaulichen, kompilieren wir eine zusätzliche Matching-Statistik aus den Genotyp-Daten und zeigen, dass diese Statistik, wenn sie mit den IBD-Bewertungen kombiniert wird, die Abtrennung von engen Stammbaumbeziehungen verbessert, wodurch unsere Fähigkeit erhöht wird, diese Beziehungen genau zu bewerten. Abbildung 5.3 zeigt die empirische Verteilung von zwei Matching-Statistiken – die gesamten erfassten IBD, und eine zusätzliche Statistik, die eine Bewertung des Anteils des Genoms bereitstellt, der „IBD2“ ist. Mit dem gesamten IBD alleine (die vertikale Achse in Abbildung 5.3) können wir mit nahezu vollkommener Genauigkeit bestimmen, ob ein Paar von Individuen Elternteil-Kind oder Vollgeschwister sind. Im Gegensatz dazu zeigen Vollgeschwister und Halbgeschwister eine große Überlappung in dem gesamten geteilten IBD, so können wir nicht genau bestimmen, ob ein Paar von Individuen aus Vollgeschwistern oder Halbgeschwistern besteht. Wenn wir jedoch die gesamten IBD- und IBD2-Statistiken zusammen betrachten, können wir in Abbildung 5.3 beobachten, dass diese Daten Elternteil-Kind-Paare von Vollgeschwistern deutlich trennen und die Trennung von Vollgeschwistern und Halbgeschwistern erheblich verbessern. Deshalb erreichen wir mit der gleichzeitigen Verwendung beider Matching-Statistiken eine Genauigkeit von nahezu 100 % bei der Unterscheidung von engen Verwandtschaften – eineiige Zwillinge, Elternteil-Kind, Vollgeschwister und Halbgeschwister.

35

Abbildung 5.3: Die empirische Verteilung der beiden Matching-Statistiken in ungefähr 400.000 Paaren (i, j), bei denen die gesamten geteilten IBD zwischen i und j größer ist als 1.300 cM. Jeder Punkt entspricht einem Paar (i, j) und ist für die endgültige Verwandtschaftsbewertung farbig unterlegt. Die vertikale Achse zeigt die gesamten erfassten IBD zwischen i und j, in cM. Die horizontale Achse zeigt eine zusätzliche Matching-Statistik – den Anteil von SNPs innerhalb von 200-SNP-Segmenten, in denen die Genotypen an allen 200 SNPs in i und j identisch sind. Diese zusätzliche Statistik liefert eine Bewertung des Anteils des Genoms, der IBD über beide Haplotypen (IBD2) ist.

6. Zusammenfassung und Zukunftspläne

In diesem technischen Dokument haben wir einen Überblick über unsere Algorithmen für

die Phasierung von Genotypen, das Erfassen von IBD und die Verwandtschaftsbewertungen

in der AncestryDNA-Datenbank gegeben. Unser Ziel bei der Entwicklung dieser

Algorithmen ist es, die AncestryDNA-Kunden dabei zu unterstützen, einen Einblick zu

36

gewinnen, wie sie mit anderen Menschen, die den AncestryDNA-Test gemacht haben,

verwandt sind. Jede Verwandtschaftsbewertung, die einem AncestryDNA-Kunden

vorgelegt wird, kann eine genealogische Entdeckung mit sich bringen.

Einige der technischen Fortschritte, die wir hier beschrieben haben, wie die genaue

Genotyp-Phasierung, sind aus der Entwicklung von Algorithmen entstanden, die die

riesige Menge an genetischen Daten unserer AncestryDNA-Kunden verarbeiten.

Zusätzlich wurden einige der Fortschritte durch die große Zahl von Kunden möglich

gemacht, die sich bereit erklärten, ihre genetischen Daten für die Erforschung und

Entwicklung neuer und verbesserter Algorithmen zu teilen. Daher erwarten wir weitere

Verbesserungen im DNA-Matching, dadurch, dass die AncestryDNA-Datenbank

immer weiter anwächst.

Anhang A. BEAGLE Genotyp-Phasierungs-Algorithmus Pseudocode

37

38

Anhang B. Underdog Genotyp-Phasierungs-Algorithmus Unser primäres Ziel ist es, Haplotyp-Cluster-Modelle aus großen Trainings-Sets zu erstellen und sie zu nutzen, um Proben effizient und genau zu phasieren. Wir führen hier einige Modifizierungen von BEAGLE ein, so dass der Algorithmus diesem Ziel besser nützt. Unser neuer Algorithmus wird als Underdog bezeichnet.

BEAGLE repräsentiert nur Haplotypen, die tatsächlich in den Trainings-Beispielen erscheinen. Da wir jedoch gerne neue Genotyp-Proben phasieren würden, die nicht unbedingt in dem Trainings-Set erscheinen, legen wir die Übergangswahrscheinlichkeit für Allel a an einem gegebenen SNP auf

(Eq. B1) fest, wobei na die Anzahl der Male ist, die Allel a in den Trainings-Daten beobachtet wird, und nā die Anzahl der Male ist, die das andere Allel beobachtet wird. Dies wird mit der BEAGLE-Formel verglichen, die in Algorithmus 3 dargestellt ist. Hier ist γ eine positive Zahl zwischen 0 und 1. Um die Gründe für diese Wahl der Übergangswahr-scheinlichkeit zu veranschaulichen, betrachten Sie den Status von Ebene 2 unten in Abbildung 2.1. Statt nur einen Übergang zu haben (zum Status unten in der Ebene mit 100 % Wahrscheinlichkeit), fügen wir einen zweiten Übergang für das blaue Allel hinzu (auch zum Status unten in Ebene 3), der mit einer Wahrscheinlichkeit γ besucht wird. Wir definieren auf diese Weise alle Übergangswahrscheinlichkeiten im Haplotyp-Cluster-Modell. Diese Übergangswahrscheinlichkeiten sind nur erkennbar verschieden von den Übergangswahrscheinlichkeiten in BEAGLE, wenn ein Allel sehr selten im Trainings-Set innerhalb eines gegebenen Clusters von Haplotypen auftritt. Mit dieser Modifizierung erlaubt Underdog eine Genotyp-Phase, basierend auf Haplotypen, die im Trainings-Set nicht erschienen ist.

Obwohl die BEAGLE Haplotyp-Cluster-Modelle einfach sein sollen, kann das Erstellen dieser Modelle aus Hunderttausenden von Haplotypen immer noch zu sehr umfangreichen

39

Modellen mit Millionen von Zuständen führen, die es schwierig machen, die Genotyp-Proben in angemessener Zeit zu phasieren. Um dieses Problem anzugehen, stellen wir zunächst fest, dass es, obwohl es normalerweise eine große Zahl möglicher Arten gibt, um eine Probe zu phasieren, bei den meisten dieser Möglichkeiten äußerst unwahrscheinlich ist, dass sie in einem spezifischen Haplotyp-Cluster-Modell konditioniert sind. In anderen Worten, der größte Teil der Wahrscheinlichkeitsfunktion ist normalerweise auf einem kleinen Subset von Pfaden durch das HMM konzentriert. Um zu vermeiden, alle möglichen Pfade berücksichtigen zu müssen (was einen hohen Berechnungsaufwand mit sich bringt), behalten wir auf einer gegebenen Ebene d die kleinste Anzahl von Zuständen, so dass die Wahrscheinlichkeit, in einem dieser Zustände zu sein, größer als 1 - ε ist. Auch für kleine Werte von ε verringert diese Heuristik den Berechnungsaufwand für die Probennahme aus dem HMM erheblich, und es wird die wahrscheinlichste Phase mit dem Viterbi-Algorithmus (Abbildung B1) berechnet, während sehr wenige zusätzliche Phasierungs-Fehler auftreten.

Abbildung B1: Beziehung zwischen der Wahl des HMM-Parameters ε und der durchschnittlichen Berechnungszeit für die Phasierung einer Genotyp-Probe (nur basierend auf Chromosom 1). Wenn wir ε = 0 festlegen, liegt die durchschnittliche Phasierungs-Zeit bei 63 Sekunden und die durchschnittliche Phasierungs-Fehlerrate bei 0,93 %. Für Wahlmöglichkeiten von ε, die größer sind, aber nicht zu groß, erreichen wir eine vergleichbare Phasierungs-

40

Genauigkeit mit einer erheblichen Reduzierung des Berechnungsaufwands. Beachten Sie, dass die Berechnungszeit hier keine Dateneingabe/ausgabe und auch nicht die Zeit einschließt, die notwendig ist, um die Phasierungs-Resultate aus mehreren Fenstern zu verschmelzen.

Die zweite Modifizierung, die wir an BEAGLE vornehmen, betrifft das Kriterium zu

entscheiden, ob zwei Haplotyp-Cluster (d.h. Knoten des haploiden Markov-Modells)

während des Model Learning verschmolzen werden sollten (siehe Algorithmus 4). Da das

Standardverfahren für Häufigkeiten, die nahe bei 0 oder 1 liegen, allzu zuversichtlich ist,

normalisieren wir die Bewertungen vorab mit einer symmetrischen Betaverteilung.

Besonders die Haplotyp-Cluster x und y werden nicht verschmolzen, solange die folgende

Bedingung für einen Haplotyp h nicht erfüllt ist:

(Eq. B2) wobei nx und ny die Größen der Cluster x und y sind. Die nachfolgenden Allel-Häufigkeitsbewertungen in dieser Formel sind

(Eq. B3) wobei nx(h) und ny(h) die Anzahl der Haplotypen sind, die mit Haplotyp h beginnen.

Wir stellen die Parameter des Beta-Prior (die Prior-Counts), α und β, auf 0,5.

Vergleichen Sie dieses Kriterium mit dem in Browning (2006), (siehe auch

Algorithmus 3), bei dem zwei Cluster verschmolzen werden, solange nicht die

folgende Beziehung für einige h gilt:

(Eq. B4)

41

(h)

(h) wobei Px der Anteil der Haplotypen in Cluster x ist, der mit Haplotyp h beginnt, und Px der

Anteil der Haplotypen in Cluster y ist, der mit h beginnt. Wir haben die Phasierungs-

Genauigkeit des Algorithmus bewertet, indem wir einige unterschiedliche Werte für die

Konstante C verwendet und mit C = 20 verglichen haben.

Algorithmus 4 ist die modifizierte Version des BEAGLE-Verfahrens (Algorithmus 3),

die Eq. B2 anwendet, um die Haplotypen während der Modellerstellung zu verschmelzen.

Aus Gründen der Recheneffizienz bewerten wir auf jedem Chromosom separat die

Genotyp-Phase innerhalb der 500-SNP-Fenster. Dies kann zu einem Verlust an

Phasierungs-Genauigkeit am Anfang und Ende jedes Fensters führen, da Informationen

außerhalb des Fensters ignoriert werden, und daher weniger Informationen zu den

Genotypen an den beiden Rändern des Fensters vorhanden sind. Um dieses Problem

anzugehen, lernen wir Haplotyp-Cluster-Modelle in überlappenden Fenstern;

wir verwenden besonders 500-SNP-Fenster, in denen zwei benachbarte Fenster auf

demselben Chromosom 100 SNPs überlappen. Da die abschließenden

Phasierungsbewertungen, die in den beiden Fenstern vorgenommen werden,

im überlappenden Teil nicht übereinstimmen könnten, ist es nicht sofort klar, wie die

Phasierungsbewertungen aus den benachbarten Fenstern kombiniert werden sollen.

Wir schlagen eine einfache Lösung für dieses Problem vor. Zunächst wählen wir den

SNP, der am nächsten am Mittelpunkt des überlappenden Teils liegt, an dem der

Genotyp heterozygot ist (das heißt, die beiden Allel-Kopien sind nicht gleich).

Wir nennen dies den „Schaltpunkt SNP.“ Dann verbinden wir die Sequenzen aus den

überlappenden Fenstern, die dasselbe Allel an diesem Schaltpunkt SNP teilen.

Beispielsweise verbinden wir in Abbildung B2 die obere Sequenz im Fenster links mit

der unteren Sequenz im Fenster rechts, da beide so bewertet sind, dass sie das blaue

Allel an dem ausgewählten Schaltpunkt SNP tragen.

42

Abbildung B2: Underdog lernt Haplotyp-Cluster-Modelle in überlappenden Fenstern. Diese Abbildung veranschaulicht, wie wir die abschließende Genotyp-Phase aus diesen überlappenden Fenstern erhalten.

43

44

Anhang C. Der Timber-IBD-Anpassungsalgorithmus

45

Referenzen • Albrechtsen, I. Moltke, R. Nielsen (2010). Natural selection and the distribution

of identity-by-descent in the human genome (Natürliche Auswahl und Verteilung von Identitiy-by-Descent im menschlichen Genom) Genetics 186, 295–308.

• S. R. Browning (2006). Multilocus associate mapping using variable-length Markov chains (Multilocus verbundenes Mapping mit Markov-Ketten variabler Länge). American Journal of Human Genetics 78, 903–913.

• S. R. Browning, B. L. Browning (2007). Rapid and accurate haplotype phasing and missing-data inference for whole-genome association studies by use of localized haplotype clustering (Schnelle und genaue Haplotyp-Phasierung und fehlende Daten-Interferenz für Assoziationsstudien am ganzen Genom unter Verwendung von lokalisiertem Haplotyp-Clustering). American Journal of Human Genetics 81, 1084– 1096.

• B. L. Browning, S. R. Browning (2013). Improving the accuracy and efficiency of identity-by-descent detection in population data (Verbesserung der Genauigkeit und Effizienz der Identity-by-Descent-Erfassung in Populationsdaten). Genetics 194, 459-471.

• J. Dean, S. Ghemawat (2008). Mapreduce: simplified data processing on large clusters (Mapreduce: vereinfachte Datenverarbeitung bei großen Clustern). Communications of the ACM 51, 107–113.

• E. Y. Durand, N. Eriksson, C. Y. Mclean (2014). Reducing pervasive false-positive identical-by-descent segments detected by large-scale pedigree analysis (Reduzierung pervasiver falsch-positiver Identical-by-Descent-Segmente, erfasst durch großflächige Stammbaum-Analyse). Molecular Biology and Evolution 31, 2212–2222.

• Gusev, J. K. Lowe, M. Stoffel, M. J. Daly, D. Altshuler, J. L. Breslow, J. M. Friedman, I. Pe’er (2009). Whole population, genome-wide mapping of hidden relatedness (Ganze Population, genomweites Mapping von versteckten Verwandtschaften). Genome Research 19, 318–326.

• J. A. Nelder, R. Mead (1965). A simplex algorithm for function minimization (Ein Simplex-Algorithmus für die Funktionsminimierung). Computer Journal 7, 308–313.

• K. Noto, Y. Wang, R. Curtis, J. Granka, M. Barber, J. Byrnes, N. Myres, P. Carbonetto, A. Kermany, C. Han, C. A. Ball, K. G. Chahine (2014). Underdog: a fully-supervised phasing algorithm that learns from hundreds of thousands of samples and phases in minutes (Underdog: vollständig überwachter Phasierungs-Algorithmus, der von Hundertausenden von Proben und Phasen in Minuten lernt). Invited Talk, 64th Annual Meeting of the American Society of Human Genetics.

• S. Purcell, B. Neale, K. Todd-Brown, L. Thomas, M. A. R. Ferreira, D. Bender, J. Maller, P. Sklar, P. I. W. De Bakker, M. J. Daly, P. C. Sham. PLINK: A tool set for whole-genome association and population-based linkage analyses (2007) (Ein Tool-Set für Assoziations- und populationsbasierte Verbindungsanalysen am ganzen Genom). American Journal of Human Genetics 81, 559-575.

46

• L. R. Rabiner (1989). A tutorial on hidden Markov models and selected applications in speech recognition (Ein Tutorial zum Hidden Markov-Modell und ausgewählte Anwendungen in der Spracherkennung). Proceedings of the IEEE 77(2), 257–286.

• J. M. Rodriguez, S. Bercovici, L. Huang, R. Frostig, S. Batzoglou (2015). Parente2: a fast and accurate method for detecting identity by descent (Parente2: ein schnelles und genaues Verfahren für die Erfassung der Identity-by-Descent). Genome Research 25, 280-289.

• Ron, Y. Singer, N. Tishby (1998). On the learnability and usage of acyclic probabilistic finite automata (Zur Erlernbarkeit und Nutzung von azyklischen probabilistischen Zustandsautomaten). Journal of Computer and System Sciences 56, 133– 152.

• L. Williams, N. Patterson, J. Glessner, H. Hakonarson, D. Reich (2012). Phasing of many thousands of genotyped samples (Phasierung vieler Tausender von Genotyp-Proben). American Journal of Human Genetics 91, 238–251.


Recommended