DNA-Herkunftsanalyse
DNA-Herkunftsanalysen
Die DNA-Herkunftsanalyse (englisch: ethnicity estimate) beruht auf der Tatsache, dass sich Menschen aus verschiedenen Regionen der Welt mehr oder weniger stark voneinander unterscheiden. Die Menschen von verschiedenen Kontinenten unterscheiden sich recht deutlich in verschiedenen äußerlichen Merkmalen, aber auch in bestimmten genetischen Merkmalen, die sich im Laufe der Menschheitsgeschichte in den letzten 200.000 Jahren herausgebildet haben. Je weiter sich zwei Bevölkerungen historisch voneinander entfernt haben, desto größer sind die Unterschiede, während benachbarte Bevölkerungen zahlreiche Überschneidungen in ihren Merkmalen aufweisen.
Bis hin auf die Ebene kleinerer Regionen gibt es bestimmte genetische Merkmale, die in einer jeweils unterschiedlichen Mischung für die jeweilige einheimische Bevölkerung charakteristisch sind. Dabei kann es sich um äußerlich sichtbare Merkmale handeln (beispielsweise die Haarfarbe, Augenfarbe, Hauttönung) oder um auch nur um punktuelle Mutationen in der DNA, also einzelne SNP.
Regionaltypische DNA-Muster und genetisches Kontinuum
Die unterschiedlichen DNA-Muster in ihren jeweils regionaltypischen Mischungen erklären sich durch die Migrationsbewegungen in den letzten Jahrtausenden und die wiederholte Vermischung verschiedener Bevölkerungsgruppen, die zeitweilig stärker getrennt waren und so eigene DNA-Profile entwickelt haben.
Beispiele dafür sind
- die Einwanderung neolithischer Bauern nach Mitteleuropa vor rund 8000 Jahren und deren sukzessive Vermischung mit den alteuropäischen Jägern und Sammlern,
- dann vor etwa 5000 Jahren die massive Zuwanderung indoeuropäischer Steppenvölker,
- die keltischen Wanderungen in der Latènezeit,
- die Völkerwanderung in der Spätantike mit der Zuwanderung germanischer Stämme nach Mitteleuropa und in Teile des Römischen Reiches
- oder die mittelalterliche Ostsiedlung im Hohen Mittelalter.
Es ist zu betonen, dass es gerade wegen der zahlreichen Migrationsbewegungen und der wiederholten Vermischung und Überlagerung von unterschiedlichen Gruppen in den letzten Jahrtausenden keine ethnisch oder genetisch einheitlichen Völker oder Volksgruppen gibt.
Im Anschluss an den Begriff des Dialektkontinuums könnte man gut von einem genetischen Kontinuum in Europa sprechen: Es gibt keine Völker oder Bevölkerungsgruppen, die genetisch ganz scharf voneinander abgegrenzt sind; wohl aber sind sich Menschen, deren Vorfahren über längere Zeit aus einer gemeinsamen Region stammen, untereinander etwas ähnlicher als Menschen, deren Vorfahren aus weiter entfernten Regionen stammen. Dabei sind die Übergänge immer fließend und auch nicht an heutige Staats- oder Sprachgrenzen gebunden. Wohl aber können in der Geschichte Staats-, Sprach- oder Konfessionsgrenzen für kürzere oder längere Zeit Bevölkerungsgruppen stärker voneinander getrennt haben, so dass sich dann hier etwas stärkere Unterschiede herausgebildet haben könnten. Dasselbe könnte für die Abgrenzung verschiedener sozialer Gruppen mit geschlossenen Heiratskreisen gelten.
Vergleichsproben
Bei einer DNA-Herkunftsanalyse wird die atDNA eines Probanden auf die für bestimmte Regionen bzw. Bevölkerungen typischen Merkmale hin untersucht und mit einer möglichst großen Zahl anderer DNA-Proben verglichen. Dabei hängt es vom Erkenntnisinteresse ab, welche DNA-Proben zum Vergleich gewählt werden: Möchte man bestimmen, in welchem Verhältnis ein Proband zu verschiedenen historischen Bevölkerungsgruppen steht, nimmt man zum Vergleich Proben aus archäologischen Funden; möchte man die regionale Herkunft der Vorfahren eines Probanden in den letzten Jahrhunderten oder Jahrtausenden bestimmen, nimmt man zum Vergleich andere moderne DNA-Proben, die möglichst genau regional zugeordnet werden können.
Für die Vergleichsgruppen werden heute in der Regel Personen ausgewählt, deren vier Großeltern in einer bestimmten Gegend geboren wurden, in der Erwartung, dass dann auch die weiteren Vorfahren (überwiegend) aus der betreffenden Gegend stammen. Vor dem Hintergrund der seit dem späten 19. Jahrhundert massiv gestiegenen Mobilität kann diese Annahme aber nur unter Vorbehalt gelten. Deutlich besser wäre eine systematische und massenhafte Auswertung der DNA von Skeletten aus archäologischen Funden (etwa von frühneuzeitlichen Friedhöfen oder Beinhäusern); leider wird derzeit bei archäologischen Ausgrabungen oft nur die yDNA und die mtDNA analysiert, aber nicht die atDNA, so dass hier viele Erkenntnismöglichkeiten ungenutzt bleiben.
Die Vorgehensweise bei diesem Vergleich zwischen der DNA des Probanden und der Vergleichsgruppe unterscheidet sich von der Vorgehensweise beim Matching. Beim Matching wird die DNA dahingehend verglichen, ob es längere übereinstimmende Abschnitte gibt (half-identical, je nach Grenzwert mindestens 5 oder 7 oder 10 cM und mindestens 500, 700 oder 1000 SNP). Die Herkunftsanalyse beruht auf der Beobachtung, dass die Allele für bestimmte SNP in verschiedenen Bevölkerungsgruppen bzw. Regionen unterschiedlich häufig auftreten; so gibt es beispielsweise Allele, die in Europa häufig, außerhalb Europas selten sind. Andere SNP sind miteinander gekoppelt, das heißt werden in der Regel gemeinsam vererbt; hier gibt es regional charakteristische Mischungen der Allele dieser SNP. Untersucht wird also das Maß der Ähnlichkeit der DNA eines Probanden zur DNA der Vergleichsgruppe(n) insgesamt, ohne dass es dabei auf eine genaue Übereinstimmung ankommt.
Anhand der Übereinstimmung bestimmter genetischer Merkmale und deren Mischung bzw. anhand der Ähnlichkeit oder Unähnlichkeit mit den gewählten Vergleichsgruppen kann dann die Herkunft der Vorfahren des Probanden näherungsweise bestimmt werden.
Genauigkeit der Ergebnisse
Die Genauigkeit einer solchen Herkunftsanalyse hängt von verschiedenen Faktoren ab: Ganz entscheidend ist natürlich zunächst, wie groß die Vergleichsgruppe ist und wie genau die in der Vergleichsgruppe enthaltenen Vergleichsproben räumlich zugeordnet werden können. Je kleiner eine Vergleichsgruppe ist, desto eher wird das Ergebnis durch zufällige Abweichungen oder Sonderfälle verzerrt; je größer eine Vergleichsgruppe ist, desto eher werden einzelne "Ausreißer" ausgeglichen. Weiterhin spielt eine Rolle, ob punktuell SNP verglichen werden oder ob jeweils längere oder kürzere Segmente der DNA gegeneinander verglichen werden. Auch sind die verwendeten Algorithmen, mit denen die Ähnlichkeit oder Unähnlichkeit berechnet wird, von Bedeutung. Eine wesentliche Schwierigkeit besteht darin, dass es nur wenige SNP gibt, die für eine bestimmte Herkunftsregion besonders spezifisch sind; öfter kommen bestimmte Allele einzelner SNP in manchen Regionen bzw. Bevölkerungsgruppen öfter vor als in anderen. Wenn nun ein Proband ein solches Allel aufweist, dann stammt der betreffende Abschnitt seiner DNA mit einer höheren Wahrscheinlichkeit aus der einen Region, ohne dass damit aber die andere Region ausgeschlossen wäre. Die Herkunftsanalyse ist also ein hochkomplexes Verfahren, bei dem neben der Berechnung von Ähnlichkeiten und Wahrscheinlichkeiten auch die Beurteilung des Gesamtbildes eine Rolle spielt. Angesichts der Komplexität kann es nicht verwundern, dass die Ergebnisse verschiedener Anbieter oft mehr oder weniger stark voneinander abweichen.
Die verschiedenen Anbieter für atDNA-Tests benutzen für ihre Herkunftsanalysen nämlich unterschiedlich große Vergleichsgruppen und unterschiedliche Berechnungsverfahren und beziehen sich außerdem auf unterschiedliche Zeitstufen. Die Zuordnung auf die einzelnen Kontinente und auf Großregionen (Südeuropa, Osteuropa ...) kann heute mit hoher Sicherheit erfolgen, während beispielsweise die Zuordnung zu einzelnen Regionen in Mitteleuropa oft fehlerhaft ist. Hier ist in Zukunft mit besseren und größeren Referenzgruppen mit genaueren Ergebnissen zu rechnen.
Weiterhin sind die Ergebnisse der kommerziellen Anbieter (FTDNA, MyHeritage etc.) oft weniger genau als jene der freien Anbieter wie - für Europa - die Analysen von Lukasz Macuga auf der Grundlage von Eurogenes K36.
Herkunftsanalysen und Zeitstufen
Die Herkunftsanalysen beziehen sich je nach Vergleichsproben, verglichenen DNA-Bereichen und Berechnung auf unterschiedliche Zeitstufen.
Am weitesten greifen 23andMe und das "Genographic Project" zurück, indem sie den Anteil der DNA bestimmen, die ein Proband vom Neanderthaler oder vom Denisova-Menschen hat. Hierzu wird überprüft, ob die DNA eines Probanden bestimmte SNP aufweist, von denen in den letzten Jahren festgestellt worden ist, dass sie für den Neanderthaler bzw. den Denisova-Menschen typisch sind. Vergleichsgruppe sind hier die bislang der Wissenschaft vorliegenden DNA-Analysen vom Neanderthaler und vom Denisova-Menschen.[1]
FTDNA geht mit der Analyse der "Ancient Ancestry" ebenfalls mehrere tausend Jahre zurück und unterscheidet nach einem sehr vereinfachten Modell die DNA der Jäger und Sammler (40.000 v. Chr.), der Bauern und Viehzüchter aus dem Nahen Osten (seit etwa 10.000 v.Chr.) und der Zuwanderer während der Metallzeit. Vergleichsgruppe sind hier zehn DNA-Proben von prominenten archäologischen Fundstätten (Ötzi, Loschbour, Motala, La Brana etc.). Es liegt auf der Hand, dass die derzeit außerordentlich kleine Vergleichsgruppe sicherlich nur zu sehr ungenauen und vorläufigen Ergebnissen führen kann.
Die meisten Herkunftsanalysen ("MyOrigins" von FTDNA; auch Eurogenes) beziehen sich letztlich auf die Bevölkerungsverteilung, wie sie sich in Europa durch die Völkerwanderung und durch größere Migrationsbewegungen im Mittelalter herausgebildet hat - auch wenn die Testanbieter teilweise den Eindruck erwecken (so etwa 23andme), die Analyse zeige die Herkunft der Vorfahren in genealogisch relevanter Zeit.
Sicher auf die Herkunft der Vorfahren in genealogisch relevanter Zeit (seit dem 16./17. Jahrhundert) bezieht sich nur Ancestry mit seinen "Ancestry Communities". Die Angabe von Living DNA, dass die Analyse die Herkunft der Vorfahren etwa in den letzten zehn Generationen zeige, trifft derzeit nur auf Großbritannien zu, nicht auf die anderen Gegenden Europas. Hier ist derzeit, ähnlich wie bei FTDNA, die Zeit seit der Völkerwanderung der Zeithorizont.
Prozentangaben in Herkunftsanalysen
Bei Herkunftsanalysen finden sich Prozentangaben mit unterschiedlicher Bedeutung:
(a) Bei den Herkunftsanalysen von FTDNA und anderen wird in Prozent aufgeschlüsselt, welche Anteile der DNA mit bestimmten Vergleichsgruppen übereinstimmen bzw. mit bestimmten Herkunftsregionen assoziiert sind.
(b) Bei der grafischen Auswertung der Analysen von Eurogenes K36 ist angegeben, wie ähnlich die DNA eines Probanden insgesamt mit der für eine bestimmte Region typischen DNA ist.
Wichtige Hinweise
1. Die Herkunftsanalysen der kommerziellen Anbieter geben einen ersten Eindruck, sind aber häufig relativ ungenau. Es empfiehlt sich, die Rohdaten zu Gedmatch.com hochzuladen und die freien Herkunftsanalysen zu testen (für Europa v.a. Eurogenes K36).
2. Prozentangaben in den Herkunftsanalysen bedeuten nicht zwingend, dass ein solcher Prozentsatz der Vorfahren in den letzten Jahrhunderten aus einer bestimmten Gegend stammt. Die Prozentangaben können einen wichtigen Hinweis geben, zeigen oft aber nur die Ähnlichkeit zu Menschen aus der betreffenden Gegend als Folge der Migrationen der letzten zweitausend Jahre. Das gilt insbesondere für die kommerziellen Herkunftsanalysen (siehe 1).
3. Wegen dieser möglichen Ungenauigkeit einer Herkunftsanalyse, vor allem bei Anteilen von weniger 10 %, sollte man keine Zeit und Mühe darauf verwenden, auf dieser Grundlage nach Vorfahren aus einer bestimmten entfernten Region zu suchen. Im Zweifelsfall sollte das Ergebnis der traditionellen genealogischen Forschung Vorrang haben, wenngleich in manchen Fällen die Herkunftsanalyse wichtige Hinweise geben kann - vor allem dann, wenn bestimmte Vorfahrenlinien mit traditionellen Quellen nicht erforscht werden können. Hier ist jeder Einzelfall zu betrachten.
4. Bei Probanden aus Mitteleuropa werden häufig hohe oder sehr hohe DNA-Anteile den Herkunftsregionen "England" bzw. "British Isles" und/oder "Skandinavien" zugewiesen, obwohl die Vorfahren - soweit bekannt - aus dem deutschen Sprachraum stammen. Der Grund für diese häufige Falschzuordnung ist die offenbar hohe genetische Ähnlichkeit der Bevölkerung in Nord- und Westdeutschland, Nordfrankreich, in den Benelux-Ländern, in Südengland und in Südskandinavien. Unschwer erkennt man hier jene Gebiete, die zum Siedlungsgebiet der Germanen gehörten (Südskandinavien, Norddeutschland) oder in der Völkerwanderung von germanischen Stämmen besetzt wurden (Benelux-Länder, Nordfrankreich durch die Franken; Südengland durch die Angeln und Sachsen).
Diese hohen Übereinstimmungen haben sicher nichts zu tun mit einzelnen Hansekaufleuten aus Deutschland, die in England Nachkommen hinterlassen haben könnten, den Wikingern oder jenen Engländern, die in den Armeen des Dreißigjährigen Krieges in Mitteleuropa kämpften; mögliche einzelne Vorfahren aus den genannten Ländern können für die angeblich hohen DNA-Anteile dieser Herkunftsregionen nicht verantwortlich sein.
Daneben werden bei Probanden aus Mitteleuropa teilweise auch DNA-Anteile den Herkunftsregionen "Italien" oder "Spanien" zugeordnet. Dies scheint öfter der Fall zu sein bei Personen mit Vorfahren aus dem südwestdeutschen Raum. Möglicherweise bestehen hier in geringerem Maße genetische Ähnlichkeiten mit Bevölkerungsgruppen im Mittelmeerraum.
Die Herkunftsanalysen der verschiedenen Anbieter
FTDNA: "myOrigins"
Bei der Bestimmung der "Origins" von FTDNA werden derzeit 24 Gruppen ("population clusters") unterschieden. Europa wird dabei unterteilt in:
- Sephardic (sephardische, d.h. ursprünglich spanische Juden)
- Ashkenazi (ashkenasische, d.h. mittel- und osteuropäische Juden)
- British Isles
- Scandinavia
- Finland
- West and Central Europe (France, Belgium, Netherlands, Luxembourg, Switzerland, Austria, Czech Republic, and Germany)
- Southeast Europe (Italy, Greece, and the western Balkan states from Bulgaria to Croatia)
- East Europe (Latvia, south to Ukraine, Romania, and the northern part of Bulgaria, west along the eastern edge of the Balkan states to Poland and the eastern half of Germany)
- Iberia (Spain and Portugal)
Deutschland wird unter "West and Central Europe" subsumiert; Probanden aus Deutschland werden allerdings häufig mit hohen Anteilen "British Isles" bestimmt.
Referenzgruppen: Über die Größe der Referenzgruppen macht FTDNA keine Angaben.
Zeitrahmen: Die Erläuterungen zu den einzelnen "population clusters"[2] beziehen sich für die europäischen Teilgruppen i. W. auf die Zeit seit der letzten Eiszeit (etwa 11.000 v.Chr.) bis etwa zur Völkerwanderung. Die Ergebnisse von "MyOrigins" zeigen also im Wesentlichen die Zusammensetzung des Genoms mit Bezug auf Bevölkerungsgruppen und deren Verteilung, wie sie sich in der Spätantike herausgebildet haben.[3]
Genauigkeit der Ergebnisse: Bezogen auf den Zeithorizont etwa der Völkerwanderungszeit (um 500 n.Chr.) dürften die Ergebnisse gut zutreffen. Ein häufiges Missverständnis besteht darin, dass angenommen wird, die Ergebnisse würden sich auf die genealogisch relevanten letzten Jahrhunderte beziehen, so dass die Ergebnisse dann als "falsch" angesehen werden. Scheinbar überraschende Anteile "British Isles" oder "Southeast Europe" deuten also keineswegs auf englische oder italienische Vorfahren in den letzten Jahrhunderten hin, sondern spiegeln Wanderungsbewegungen in Europa mindestens in den letzten 2.000 Jahren wieder.
FTDNA: "Ancient Origins"
In der Besiedlung Europas durch den modernen Menschen lassen sich verschiedene wesentliche Einwanderungswellen unterscheiden, die ihre Spuren bis heute in der DNA der Europäer hinterlassen haben. FTDNA unterscheidet nach einem sehr vereinfachten Modell Jäger und Sammler (40.000 v. Chr.), Bauern und Viehzüchter aus dem Nahen Osten (seit etwa 10.000 v.Chr.) und Zuwanderer während der Metallzeit, die oft mit den Indoeuropäern aus der pontischen Steppe gleichgesetzt werden[4] (Metal Age Invaders). Hier vergleicht FTDNA die DNA eines Probanden mit der DNA von etwa einem Dutzend vor- und frühgeschichtlicher Skelette und errechnet daraus die Anteile von "Hunter-Gatherers, Early Farmers, and Metal Age Invaders".
Kritik an diesem Modell von FTDNA ist im Eurogenes-Blog formuliert worden.
iGENEA
iGENEA lässt die DNA-Analysen durch FTDNA durchführen und gibt den Kunden auch Zugang zu den FTDNA-Analyseergebnissen (siehe daher oben unter MyOrigins). Darüber hinaus nimmt iGENEA anhand der Haplogruppen der yDNA und der mtDNA eine Zuordnung zu "Urvölkern" vor, einem Terminus, den nur iGENEA in dieser Weise verwendet.[5]
Als angebliche "Urvölker" unterscheidet iGENEA "Juden", "Wikinger", "Kelten", "Germanen" und "Basken"[6] Diese Einteilung ist in verschiedener Hinsicht fragwürdig. So muss man etwa die Wikinger selbst ihrerseits den Germanen zurechnen; die Germanen haben die Kelten in Mitteleuropa sicherlich nicht ersetzt, sondern man muss hier mit Superstrat-/Substraterscheinungen rechnen. Die Bezeichnung "Urvolk" erscheint allenfalls für die ersten modernen Menschen in Europa angemessen.
23andMe: "Ancestry Composition"
Bei der Bestimmung der "Ancestry Composition" von 23andMe werden derzeit 31 Gruppen ("populations") unterschieden. Europa wird dabei unterteilt in:
- Northwestern European (mit "French & German", "British & Irish", "Scandinavian", "Finnish", "Broadly Northwestern European" als Untergruppen)
- Southern European (mit "Sardinian", "Iberian", "Italian", "Balkan", "Broadly Southern European")
- Eastern European (ohne weitere Unterteilung)
- Ashkenazi Jewish
- Broadly European
Referenzgruppen: Als Vergleich für die Bestimmung der "Ancestry Composition" dient eine Datensammlung mit der DNA von 10.418 Personen, deren vier Großeltern alle in einem Land geboren sind (ausgenommen Einwanderungsländer wie die USA, Kanada und Australien). Die Daten stammen von 23andMe selbst sowie aus öffentlich zugänglich Referenzdatenbanken (Human Genome Diversity Project, HapMap, 1000 Genomes project). Offensichtliche "Ausreißer", deren DNA große Unterschiede zu der Mehrzahl der Proben aus der gleichen Region aufweist, werden herausgefiltert. Wie sich die 10.418 Referenzproben auf die 31 Gruppen verteilen, ist nicht angegeben; bei einer gleichmäßigen Verteilung würde jede der 31 Gruppen durch rund 330 Vergleichsproben vertreten. Die genaue Vorgehensweise einschließlich der verwendeten statistischen Modelle stellt 23andMe sehr ausführlich selbst dar.
Zeitrahmen: Die Herkunftsanalyse durch 23andMe soll die "Ancestry Composition" in den letzten zehn Generationen darstellen. Dies wird in der "Ancestry Timeline" visualisiert.[7]
Genauigkeit der Ergebnisse: 23andMe gibt für jede der 31 Populationen an, wie zuverlässig die jeweilige Bestimmung ist. Dabei wird unterschieden zwischen "precision" und "recall". "Precision" gibt an, mit welcher Häufigkeit ein DNA-Segment tatsächlich zu der Population gehört, der es zugeordnet wird. "Recall" meint umgekehrt, wie häufig ein Segment, das zu einer bestimmten Population gehört, auch tatsächlich dieser zugewiesen wird. Für viele Regionen bzw. Gruppen erreicht 23andMe nach eigenen Angaben eine Zuverlässigkeit zwischen 90 und 100 % ("precision" und "recall"); gerade für Europa liegen die Werte aber zum Teil deutlich niedriger, wie folgende Tabelle zeigt:
Gruppe precision recall European 99 % 99 % Northwestern European 95 % 95 % British & Irish 90 % 39 % Finnish 95 % 86 % French & German 78 % 8 % Scandinavian 86 % 34 % Southern European 93 % 66 % Balkan 88 % 42 % Iberian 92 % 51 % Italian 88 % 50 % Sardinian 96 % 62 % Eastern European 90 % 50 % Ashkenazi 97 % 93 %
Diese Angaben bedeuten, dass beispielsweise die Bestimmung als "Northwestern European" in 95 % der Fälle zutrifft und dass auch 95 % der tatsächlich aus Nordwesteuropa stammenden DNA als solche identifiziert wird. Gerade für Deutschland ist die Zuverlässigkeit am geringsten: Die Bestimmung als "French & German" ist in 78 % aller Fälle richtig, aber nur 8 % [!!] der aus Frankreich und Deutschland stammenden DNA wird als solche erkannt.[8]
Ancestry: "Genetic Communities"
Living DNA
Living DNA wirbt damit, die genauesten Herkunftsanalysen zu bieten. Tatsächlich unterscheidet Living DNA bei der "Family Ancestry" derzeit weltweit bis zu 80 mögliche Herkunftsregionen ("regions").
Europa wird unterteilt in folgende Regionen und Untergruppen:
- Europa (East) (unterteilt in "Baltics", "East Balkans", "Finland and Western Russia", "Mordovia", "Northeast Europe", "Pannonia", "West Balkans"
- Europe (North and West) (mit "France", "Germanic", "Scandinavia")
- Europe (South) (mit "Aegean", "Basque", "Iberian Peninsula", "North Italy", "Sardinia", "South Italy", "Tuscany")
- Great Britain and Ireland (mit "England and Wales", "Orkney Islands", "Scotland and Ireland").
Auf der Basis der PoBI-Studie (People of the British Isles) werden in Großbritannien noch einmal in 21 Teilregionen unterschieden. Mit dem Irland-Projekt und dem Deutschland-Projekt von Living DNA soll eine genauere regionale Analyse auch für Irland und Deutschland, mit vergleichbaren Projekten später auch für andere Länder möglich sein.
Im Projekt ‚One Family One World‘ soll letztlich die DNA der gesamten Weltbevölkerung kartiert werden. Hierzu kann man auch die Testergebnisse anderer Anbieter zu Living DNA hochladen.
Referenzgruppen: Über die Referenzgruppen macht Living DNA folgende Angaben:
The Living DNA family ancestry breakdown has been built using a range of databases which are either publically available, or which the company has been granted the use of. A full white paper is being prepared which will be detailing the databases used. The Britain and Ireland specific ancestry database comes from the dataset collected during The Peopling of the British Isles project with additional supplementary data. Worldwide databases come from a variety of sources, including HapMap3, and the HGDP.[9]
Über die Größe und Zusammensetzung der einzelnen Vergleichsgruppen sind keine Angaben verfügbar. Im Rahmen der verschiedenen Projekte (Irland, Deutschland) werden derzeit eigene Referenzgruppen zusammengestellt; im Falle Deutschlands wird angestrebt, mindestens 2.000 Probanden für die Referenzgruppe zu gewinnen.
Zeitrahmen: Living DNA gibt an, typischerweise beziehe sich die Herkunftsanalyse der "Family Ancestry" auf etwa zehn Generationen. Zusätzlich wird in der "Timeline" anhand von animierten Karten gezeigt, auf welche Regionen zu verschiedenen Zeitpunkten (vom "Age of Discoveries" um 1500 n.Chr." zurück bis "Out of Africa" vor 80.000 Jahren) sich die genetische Herkunft bezieht.
Genauigkeit der Ergebnisse: Für Probanden mit Vorfahren aus Großbritannien scheint eine sehr hohe Genauigkeit erreicht zu werden. Probanden aus Deutschland werden derzeit oft falsch mit hohen Anteilen der Herkunftsregion "Great Britain and Ireland" bestimmt (insbesondere mit hohen Anteilen Südostengland). Diese Fehleinschätzung hat ihren Grund wohl in der hohen Ähnlichkeit zwischen Südostengland und Kontinentalmitteleuropa insbesondere als Folge der Völkerwanderung. Sobald Ergebnisse des Deutschlandprojekts vorliegen, ist auch für Deutschland mit deutlich besseren Ergebnissen zu rechnen.
MyHeritage: "Ethnizitätseinschätzung"
Bei der "Ethnizitätseinschätzung" von MyHeritage werden derzeit 17 Gruppen mit 42 Untergruppen unterschieden. Europa wird unterteilt in:
- Nord- und Westeuropa (mit "Nord- und Westeuropäer", "Skandinavier", "Engländer", "Finne" und "Iren, Schotten und Waliser" als Untergruppen)
- Südeuropa (mit "Iberer", "Griechen", "Italiener" und "Sarde")
- Osteuropa (mit "Osteuropäer", "Balten", "Balkanbewohner")
- Aschkenasischer Jude (ohne weitere Unterteilung).
Referenzgruppen: Über die Größe und Zusammensetzung der einzelnen Vergleichsgruppen macht MyHeritage keine Angabe; es heißt in den Erläuterungen nur, man habe "ein genetisches Modell für jede Region der Welt anlegen können".
Zeitrahmen: MyHeritage macht keine Angaben, auf welchen Zeitraum in der Vergangenheit sich die "Ethnizitätseinschätzung" bezieht.
Genauigkeit der Ergebnisse: Hinsichtlich der Genau- oder Ungenauigkeit weist MyHeritage ausdrücklich darauf hin, "dass die Ethnizitätsschätzungen - welche das Ergebnis eines in hohem Grade genauen statistischen Algorithmus ist [!] - immer noch Schätzungen sind. Einige Bevölkerungsgruppen weltweit zeigen ähnliche DNA aufgrund der Nähe und Vermischung der Bevölkerung."
National Geographic: "Your Regional Ancestry"
Bei der Bestimmung der "Regional Ancestry" beim "Genographic Project" von National Geographic erfolgt eine Zuordnung zu einer von derzeit neun Regionen: Northeast Asian, Mediterranean, Southern African, Southwest Asian, Native American, Oceanian, Southeast Asian, Northern European, Sub-Saharan African. Diese Regionen sind hergeleitet aus der Menschheitsgeschichte der letzten 50.000 Jahre. [10]
In diesen neun Regionen werden insgesamt 43 Referenzgruppen unterschieden, die jeweils definiert sind durch ihre je individuelle Mischung von Elementen aus jenen neun Regionen. Europa wird durch folgende Referenzgruppen vertreten:
- British (United Kingdom)
- Bulgarian
- Danish
- Finnish
- Georgian
- German
- Greek
- Iberian (Spain & Portugal)
- Romanian
- Russians
- Sardinian
- Tuscan (Italy)
Es fällt auf, dass Skandinavien hier allein durch "Danish" vertreten ist und Frankreich ganz fehlt, während Deutschland hingegen - anders als bei anderen Anbietern - als eigene Referenzgruppe ausgewiesen ist. Diese deutsche Referenzgruppe ist charakterisiert durch ihre Zusammensetzung aus 46 % "Northern European" (zurückgeführt auf die Jäger und Sammler, die vor mehr als 35.000 Jahren nach Europa gekommen sind), 36 % "Mediterranian" und 17 % "Southwest Asian" (beides zurückgeführt auf Ackerbauern und Viehzüchter, die in den letzten 10.000 Jahren nach Europa eingewandert sind):
The dominant 46% Northern European component likely reflects the earliest settlers in Europe, hunter-gatherers who arrived there more than 35,000 years ago. The 36% Mediterranean and 17% Southwest Asian percentages probably arrived later, with the spread of agriculture from the Fertile Crescent in the Middle East over the past 10,000 years. As these early farmers moved into Europe, they spread their genetic patterns as well. Today, northern and central European populations retain links to both the earliest Europeans and these later migrants from the Middle East.[11]
Die einzelne DNA-Probe wird im "Genographic Project" dann auf ihre Zusammensetzung aus den neun Hauptregionen untersucht; anschließend wird deren Mischungsverhältnis mit dem der Referenzgruppen verglichen. Auf dieser Grundlage erfolgt dann eine Zuordnung. Wenn also im Einzelfall das Verhältnis von "Northern European", "Mediterranean" und "Southwest Asian" am ehesten dem Verhältnis in der deutschen Referenzgruppe entspricht, erfolgt eine Zuordnung zu dieser Gruppe. Unter Umständen werden mehrere Referenzgruppen als ähnlich genannt (etwa "Danish" und "German").
Referenzgruppen: Über die Größe der deutschen Referenzgruppe macht National Geographic keine Angabe. Es heißt nur: "This reference population is based on samples collected from people native to Germany."[12]
Zeitrahmen: Die Herkunftsanalyse bezieht sich auf die Geschichte des Homo sapiens in Europa, also auf mehrere zehntausend Jahre.
Genauigkeit der Ergebnisse: National Geographic weist ausdrücklich darauf hin, dass die Zuordnung zu einer Referenzgruppe allein auf der Ähnlichkeit der Mischung bestimmter genetischer Marker beruht und nicht zwingend bedeutet, dass man selbst auch dieser Population angehört. Diese Marker sind zum Teil mehrere tausend Jahre alt, liegen aber in einer individuellen Mischung vor, die in den letzten sechs Generationen entstanden ist:
This doesn’t necessarily mean that you belong to these groups, but that these groups were a similar genetic match, and can therefore be used as a guide to help determine why you have a certain result. Remember, this is a mixture of recent (past six generations) and ancient patterns established over thousands of years, so you may see surprising matches. Read each of the population descriptions below to better interpret your particular results.[13]
Freie Herkunftsanalysen
Kurze Erläuterungen und eine Anleitung zu den verschiedenen Herkunftsanalysen bei Gedmatch bietet der Blog "Genealogical Musings".
Eurogenes (GEDmatch)
Die Herkunftsanalyse von Eurogenes ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)"). Eurogenes ist geschaffen zur Analyse von DNA-Proben mit überwiegend europäischer Herkunft. Bei Gedmatch ist vornehmlich der Test "Eurogenes K36" zu verwenden, der 36 regionale Gruppen unterscheidet. Hier wie sonst gilt der Hinweis, dass die ermittelten Anteile nicht automatisch auf Vorfahren in jüngerer Zeit in der betreffenden Region verweisen, sondern auf prozentuale Ähnlichkeiten mit Proben aus dem betreffenden Gebiet:
"An important point to keep in mind is not to take the ancestry proportions too literally. If you're, say, English, and you get an Iberian score of 12% this doesn't actually mean you have recent ancestry from Spain or Portugal. What it means is that 12% of your alleles look typical of the reference samples classified as Iberian, and this figure might only indicate recent Iberian admixture if it's clearly higher than those of other English users." [14]
Weitere Informationen zu Eurogenes bietet der Blog zum Projekt.
Eine kartographische Darstellung des Analyseergebnisses ist mit dem "Oracle for Eurogenes K36" möglich. In die Tabelle links sind die durch die Analyse bei Gedmatch gewonnenen Prozentwerte einzutragen.
Eine differenzierte Auswertung erstellt Lukasz Macuga auf der Grundlage von Eurogenes K36.
MDLP (GEDmatch)
Die Herkunftsanalyse von MDLP (Magnus Ducatus Lituaniae Project) ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)").
MDLP berechnet eine weltweite Herkunftsanalyse und ist vor allem dann nützlich, wenn eine globale Zuordnung erforderlich ist. Zur Feststellung einer Herkunft aus Europa ist MDLP nicht erforderlich. Nähere Informationen bietet der Blog zum MDLP-Projekt.
Dodecad (GEDmatch)
Die Herkunftsanalyse von Dodecad ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)"). Der Schwerpunkt liegt auf Eurasien; Dodecad ist insbesondere geeignet zur Analyse einer Herkunft aus Afrika und Asien. Nähere Informationen bietet der Blog zum Projekt Dodecad.
puntDNAL (GEDmatch)
Die Herkunftsanalyse von puntDNAL ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)"). Der Schwerpunkt liegt auf der Ermittlung von Segmenten mit Ancient DNA. Der Entwickler ist über puntdnalking@gmail.com zu erreichen.
Harappa World (GEDmatch)
Die Herkunftsanalyse HarappaWorld ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)"). Regionaler Schwerpunkt ist Südasien. Nähere Informationen bietet der Blog zum Projekt HarappaWorld.
GedrosiaDNA (GEDmatch)
Die Herkunftsanalyse von GedrosiaDNA ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)"). Der Schwerpunkt liegt auf Eurasien (vor allem Indien und Asien) und auf Ancient DNA. Der Entwickler ist unter Dilawerkh4@gmail.com zu erreichen.
Ethiohelix (GEDmatch)
Die Herkunftsanalyse von Ethiohelix ist über Gedmatch möglich (im Menüpunkt "Admixture (heritage)"). Der regionale Schwerpunkt ist Afrika. Nähere Informationen bietet der Blog zum Projekt Ethiohelix.
DNA Land
Geneplaza
Interpretome
WeGene
Literatur
- Bettinger, Blaine T.: The Family Tree Guide to DNA Testing and Genetic Genealogy. Cincinnati 2016, S. 153-169.
Zum Weiterlesen im Internet
- Finally! A Gedmatch Admixture Guide! Blog Genealogical Musings
- Estes, Roberta: Which Ethnicity Test is Best? Blog "DNAeXplained – Genetic Genealogy", 20.6.2017
- Estes, Roberta: Ethnicity Testing – A Conundrum. "DNAeXplained – Genetic Genealogy", 10.2.2016
- Estes, Roberta: Concepts – Calculating Ethnicity Percentages. "DNAeXplained – Genetic Genealogy", 11.1.2017
Anmerkungen
- ↑ Zur Neanderthaler-DNA vgl. das Robin P. Scmith u.a.: Neanderthal Ancestry Inference. 23andme White Paper 23-05.
- ↑ Siehe die entsprechende Seite bei FTDNA.
- ↑ Vgl. die Beschreibung zum "West and Central Europe cluster": "Modern humans began to populate West and Central Europe toward the end of the last ice age when the ice sheets north of the Mediterranean coast began to retreat. Due to ancient interactions and exchanges with cultures from the British Isles, Scandinavia, Asia, and Africa, this cluster displays an incredible history of migration, invasion, and colonization resulting in continual shared genetic, cultural, and linguistic relatedness with nearly all of the other European clusters. [...] With Germanic tribes being pushed out of eastern Europe as well, Slavic speaking peoples settled in their wake, occupying areas leading up to east Germany. Continual raids from various European and Asian groups ended the Roman occupation of this area by roughly 500 CE. [...] It is after this migration that populations within this cluster began to establish complex and diverse civilizations [...]."
- ↑ Vgl. Wolfgang Haak u.a.: Massive migration from the steppe was a source for Indo-European languages in Europe. In: Nature 522, 207–211 (11 June 2015) doi:10.1038/nature14317
- ↑ Vgl. dazu die Ausführungen von Roman C. Scholz, iGENEA, in der Mailingliste "DNA-Genealogie" (31.8.2017), wo er bestätigt, dass der Begriff "Urvolk" nur von iGENEA verwendet wird, und zwar wegen seiner Unbestimmtheit.
- ↑ Vgl. dazu die entsprechende Darstellung bei iGENEA.
- ↑ Vgl. dazu das White Paper 23-14: Katarzyna Bryc, Eric Y. Durand, Joanna Mountain: Admixture Date Estimator. 2016, online veröffentlicht.
- ↑ Vgl. die vollständige Tabelle für alle 31 Gruppen bei 23andMe.
- ↑ Living DNA Help Centre, Which datasets provide the Living DNA family ancestry breakdown?.
- ↑ Siehe die Erläuterungen zu "Your Regional Ancestry: Regions".
- ↑ Your Regional Ancestry: Reference Populations
- ↑ Your Regional Ancestry: Reference Populations
- ↑ Your Regional Ancestry
- ↑ Davidski: "Eurogenes Genetic Ancestry Project"