Nagy, közös családfá(n)k rejtelmei

Ahogy a nemrég kikerült Qubit cikkben hosszabban is kivesézem, az öröklődés sajátos törvényszerűségei miatt mindannyiunk nagy közös családfája a meglepően közeli múltban elkezd közös pontokat tartalmazni. Olyannyira, hogy európaiak esetében a durván 1000 évvel ezelőtt élő személyek ~80%-ra (vagyis mindazokra, akinek létezik ma is utódja) mindannyiunk közös őseiként tekinthetünk.   

De mi az, amit konkrétan, valódi családfa adatok alapján fel lehet tárni erről a plátói, közös családfáról? Hiszen embertelen melónak tűnik a ma élő több milliárdnyi ember esetében komolyan vehető családfa kutatást végezni, adott esetekben ezekhez az adatokhoz genetikai adatokat is rendelni. Szinte kizárt, hogy lenne olyan kutatócsoport, vagy akár konzorcium, ami kellő idővel és kapacitással rendelkezne egy nagyobb léptékű projekthez.

Szerencsére azonban erre nincs is szükség, hiszen - köszönhetően a rengeteg amatőr családfakutatónak - az ilyen kutatás tipikusan olyan munka, amit nagyléptékben lehet crowdsourcing alapon csinálni. Erre jött rá Yaniv Erlich is, aki a MyHeritage paltformhoz tartozó Geni.com adatbázisának 86 millió profilját letöltve hozott létre, majd elemzett komplex családfákat (a legnagyobb közel 13 millió (!!!) embert kötött össze). 

A 86 millió profil irdatlan adattömeget jelent (amit letölteni is több napba került) és persze az is hozzátartozik ehhez, hogy ezeknek csak egy része tartalmaz a komolyabb vizsgálatokhoz elegendő adatot, így rögtön az első fontos feladat kiszűrni, mi a hasznos és mi nem az. Az egyes profiloknál megjelenő kapcsolatok is lehetnek bizonytalanok (főleg ha kellően jó dokumentáció nélkül, a családi szájhagyományra hagyatkozva próbáljuk eldönteni, hogy valaki az ük-ükapánk, vagy a szép-szépapánk lehetett), de az ilyen esetek általában kiütköztek a családfák összeolvasztása  során és megfelelő algoritmusok, meg némi emberi segítség segítségével azért kibogozhatónak bizonyultak.

Családfaépítés a Geni.com profiljai alapján. Az esetlegesen hibás topológiákat (körkörös hivatkozások, több mint két szülő) részben emberi, részben számítógépes módszerrel oldották fel, így állt össze a végső fa (az itt látható esetben 6000 emberre). Forrás: Science

A milliós családfák összeállítása önmagában is szép teljesítmény lett volna, de Erlich csapata ezeknek a statisztikai elemzésével néhány nagyon érdekes dolgot is le tud szűrni, ezekre épül a napokban megjelent Science cikkük is.

Az első dolog (köszönhetően a Geni.com profilokhoz feltöltött mitokondriális DNS és Y kromoszóma adatoknak) annak a megvizsgálása, hogy hány esetben nem egyeznek a családfák és a genetikai anyai, illetve apai vonalak - ilyesmi részben a család által elhallgatott adoptálásokból, részben, ne szépítsünk, félrelépésekből adódhat. És ezek az értékek megerősítették a korábbi becsléseket, amelyek különösen a félrelépések esetében lényegesen alacsonyabbnak bizonyultak, mint azt számos anekdotikus eset alapján gondolnánk: összességében az esetek 1.9%-ában lehetett félrelépések nyomára lelni a családfa és az Y kromoszóma összevetésével, illetve 0.3%-ban elhallgatott adoptálásokra (ez esetben az mtDNS a mérvadó).

Vannak triviális dolgok, amik szinte kiesnek egy ekkora családfából: mivel ez a fajta családfakutatás egyelőre jobbára csak a hanyatlással folyton kacérkodó Nyugat lakói számára természetes, pusztán a szülők és gyermekeik születéseit is követve kirajzolódnak az európai központú birodalomépítések. Ezt Erlichék nagyon hatásosan be ismutatják az alábbi videó formájában: látjuk, hogy miképp "kerül fel" a világtérképre Amerika, Dél-Afrika, India, vagy épp Ausztrália, de az is jól látszik, hogy a fiatal Egyesült Államokban miképp kezdi a Nyugati Part vonzani a keleti államok zsúfoltságától szabadulni akarókat. 

De ez csak a kezdet. A születési és halálozási adatok összevetéséből azt is könnyű kihámozni, hogy a várható élettartam miképp növekedett kvázi lineárisan, ~45 évtől 80 évig, az elmúlt közel 180 évben (eltekintve a világháborúk borzalmaitól). Mindez, mint azt már mások is kimutatták, sokban a közegészségügy, a táplálkozási szokások és a munkahelyi körülmények javulásának tudhatók be. 

A várható élettartam változása a Geni.com (fekete) és korábbi adatok (piros) alapján.Forrás: Science

De az adatok alapján egyben Erlichéknek arra is lehetősége nyílt, hogy megbecsüljék, mekkora genetikai komponense lehet az élettartamnak. A válasz, hogy meglepően kevés: mivel ennyi adat alapján elég sok mindent meg lehet vizsgálni, egyértelműnek tűnik, hogy a környezeti okok dominálnak, amikor a várható élethosszról van szó és kb. 16%-ban lehet genetikai faktoroknak szerepe a folyamatban.  

A harmadik érdekes adatsor, ami kimazsolázható volt a gigantikus profilhalmazból, hogy miképp váltunk egyre mobilisabbá az elmúlt évszázadok során. Szűk 400 évvel ezelőtt egy-egy családban a szülők kb. 10 kilométer távolságra éltek egymástól, sőt Európában még ennél is extrémebb helyzet létezett (amin aligha javítottak a röghözkötési törekvések). Ahogy azt tippelni is lehet, az alacsony mobilitás a növekvő beltenyésztettségnek kedvezett, ennek megfelelően ebben az időszakban átlagosan negyedik unokatestvérek házasodhattak. Az ipari forradalom és a vele születő új munkalehetőségek kényszerítették ki a helyzet megváltozását: Európában jól látható, ahogy 1760 után egy kicsit mobilisabbá váltak az emberek (bár még mindig a bűvös 10 km-en belül), majd igazából a távolsági tömegközelkedés, magyarán a vonatok 19. századi elterjedése hozta meg az igazi áttörést és ma már a párkapcsolatokban az átlag, hogy a felek 100 km távolságban (vagy még távolabb) születtek.    

Születési távolságok medián értéke házastársak (fekete), anya-gyerek (piros) és apa-gyerek (kék) kapcsolatok vonzatában. Jól látható, hogy az ipari forradalom, különösen a vasutak megjelenése, lehetővé tette a nagyobb mobilitást.Forrás: Science

Ami még nagyon érdekes, hogyha ezeknek a távolságoknak a mediánját nézzük, akkor a 20. század előtt egyértelműen a nők tűnnek mobilisabbnak (magyarán gyakoribb volt a szomszéd faluból feleséget hozni, mint férjet), ha viszont az átlagokat, akkor a férfiak - ennek az értelmezése az, hogy ugyan kevesebb férfi volt mobilis, de ha útra keltek, akkor sokszor sokkal nagyobb távolságokra jutottak.

Az adatfeldolgozás végső soron a MyHeritage szepontjából reklámnak sem utolsó, így talán nem is megleő, hogy a kutatás kezdésekor még külsős Erlich mostanrahosszabb szabadságot vett ki munkaadójától, a Columbia Egyetemtől, hogy tudományos tanácsadóként jobban belefolyhasson a MyHeritage munkájába. 

A következő szint a csaldáfakutatásban nyilván az egyre növekvő DNS-marker adatbázisok bevonása lesz, erre utal Erlich csapatának egy másik kezdeményezése, a non-profit DNA.Land, ami hasonló crowdsourcing alapon próbálja begyűjteni sok százezer (vagy inkább már millió) DNS teszt eredményét, hogy azokból is érdekességeket tudjon kimazsolázni.

Végül még egy fontos tanulság, ami nem közvetlenül a cikkből, hanem inkább már Erlich Twitter-feedjéből derült ki: bármennyire is pofonegyszerűnek tűnik egy ötlet, kivitelezése sokszor a legpesszimistább jóslatokon is túltesz. Az egész kutatás ötlete 2010-ben született, a kézirat első formája 2014-ben készült el és végül az idén februárban ért a sztori révbe. A türelem néha valóban rózsát terem.

(via The Atlantic, Nature)

Népszerű
Uralkodj magadon!
Új kommentelési szabályok vannak 2016. január 21-től. Itt olvashatod el, hogy mik azok, és itt azt, hogy miért vezettük be őket.
;