RESEKVENCIJA CIJELOG GENOMA
Strukturne varijante kineske populacije i njihov utjecaj na fenotipove, bolesti i adaptaciju populacije
Nanopore |PacBio |Ponovno sekvenciranje cijelog genoma |Pozivanje strukturalnih varijacija
U ovoj studiji, Nanopore PromethION sekvenciranje je obezbijedila Biomarker Technologies.
Highlights
U ovoj studiji, otkriven je cjelokupni pejzaž strukturnih varijacija (SV) u ljudskom genomu uz pomoć dugo čitanog sekvenciranja na Nanopore PromethION platformi, što produbljuje razumijevanje SV u fenotipovima, bolestima i evoluciji.
Eksperimentalni dizajn
Uzorci: Leukociti periferne krvi 405 nepovezanih kineskih pojedinaca (206 muškaraca i 199 žena) sa 68 fenotipskih i kliničkih mjerenja.Među svim pojedincima, regije predaka 124 osobe bile su provincije na sjeveru, one od 198 individua bile su južne, 53 su bile jugozapadne, a 30 nije bilo poznato.
Strategija sekvenciranja: Sekvenciranje dugog čitanja cijelog genoma (LRS) sa Nanopore 1D čitanjima i PacBio HiFi čitanjima.
Platforma za sekvenciranje: Nanopore PromethION;PacBio nastavak II
Pozivanje varijacije strukture
Slika 1. Tok rada SV poziva i filtriranja
Glavna dostignuća
Otkrivanje i validacija varijacija strukture
Nanopore dateset: Ukupno 20,7 Tb čistih čitanja generiranih na PromethION platformi za sekvenciranje, postižući u prosjeku 51 Gb podataka po uzorku, pribl.17 puta u dubini.
Referentno poravnanje genoma (GRCh38): Postignuta je prosječna stopa mapiranja od 94,1%.Prosječna stopa greške (12,6%) bila je slična prethodnoj benčmark studiji (12,6%) (Slike 2b i 2c)
Pozivanje varijacije strukture (SV): SV pozivaoci primijenjeni u ovoj studiji uključivali su Sniffles, NanoVar i NanoSV.SV-ovi visoke pouzdanosti definirani su kao SV-ovi identificirani od strane najmanje dva pozivatelja i prošli filtracije po dubini, dužini i regiji.
U svakom uzorku je identifikovano u prosjeku 18.489 (u rasponu od 15.439 do 22.505) visokopouzdanih SV.(Slike 2d, 2e i 2f)
Slika 2. Ukupni krajolik SV-ova identificiranih Nanopore skupom podataka
Validacija od strane PacBio: SV identificirani u jednom uzorku (HG002, dijete) potvrđeni su PacBio HiFi skupom podataka.Ukupna stopa lažnih otkrića (FDR) bila je 3,2%, što ilustruje relativno pouzdanu identifikaciju SV prema Nanopore čitanjima.
Neredundantni SV i genomske karakteristike
Neredundantni SV-ovi: Skup od 132.312 neredundantnih SV-ova dobijen je spajanjem SV-ova u svim uzorcima, što uključuje 67.405 DEL-ova, 60.182 INS-a, 3.956 DUP-a i 769 INV-a.(Slika 3a)
Poređenje sa postojećim skupovima podataka SV: Ovaj skup podataka je upoređen sa objavljenim TGS ili NGS skupom podataka.Unutar četiri upoređena skupa podataka, LRS15, koji je ujedno i jedini skup podataka sa platforme za sekvenciranje dugog čitanja (PacBio) dijeli najveća preklapanja s ovim skupom podataka.Štaviše, 53,3% (70,471) SV u ovom skupu podataka je prijavljeno po prvi put.Gledajući svaki tip SV-a, broj oporavljenih INS-ova sa skupom podataka sekvenciranja dugog čitanja bio je mnogo veći od ostalih kratko čitanih, što ukazuje da je sekvenciranje dugog čitanja posebno efikasno u detekciji INS-a.(Slike 3b i 3c)
Slika 3. Svojstva neredundantnih SV-ova za svaki tip SV-a
Genomske karakteristike: Utvrđeno je da je broj SV u značajnoj korelaciji sa dužinom hromozoma.Distribucija gena, ponavljanja, DELs (zeleni), INS (plavi), DUP (žuti) i INV (narandžasti) prikazani su na Circos dijagramu, gde je uočeno opšte povećanje SV na kraju krakova hromozoma.(Slike 3d i 3e)
Dužina SV-ova: Utvrđeno je da su dužine INS-a i DEL-a značajno kraće od onih za DUP-ove i INV-ove, što se slaže sa onima koje je identificirao PacBio HiFi skup podataka.Dužina svih identifikovanih SV-ova iznosila je 395,6 Mb, što je zauzimalo 13,2% ukupnog ljudskog genoma.SV su uticale na 23,0 Mb (oko 0,8%) genoma po osobi u prosjeku.(Slike 3f i 3g)
Funkcionalni, fenotipski i klinički uticaji SV
Predviđeni gubitak funkcije (pLoF) SV: pLoF SV su definisani kao SV u interakciji sa CDS, gdje su kodirajući nukleotidi izbrisani ili ORF su izmijenjeni.Ukupno je označeno 1.929 pLoF SV-ova koji utiču na CDS 1.681 gena.Unutar njih, 38 gena je istaklo "vezivanje imunoglobulinskih receptora" u analizi obogaćivanja GO.Ove pLoF SV dodatno su označili GWAS, OMIM i COSMIC, respektivno.(Slike 4a i 4b)
Fenotipski i klinički relevantni SV: Pokazalo se da je određeni broj SV u skupu podataka o nanoporama fenotipski i klinički relevantan.Rijetka heterozigotna DEL od 19,3 kb, za koju se zna da uzrokuje alfa-talasemiju, identificirana je kod tri osobe, koje su disfunkcionirale gene hemoglobinske podjedinice Alfa 1 i 2 (HBA1 i HBA2).Još jedan DEL od 27,4 kb na genu koji kodira hemoglobinsku podjedinicu Beta (HBB) identifikovan je kod druge osobe.Poznato je da ovaj SV uzrokuje ozbiljne hemoglobinopatije.(Slika 4c)
Slika 4. pLoF SV-ovi povezani sa fenotipovima i bolestima
Uobičajeni DEL od 2,4 kb uočen je kod 35 homozigotnih i 67 heterozigotnih nosača, koji pokriva kompletan region 3. egzona receptora homona rasta (GHR).Homozigotni nosioci su nađeni značajno kraći od heterozigotnih (p=0,033).(Slika 4d)
Nadalje, ovi SV-ovi su obrađeni za populacijske evolucijske studije između dvije regionalne grupe: Sjeverne i Južne Kine.Značajno diferencijalni SV su pronađeni raspoređeni na Chr 1, 2, 3, 6, 10, 12, 14 i 19, u okviru kojih su gornji bili povezani sa regionima imuniteta, kao što su IGH, MHC, itd. Razumno je spekulisati da diferencijacija u ovim SV može biti uzrokovana genetskim pomakom i dugotrajnom izloženošću različitim okruženjima za podpopulacije u Kini.
Referenca
Wu, Zhikun, et al.“Strukturne varijante u kineskoj populaciji i njihov utjecaj na fenotipove, bolesti i adaptaciju stanovništva.”bioRxiv(2021).
Vijesti i istaknuti detalji ima za cilj dijeljenje najnovijih uspješnih slučajeva sa Biomarker Technologies, bilježi nova naučna dostignuća, kao i istaknute tehnike primijenjene tokom studije.
Vrijeme objave: Jan-06-2022