OBNOVENIE CELÉHO GENÓMU
Štruktúrne varianty v čínskej populácii a ich vplyv na fenotypy, choroby a adaptáciu populácie
Nanopore |PacBio |Opätovné sekvenovanie celého genómu |Volanie štrukturálnych variácií
V tejto štúdii bolo sekvenovanie Nanopore PromethION poskytnuté spoločnosťou Biomarker Technologies.
Zvýraznenie
V tejto štúdii bola odhalená celková krajina štrukturálnych variácií (SV) v ľudskom genóme pomocou dlhodobého sekvenovania na platforme Nanopore PromethION, čo prehlbuje pochopenie SV vo fenotypoch, chorobách a evolúcii.
Experimentálny dizajn
Vzorky: Leukocyty periférnej krvi 405 nepríbuzných čínskych jedincov (206 mužov a 199 žien) so 68 fenotypovými a klinickými meraniami.Medzi všetkými jednotlivcami boli oblasti predkov 124 jednotlivcov provincie na severe, oblasti 198 jednotlivcov boli južné, 53 bolo juhozápadných a 30 nebolo známych.
Stratégia sekvenovania: Sekvenovanie dlhého čítania celého genómu (LRS) s čítaním Nanopore 1D a čítaním PacBio HiFi.
Sekvenčná platforma: Nanopore PromethION;Pokračovanie PacBio II
Volanie zmeny štruktúry
Obrázok 1. Pracovný postup volania a filtrovania SV
Hlavné úspechy
Zisťovanie a overovanie variácií štruktúry
Nanopore dateset: Celkovo bolo na sekvenačnej platforme PromethION vygenerovaných celkom 20,7 Tb čistých čítaní, čím sa dosiahlo priemerne 51 Gb dát na vzorku, cca.17-násobná hĺbka.
Referenčné zarovnanie genómu (GRCh38): Dosiahla sa priemerná miera mapovania 94,1 %.Priemerná chybovosť (12,6 %) bola podobná predchádzajúcej porovnávacej štúdii (12,6 %) (obrázok 2b a 2c)
Volanie štrukturálnej variácie (SV): Volajúci SV aplikovaní v tejto štúdii zahŕňali Sniffles, NanoVar a NanoSV.Vysoko spoľahlivé SV boli definované ako SV identifikované najmenej dvoma volajúcimi a prešli filtráciou na hĺbku, dĺžku a oblasť.
V každej vzorke bolo identifikovaných priemerne 18 489 (v rozmedzí od 15 439 do 22 505) vysoko dôveryhodných SV.(Obrázok 2d, 2e a 2f)
Obrázok 2. Celková krajina SV identifikovaných súborom údajov Nanopore
Validácia pomocou PacBio: SV identifikované v jednej vzorke (HG002, dieťa) boli overené súborom údajov PacBio HiFi.Celková miera falošných objavov (FDR) bola 3,2 %, čo ilustruje relatívne spoľahlivú identifikáciu SV pomocou Nanopore.
Neredundantné SV a genómové vlastnosti
Neredundantné SV: Súbor 132 312 neredundantných SV sa získal zlúčením SV vo všetkých vzorkách, čo zahŕňa 67 405 DEL, 60 182 INS, 3 956 DUP a 769 INV.(Obrázok 3a)
Porovnanie s existujúcimi súbormi údajov SV: Tento súbor údajov bol porovnaný s publikovaným súborom údajov TGS alebo NGS.V rámci štyroch porovnávaných súborov údajov zdieľal LRS15, ktorý je tiež jediným súborom údajov z platformy na dlhé čítanie sekvencovania (PacBio), najväčšie prekrývanie s týmto súborom údajov.Navyše, 53,3 % (70 471) SV v tomto súbore údajov bolo hlásených po prvýkrát.Pri pohľade na každý typ SV bol počet obnovených INS so súborom údajov s dlhým čítaním sekvencovania oveľa väčší ako ostatné súbory s krátkym čítaním, čo naznačuje, že sekvenovanie dlhého čítania je obzvlášť efektívne pri detekcii INS.(Obrázok 3b a 3c)
Obrázok 3. Vlastnosti neredundantných SV pre každý typ SV
Genomické znaky: Zistilo sa, že počet SV významne koreluje s dĺžkou chromozómov.Distribúcia génov, opakovania, DEL (zelená), INS (modrá), DUP (žltá) a INV (oranžová) boli zobrazené na Circosovom diagrame, kde bol pozorovaný všeobecný nárast SV na konci chromozómových ramien.(Obrázok 3d a 3e)
Dĺžka SV: Zistilo sa, že dĺžky INS a DEL sú výrazne kratšie ako dĺžky DUP a INV, čo súhlasilo s tými, ktoré identifikoval súbor údajov PacBio HiFi.Dĺžka všetkých identifikovaných SV sa zvýšila na 395,6 Mb, čo zaberalo 13,2% celého ľudského genómu.SV ovplyvnili v priemere 23,0 Mb (približne 0,8 %) genómu na jednotlivca.(Obrázok 3f a 3g)
Funkčné, fenotypové a klinické dopady SV
Predpokladaná strata funkcie (pLoF) SV: pLoF SV boli definované ako SV interagované s CDS, kde boli kódujúce nukleotidy odstránené alebo ORF boli zmenené.Celkovo bolo anotovaných 1 929 pLoF SV ovplyvňujúcich CDS 1 681 génov.V rámci nich 38 génov zdôraznilo „väzbu imunoglobulínového receptora“ v analýze obohatenia GO.Tieto pLoF SV boli ďalej anotované pomocou GWAS, OMIM a COSMIC.(Obrázok 4a a 4b)
Fenotypovo a klinicky relevantné SV: Ukázalo sa, že množstvo SV v súbore údajov o nanopóroch je fenotypovo a klinicky relevantných.Zriedkavé heterozygotné DEL s veľkosťou 19,3 kb, o ktorých je známe, že spôsobujú alfa-talasémiu, boli identifikované u troch jedincov, ktorí mali dysfunkciu génov hemoglobínovej podjednotky alfa 1 a 2 (HBA1 a HBA2).Ďalšia DEL 27,4 kb na géne kódujúcom hemoglobínovú podjednotku Beta (HBB) bola identifikovaná u iného jedinca.Bolo známe, že táto SV spôsobuje vážne hemoglobinopatie.(Obrázok 4c)
Obrázok 4. pLoF SV spojené s fenotypmi a chorobami
Spoločná DEL s veľkosťou 2,4 kb bola pozorovaná u 35 homozygotných a 67 heterozygotných nosičov, čo pokrýva kompletnú oblasť 3. exónu rastového homoónneho receptora (GHR).Zistili sa, že homozygotní nosiči sú výrazne kratšie ako heterozygotní (p=0,033).(Obrázok 4d)
Okrem toho boli tieto SV spracované pre populačné evolučné štúdie medzi dvoma regionálnymi skupinami: severnou a južnou Čínou.Zistili sa výrazne rozdielne SV distribuované na Chr 1, 2, 3, 6, 10, 12, 14 a 19, v rámci ktorých boli tie najvyššie spojené s oblasťami imunity, ako sú IGH, MHC atď. Je rozumné predpokladať, že diferenciácia v týchto SV môže byť spôsobená genetickým posunom a dlhodobým vystavením rôznym prostrediam pre subpopulácie v Číne.
Odkaz
Wu, Zhikun a kol."Štrukturálne varianty v čínskej populácii a ich vplyv na fenotypy, choroby a adaptáciu populácie."bioRxiv(2021).
Novinky a najvýznamnejšie udalosti sa zameriava na zdieľanie najnovších úspešných prípadov s Biomarker Technologies, zachytávanie nových vedeckých úspechov, ako aj významných techník použitých počas štúdie.
Čas odoslania: Jan-06-2022