OBNOVENÍ CELÉHO GENOMU
Strukturní varianty v čínské populaci a jejich vliv na fenotypy, nemoci a adaptaci populace
Nanopore |PacBio |Resekvenování celého genomu |Volání strukturálních variací
V této studii bylo sekvenování Nanopore PromethION poskytnuto společností Biomarker Technologies.
Zvýraznění
V této studii byla odhalena celková krajina strukturálních variací (SV) v lidském genomu pomocí dlouhého čtení sekvenování na platformě Nanopore PromethION, která prohlubuje pochopení SV ve fenotypech, chorobách a evoluci.
Experimentální design
Vzorky: Leukocyty periferní krve 405 nepříbuzných čínských jedinců (206 mužů a 199 žen) s 68 fenotypovými a klinickými měřeními.Mezi všemi jednotlivci byly oblasti předků 124 jedinců provinciemi na severu, regiony 198 jedinců byly jih, 53 jihozápad a 30 nebylo známo.
Strategie sekvenování: Long-read sekvenování celého genomu (LRS) se čtením Nanopore 1D a čtením PacBio HiFi.
Sekvenační platforma: Nanopore PromethION;Pokračování PacBio II
Volání změny struktury
Obrázek 1. Pracovní postup volání a filtrování SV
Moje úspěchy
Odhalování a ověřování strukturních variací
Nanopore dateset: Celkem 20,7 Tb čistých čtení generovaných na sekvenační platformě PromethION, čímž bylo dosaženo v průměru 51 Gb dat na vzorek, cca.17násobná hloubka.
Referenční zarovnání genomu (GRCh38): Bylo dosaženo průměrné míry mapování 94,1 %.Průměrná míra chyb (12,6 %) byla podobná předchozí srovnávací studii (12,6 %) (obrázek 2b a 2c)
Volání strukturní variace (SV): Volající SV použité v této studii zahrnovaly Sniffles, NanoVar a NanoSV.Vysoce spolehlivé SV byly definovány jako SV identifikované alespoň dvěma volajícími a prošly filtrací na hloubku, délku a oblast.
V každém vzorku bylo identifikováno průměrně 18 489 (v rozmezí od 15 439 do 22 505) vysoce spolehlivých SV.(Obrázek 2d, 2e a 2f)
Obrázek 2. Celková krajina SV identifikovaných datovým souborem Nanopore
Validace pomocí PacBio: SV identifikované v jednom vzorku (HG002, dítě) byly validovány pomocí datové sady PacBio HiFi.Celková míra falešných objevů (FDR) byla 3,2 %, což ilustruje relativně spolehlivou identifikaci SV pomocí čtení Nanopore.
Neredundantní SV a genomické rysy
Neredundantní SV: Soubor 132 312 neredundantních SV byl získán sloučením SV ve všech vzorcích, což zahrnuje 67 405 DEL, 60 182 INS, 3 956 DUP a 769 INV.(Obrázek 3a)
Srovnání s existujícími datovými soubory SV: Tento datový soubor byl porovnán s publikovaným datovým souborem TGS nebo NGS.V rámci čtyř porovnávaných datových sad sdílel největší přesahy s touto datovou sadou LRS15, která je také jedinou datovou sadou z platformy pro dlouhé čtení (PacBio).Navíc 53,3 % (70 471) SV v tomto souboru dat bylo hlášeno poprvé.Při pohledu na každý typ SV byl počet obnovených INS s datovou sadou sekvenování s dlouhým čtením mnohem větší než zbývající sekvenování s krátkým čtením, což naznačuje, že sekvenování s dlouhým čtením je zvláště účinné při detekci INS.(Obrázek 3b a 3c)
Obrázek 3. Vlastnosti neredundantních SV pro každý typ SV
Genomické znaky: Bylo zjištěno, že počet SV významně koreluje s délkou chromozomu.Distribuce genů, repetice, DEL (zelená), INS (modrá), DUP (žlutá) a INV (oranžová) byly zobrazeny na Circos diagramu, kde bylo pozorováno obecné zvýšení SV na konci ramen chromozomu.(Obrázek 3d a 3e)
Délka SV: Bylo zjištěno, že délky INS a DEL jsou výrazně kratší než délky DUP a INV, což souhlasilo s těmi, které identifikoval datový soubor PacBio HiFi.Délka všech identifikovaných SV se zvýšila na 395,6 Mb, což zabíralo 13,2 % celého lidského genomu.SV ovlivnily v průměru 23,0 Mb (přibližně 0,8 %) genomu na jednotlivce.(Obrázek 3f a 3g)
Funkční, fenotypové a klinické dopady SV
Předpokládaná ztráta funkce (pLoF) SV: pLoF SV byly definovány jako SV interagované s CDS, kde byly odstraněny kódující nukleotidy nebo byly změněny ORF.Celkem bylo anotováno 1 929 pLoF SV ovlivňujících CDS 1 681 genů.V rámci nich 38 genů zdůraznilo „vazbu imunoglobulinového receptoru“ v analýze obohacení GO.Tyto pLoF SV byly dále anotovány pomocí GWAS, OMIM a COSMIC, v daném pořadí.(Obrázek 4a a 4b)
Fenotypově a klinicky relevantní SV: U řady SV v nanopórovém souboru dat se ukázalo, že jsou fenotypově a klinicky relevantní.Vzácný heterozygotní DEL o velikosti 19,3 kb, o kterém je známo, že způsobuje alfa-talasémii, byl identifikován u tří jedinců, kteří dysfunkci genů hemoglobinové podjednotky Alpha 1 a 2 (HBA1 a HBA2).Další DEL 27,4 kb na genu kódujícím Hemoglobin Subunit Beta (HBB) byl identifikován u jiného jedince.Bylo známo, že tato SV způsobuje vážné hemoglobinopatie.(Obrázek 4c)
Obrázek 4. pLoF SV spojené s fenotypy a chorobami
Společný DEL o velikosti 2,4 kb byl pozorován u 35 homozygotních a 67 heterozygotních přenašečů, což pokrývá kompletní oblast 3. exonu Growth Homone Receptor (GHR).Homozygotní přenašeči byli nalezeni významně kratší než heterozygotní (p=0,033).(Obrázek 4d)
Dále byly tyto SV zpracovány pro populační evoluční studie mezi dvěma regionálními skupinami: severní a jižní Čínou.Byly nalezeny významně rozdílné SV distribuované na Chr 1, 2, 3, 6, 10, 12, 14 a 19, v rámci kterých byly ty nejvyšší spojeny s imunitními oblastmi, jako je IGH, MHC atd. Je rozumné předpokládat, že diferenciace v těchto SV může být způsobena genetickým driftem a dlouhodobým vystavením různým prostředím pro subpopulace v Číně.
Odkaz
Wu, Zhikun a kol."Strukturální varianty v čínské populaci a jejich dopad na fenotypy, nemoci a adaptaci populace."bioRxiv(2021).
Novinky a hlavní události si klade za cíl sdílet nejnovější úspěšné případy s Biomarker Technologies, zachycovat nové vědecké úspěchy i prominentní techniky použité během studie.
Čas odeslání: leden-06-2022