RESKVENCIJA CELOTNEGA GENOMA
Strukturne različice kitajske populacije in njihov vpliv na fenotipe, bolezni in prilagajanje populacije
Nanopore |PacBio |Ponovno sekvenciranje celotnega genoma |Klicanje strukturne variacije
V tej študiji je sekvenciranje Nanopore PromethION zagotovila Biomarker Technologies.
Poudarki
V tej študiji je bila razkrita splošna pokrajina strukturnih variacij (SV) v človeškem genomu s pomočjo dolgo berljivega sekvenciranja na platformi Nanopore PromethION, ki poglablja razumevanje SV v fenotipih, boleznih in evoluciji.
Eksperimentalno načrtovanje
Vzorci: levkociti periferne krvi 405 nepovezanih kitajskih posameznikov (206 moških in 199 žensk) z 68 fenotipskimi in kliničnimi meritvami.Med vsemi posamezniki so bile regije prednikov 124 posameznikov severne province, 198 posameznikov južne, 53 jugozahodne in 30 neznanih.
Strategija sekvenciranja: Sekvenciranje dolgega branja celotnega genoma (LRS) z odčitki Nanopore 1D in odčitki PacBio HiFi.
Platforma za sekvenciranje: Nanopore PromethION;PacBio Nadaljevanje II
Klicanje variacije strukture
Slika 1. Delovni tok klicanja in filtriranja SV
Glavni dosežki
Odkrivanje in validacija variacij strukture
Nabor datumov Nanopore: Skupno 20,7 Tb čistih branj, ustvarjenih na platformi za določanje zaporedja PromethION, s čimer se doseže povprečno 51 Gb podatkov na vzorec, pribl.17-krat v globino.
Poravnava referenčnega genoma (GRCh38): Dosežena je bila povprečna stopnja kartiranja 94,1 %.Povprečna stopnja napake (12,6 %) je bila podobna prejšnji primerjalni študiji (12,6 %) (sliki 2b in 2c)
Klic variacije strukture (SV): klicniki SV, uporabljeni v tej študiji, so vključevali Sniffles, NanoVar in NanoSV.SV z visoko stopnjo zaupanja so bili opredeljeni kot SV, ki sta jih identificirala vsaj dva klicatelja in so opravili filtre glede na globino, dolžino in regijo.
V vsakem vzorcu je bilo identificiranih povprečno 18.489 (v razponu od 15.439 do 22.505) SV z visoko stopnjo zaupanja.(Slike 2d, 2e in 2f)
Slika 2. Celotna pokrajina SV, identificiranih z naborom podatkov Nanopore
Validacija s strani PacBio: SV, ugotovljene v enem vzorcu (HG002, otrok), je potrdil nabor podatkov PacBio HiFi.Skupna stopnja lažnega odkritja (FDR) je bila 3,2 %, kar ponazarja razmeroma zanesljivo identifikacijo SV z odčitki Nanopore.
Neredundantni SV in genomske značilnosti
Neredundantni SV: Nabor 132.312 neredundantnih SV je bil pridobljen z združitvijo SV v vseh vzorcih, ki vključuje 67.405 DEL, 60.182 INS, 3.956 DUP in 769 INV.(Slika 3a)
Primerjava z obstoječimi nabori podatkov SV: Ta nabor podatkov je bil primerjan z objavljenim naborom podatkov TGS ali NGS.Znotraj štirih primerjanih naborov podatkov je imel LRS15, ki je tudi edini nabor podatkov iz platforme dolgobranega zaporedja (PacBio), največja prekrivanja s tem naborom podatkov.Poleg tega je bilo prvič prijavljenih 53,3 % (70.471) SV v tem naboru podatkov.Če smo preučili vsako vrsto SV, je bilo število obnovljenih INS-jev z nizom podatkov zaporedja dolgega branja veliko večje od preostalih tistih s kratkim branjem, kar kaže, da je sekvenciranje dolgega branja še posebej učinkovito pri odkrivanju INS-jev.(Sliki 3b in 3c)
Slika 3. Lastnosti neredundantnih SV za vsako vrsto SV
Genomske značilnosti: Ugotovljeno je bilo, da je število SV pomembno povezano z dolžino kromosoma.Porazdelitev genov, ponovitev, DEL (zelena), INS (modra), DUP (rumena) in INV (oranžna) so bile prikazane na Circosovem diagramu, kjer so opazili splošno povečanje SV na koncu kromosomskih krakov.(Sliki 3d in 3e)
Dolžina SV: Ugotovljeno je bilo, da so dolžine INS in DEL bistveno krajše od dolžin DUP in INV, kar se je strinjalo s tistimi, ki jih je identificiral nabor podatkov PacBio HiFi.Dolžina vseh identificiranih SV je znašala do 395,6 Mb, kar je zasedlo 13,2 % celotnega človeškega genoma.SV so v povprečju prizadeli 23,0 Mb (približno 0,8 %) genoma na posameznika.(Sliki 3f in 3g)
Funkcionalni, fenotipski in klinični vplivi SV
Predvidena izguba funkcije (pLoF) SV: pLoF SV so bili definirani kot SV v interakciji s CDS, kjer so bili kodirni nukleotidi izbrisani ali ORF spremenjeni.Skupaj je bilo označenih 1.929 pLoF SV, ki vplivajo na CDS 1.681 genov.Znotraj teh je 38 genov poudarilo "vezavo na receptor imunoglobulina" v analizi obogatitve GO.Te pLoF SV so dodatno označili GWAS, OMIM oziroma COSMIC.(Sliki 4a in 4b)
Fenotipsko in klinično pomembne SV: Številne SV v nizu podatkov o nanoporah so se izkazale za fenotipsko in klinično pomembne.Redki heterozigotni DEL 19,3 kb, za katerega je znano, da povzroča alfa-talasemijo, je bil identificiran pri treh posameznikih, ki so motili delovanje genov hemoglobinske podenote alfa 1 in 2 (HBA1 in HBA2).Drugi DEL 27,4 kb na genu, ki kodira hemoglobinsko podenoto Beta (HBB), je bil identificiran pri drugem posamezniku.Znano je, da ta SV povzroča resne hemoglobinopatije.(Slika 4c)
Slika 4. pLoF SV, povezani s fenotipi in boleznimi
Skupni DEL 2,4 kb je bil opažen pri 35 homozigotnih in 67 heterozigotnih nosilcih, ki pokrivajo celotno regijo 3. eksona rastnega homonskega receptorja (GHR).Homozigotni nosilci so bili značilno krajši od heterozigotnih (p=0,033).(Slika 4d)
Poleg tega so bili ti SV obdelani za evolucijske študije populacije med dvema regionalnima skupinama: severno in južno Kitajsko.Znatno diferencialne SV so bile ugotovljene porazdeljene na Chr 1, 2, 3, 6, 10, 12, 14 in 19, znotraj katerih so bile najvišje povezane z imunskimi regijami, kot so IGH, MHC itd. Smiselno je špekulirati, da je diferenciacija teh SV je lahko posledica genetskega premika in dolgoročne izpostavljenosti podpopulacij na Kitajskem različnim okoljem.
Referenca
Wu, Zhikun, et al."Strukturne različice kitajskega prebivalstva in njihov vpliv na fenotipe, bolezni in prilagajanje prebivalstva."bioRxiv(2021).
Novice in poudarki želi deliti najnovejše uspešne primere z Biomarker Technologies, zajeti nove znanstvene dosežke in vidne tehnike, uporabljene med študijo.
Čas objave: 6. januarja 2022