HELE GENOME RESEQUENCING
Struktuerfarianten yn Sineeske befolking en har ynfloed op fenotypen, sykten en befolkingsoanpassing
Nanopore |PacBio |Folsleine genome re-sequencing |Strukturele fariaasje callling
Yn dizze stúdzje waard Nanopore PromethION sequencing levere troch Biomarker Technologies.
Hichtepunten
Yn dizze stúdzje waard in algemien lânskip fan strukturele fariaasjes (SV's) yn minsklik genoom iepenbiere mei help fan langlêzen sequencing op Nanopore PromethION-platfoarm, dy't it begryp fan SV's ferdjipje yn fenotypen, sykten en evolúsje.
Eksperiminteel ûntwerp
Samples: Perifeare bloedleukozyten fan 405 net-relatearre Sineeske persoanen (206 manlju en 199 froulju) mei 68 fenotypyske en klinyske mjittingen.Under alle yndividuen wiene foarâlderlike regio's fan 124 persoanen provinsjes yn it Noarden, dy fan 198 yndividuen wiene Súd, 53 wiene Súdwesten en 30 wiene net bekend.
Sequencing strategy: Folsleine genome langlêzen sequencing (LRS) mei Nanopore 1D-lêzen en PacBio HiFi-lêzen.
Sequencing platfoarm: Nanopore PromethION;PacBio Sequel II
Struktuer Variation Calling
figuer 1. Workflow fan SV calling en filterjen
Main Achievements
Struktuer fariaasje ûntdekking en falidaasje
Nanopore datumset: Yn totaal 20,7 Tb skjinne lêzings generearre op PromethION sequencing platfoarm, it realisearjen fan in gemiddelde fan 51 Gb gegevens per stekproef, likernôch.17-fold yn djipte.
Referinsjegenoomôfstimming (GRCh38): Gemiddelde mappingrate fan 94.1% waard berikt.It gemiddelde flatersifer (12.6%) wie fergelykber mei in eardere benchmarking-stúdzje (12.6%) (figuer 2b en 2c)
Struktuer fariaasje (SV) calling: SV callers tapast yn dizze stúdzje omfette Sniffles, NanoVar en NanoSV.SV's mei hege fertrouwen waarden definieare as SV's identifisearre troch op syn minst twa bellers en trochjûn filtraasjes op djipte, lingte en regio.
In gemiddelde fan 18,489 (fariearjend fan 15,439 oant 22,505) SV's mei hege fertrouwen waarden yn elke stekproef identifisearre.(Figure 2d, 2e en 2f)
figuer 2. Algemiene lânskip fan SVs identifisearre troch Nanopore dataset
Validaasje troch PacBio: SV's identifisearre yn ien stekproef (HG002, bern) waarden falidearre troch in PacBio HiFi-dataset.De totale falske ûntdekkingsrate (FDR) wie 3,2%, yllustrearret in relatyf betroubere SV-identifikaasje troch Nanopore-lêzen.
Net-oerstallige SV's en genomyske funksjes
Net-oerstallige SV's: In set fan 132.312 net-oerstallige SV's waarden krigen troch SV's te fusearjen yn alle samples, dy't 67.405 DEL's, 60.182 INS's, 3.956 DUP's en 769 INV's omfettet.(ôfbylding 3a)
Fergeliking mei besteande SV datasets: Dizze dataset waard fergelike mei publisearre TGS of NGS dataset.Binnen de fjouwer datasetten fergelike, dielde LRS15, dy't ek de ienige dataset is fan langlêzen sequencing-platfoarm (PacBio), de grutste oerlappingen mei dizze dataset.Boppedat waarden 53.3% (70.471) fan SV's yn dizze dataset foar it earst rapportearre.Troch nei elk SV-type te sjen, wie it oantal weromfûne INS's mei langlêzen sequencing dataset folle grutter dan de rest koartlêzen, wat oanjout dat langlêzen sequencing benammen effisjint is yn INS-deteksje.(ôfbylding 3b en 3c)
figuer 3. Eigenskippen fan net-oerstallige SVs foar eltse SV type
Genomyske skaaimerken: Oantal SV's waard signifikant korrelearre fûn mei chromosoomlingte.Ferdieling fan genen, werhellingen, DEL's (grien), INS (blau), DUP (giel) en INV (oranje) waarden werjûn op in Circos-diagram, wêr't in algemiene ferheging fan SV waard waarnommen oan 'e ein fan chromosomearmen.(ôfbylding 3d en 3e)
Lingte fan SV's: Lengten fan INS's en DEL's waarden fûn signifikant koarter te wêzen dan dy fan DUP's en INV's, dy't oerienkomme mei dy identifisearre troch PacBio HiFi dataset.Lingte fan alle identifisearre SV's tafoege oant 395,6 Mb, dy't 13,2% fan it hiele minsklike genoom besette.SVs beynfloede 23,0 Mb (sawat 0,8%) fan genome per yndividu yn trochsneed.(ôfbylding 3f en 3g)
Funksjonele, fenotypyske en klinyske effekten fan SV's
Foarsein ferlies fan funksje (pLoF) SV's: pLoF SV's waarden definieare as SV's dy't ynteraksje mei CDS, wêr't kodearjende nukleotiden waarden wiske of ORF's waarden feroare.Yn totaal waarden 1,929 pLoF SV's dy't CDS fan 1,681 genen beynfloedzje annotearre.Binnen dy markearren 38 genen "immunoglobuline-receptor-bining" yn GO-ferrikingsanalyse.Dizze pLoF SV's waarden fierder annotearre troch respektivelik GWAS, OMIM en COSMIC.(ôfbylding 4a en 4b)
Fenotypysk en klinysk relevante SV's: In oantal SV's yn nanopore-dataset waarden oantoand om fenotypysk en klinysk relevant te wêzen.In seldsume heterozygote DEL fan 19.3 kb, bekend om alpha-thalassemia te feroarsaakjen, waarden identifisearre yn trije persoanen, dy't dysfunksjoneare genen fan Hemoglobine Subunit Alpha 1 en 2 (HBA1 en HBA2).In oare DEL fan 27.4 kb op gen kodearring Hemoglobine Subunit Beta (HBB) waard identifisearre yn in oar yndividu.Dizze SV wie bekend om serieuze hemoglobinopathyen te feroarsaakjen.(ôfbylding 4c)
Figure 4. pLoF SVs ferbûn mei phenotypes en sykten
In mienskiplike DEL fan 2.4 kb waard waarnommen yn 35 homozygote en 67 heterozygote dragers, dy't de folsleine regio fan 'e 3e ekson fan Growth Homone Receptor (GHR) beslacht.De homozygote dragers waarden signifikant koarter fûn as heterzygote (p=0.033).(ôfbylding 4d)
Fierder waarden dizze SV's ferwurke foar evolúsjonêre stúdzjes fan 'e befolking tusken twa regionale groepen: Noard- en Súd-Sina.Signifikante differinsjale SV's waarden fûn ferdield op Chr 1, 2, 3, 6,10,12,14 en 19, wêryn't de topen ferbûn wiene mei immuniteitsregio's, lykas IGH, MHC, ensfh. It is ridlik te spekulearjen dat de differinsjaasje yn dizze SVs kin fanwege genetyske drift en lange-termyn bleatstelling oan ferskate envronments foar sub-populaasjes yn Sina.
Referinsje
Wu, Zhikun, et al."Strukturele farianten yn Sineeske befolking en har ynfloed op fenotypen, sykten en befolkingsoanpassing."bioRxiv(2021).
Nijs en hichtepunten is fan doel de lêste suksesfolle gefallen te dielen mei Biomarker Technologies, it fêstlizzen fan nije wittenskiplike prestaasjes lykas promininte techniken tapast tidens de stúdzje.
Post tiid: Jan-06-2022