REKVENSERING AF HELE GENOMET
Strukturvarianter i kinesisk befolkning og deres indvirkning på fænotyper, sygdomme og befolkningstilpasning
Nanopore |PacBio |Re-sekventering af hele genomet |Strukturel variation kalder
I denne undersøgelse blev Nanopore PromethION-sekventering leveret af Biomarker Technologies.
Højdepunkter
I denne undersøgelse blev et overordnet landskab af strukturelle variationer (SV'er) i det menneskelige genom afsløret ved hjælp af langlæst sekventering på Nanopore PromethION-platformen, som uddyber forståelsen af SV'er i fænotyper, sygdomme og evolution.
Eksperimentelt design
Prøver: Leukocytter fra perifert blod fra 405 ubeslægtede kinesiske individer (206 mænd og 199 kvinder) med 68 fænotypiske og kliniske målinger.Blandt alle individer var forfædres regioner med 124 individer provinser i nord, dem af 198 individer var syd, 53 var sydvestlige og 30 var ikke kendte.
Sekvenseringsstrategi: Langlæst sekventering af hele genomet (LRS) med Nanopore 1D-læsninger og PacBio HiFi-læsninger.
Sekvenseringsplatform: Nanopore PromethION;PacBio Sequel II
Opkald til strukturvariationer
Figur 1. Arbejdsgang for SV-kald og filtrering
Vigtigste præstationer
Opdagelse og validering af strukturvariationer
Nanopore-datosæt: I alt 20,7 Tb rene aflæsninger genereret på PromethION sekventeringsplatform, hvilket opnår et gennemsnit på 51 Gb data pr. prøve, ca.17 gange i dybden.
Referencegenomjustering (GRCh38): Gennemsnitlig kortlægningshastighed på 94,1 % blev opnået.Den gennemsnitlige fejlrate (12,6 %) svarede til en tidligere benchmarking-undersøgelse (12,6 %) (figur 2b og 2c)
Structure variation (SV) calling: SV callers anvendt i denne undersøgelse omfattede Sniffles, NanoVar og NanoSV.High-confidence SV'er blev defineret som SV'er identificeret af mindst to kaldere og bestået filtreringer på dybde, længde og region.
Et gennemsnit på 18.489 (spænder fra 15.439 til 22.505) højsikkerheds-SV'er blev identificeret i hver prøve.(Figur 2d, 2e og 2f)
Figur 2. Overordnet landskab af SV'er identificeret af Nanopore-datasæt
Validering af PacBio: SV'er identificeret i en prøve (HG002, barn) blev valideret af et PacBio HiFi-datasæt.Den samlede falske opdagelsesrate (FDR) var 3,2%, hvilket illustrerer en relativt pålidelig SV-identifikation af Nanopore-læsninger.
Ikke-redundante SV'er og genomiske træk
Ikke-redundante SV'er: Et sæt på 132.312 ikke-redundante SV'er blev opnået ved at fusionere SV'er i alle prøver, hvilket inkluderer 67.405 DEL'er, 60.182 INS'er, 3.956 DUP'er og 769 INV'er.(Figur 3a)
Sammenligning med eksisterende SV-datasæt: Dette datasæt blev sammenlignet med offentliggjorte TGS- eller NGS-datasæt.Inden for de fire sammenlignede datasæt delte LRS15, som også er det eneste datasæt fra langlæst sekventeringsplatform (PacBio), de største overlapninger med dette datasæt.Desuden blev 53,3% (70.471) af SV'er i dette datasæt rapporteret for første gang.Ved at se på hver SV-type var antallet af gendannede INS'er med langlæst sekventeringsdatasæt meget større end de øvrige kortlæste, hvilket indikerer, at langlæst sekventering er særlig effektiv i INS-detektion.(Figur 3b og 3c)
Figur 3. Egenskaber for ikke-redundante SV'er for hver SV-type
Genomiske træk: Antallet af SV'er blev fundet signifikant korreleret med kromosomlængde.Fordeling af gener, gentagelser, DEL'er (grøn), INS (blå), DUP (gul) og INV (orange) blev vist på et Circos-diagram, hvor en generel stigning i SV blev observeret for enden af kromosomarmene.(Figur 3d og 3e)
Længde af SV'er: Længder af INS'er og DEL'er blev fundet at være betydeligt kortere end dem for DUP'er og INV'er, hvilket stemte overens med dem, der blev identificeret af PacBio HiFi-datasæt.Længden af alle identificerede SV'er tilføjet op til 395,6 Mb, som optog 13,2% af hele det menneskelige genom.SV'er påvirkede i gennemsnit 23,0 Mb (ca. 0,8%) genom pr. individ.(Figur 3f og 3g)
Funktionelle, fænotypiske og kliniske virkninger af SV'er
Forudsagt funktionstab (pLoF) SV'er: pLoF SV'er blev defineret som SV'er interageret med CDS, hvor kodende nukleotider blev slettet eller ORF'er blev ændret.I alt 1.929 pLoF SV'er, der påvirker CDS af 1.681 gener, blev kommenteret.Inden for disse fremhævede 38 gener "immunoglobulinreceptorbinding" i GO-berigelsesanalyse.Disse pLoF SV'er blev yderligere kommenteret af henholdsvis GWAS, OMIM og COSMIC.(Figur 4a og 4b)
Fænotypisk og klinisk relevante SV'er: En række SV i nanopore-datasæt blev vist at være fænotypisk og klinisk relevante.En sjælden heterozygot DEL på 19,3 kb, kendt for at forårsage alfa-thalassæmi, blev identificeret hos tre individer, som dysfunktionerede generne af hæmoglobinunderenhed Alpha 1 og 2 (HBA1 og HBA2).En anden DEL på 27,4 kb på genkodende hæmoglobinunderenhed Beta(HBB) blev identificeret i et andet individ.Denne SV var kendt for at forårsage alvorlige hæmoglobinopatier.(Figur 4c)
Figur 4. pLoF SV'er forbundet med fænotyper og sygdomme
En almindelig DEL på 2,4 kb blev observeret i 35 homozygote og 67 heterozygote bærere, som dækker hele regionen af den 3. exon af Growth Homone Receptor (GHR).De homozygote bærere blev fundet signifikant kortere end heterzygote (p=0,033).(Figur 4d)
Desuden blev disse SV'er behandlet til befolknings evolutionære undersøgelser mellem to regionale grupper: Nord- og Sydkina.Signifikant differentielle SV'er blev fundet fordelt på Chr 1, 2, 3, 6,10,12,14 og 19, inden for hvilke de øverste var forbundet med immunitetsregioner, såsom IGH, MHC osv. Det er rimeligt at spekulere i, at differentiering i disse SV'er kan skyldes genetisk drift og langvarig udsættelse for forskellige miljøer for underpopulationer i Kina.
Reference
Wu, Zhikun, et al."Strukturelle varianter i den kinesiske befolkning og deres indvirkning på fænotyper, sygdomme og befolkningstilpasning."bioRxiv(2021).
Nyheder og højdepunkter sigter på at dele de seneste succesfulde cases med Biomarker Technologies, fange nye videnskabelige resultater såvel som fremtrædende teknikker anvendt under undersøgelsen.
Indlægstid: Jan-06-2022