RESEQUENCING VAN HET HELE GENOOM
Structuurvarianten in de Chinese bevolking en hun impact op fenotypes, ziekten en populatieaanpassing
Nanoporie |PacBio |Hersequencing van het hele genoom |Structurele variatie roept op
In deze studie werd Nanopore PromethION-sequencing geleverd door Biomarker Technologies.
Hoogtepunten
In deze studie werd een algemeen landschap van structurele variaties (SV's) in het menselijk genoom onthuld met behulp van langgelezen sequencing op het Nanopore PromethION-platform, dat het begrip van SV's in fenotypes, ziekten en evolutie verdiept.
Experimenteel ontwerp
Monsters: Perifere bloedleukocyten van 405 niet-verwante Chinese individuen (206 mannen en 199 vrouwen) met 68 fenotypische en klinische metingen.Van alle individuen waren de voorouderlijke regio's van 124 individuen provincies in het noorden, die van 198 individuen in het zuiden, 53 in het zuidwesten en 30 waren niet bekend.
Sequencing-strategie: Long-read sequencing (LRS) van het hele genoom met Nanopore 1D-lezingen en PacBio HiFi-lezingen.
Sequentieplatform: Nanopore PromethION;PacBio-vervolg II
Structuurvariatie Bellen
Figuur 1. Workflow van SV-oproepen en filteren
Belangrijkste prestaties
Ontdekking en validatie van structuurvariaties
Nanopore-dataset: in totaal 20,7 Tb schone metingen gegenereerd op het PromethION-sequencingplatform, waarbij een gemiddelde van 51 Gb data per monster wordt bereikt, ongeveer.17-voudig diep.
Uitlijning van het referentiegenoom (GRCh38): Er werd een gemiddeld mappingpercentage van 94,1% bereikt.Het gemiddelde foutenpercentage (12,6%) was vergelijkbaar met dat van een eerder benchmarkonderzoek (12,6%) (Figuur 2b en 2c)
Structuurvariatie (SV) oproepen: SV-bellers die in dit onderzoek werden toegepast, waren onder meer Sniffles, NanoVar en NanoSV.SV's met een hoog vertrouwen werden gedefinieerd als SV's die door ten minste twee bellers werden geïdentificeerd en filteringen op diepte, lengte en regio doorstonden.
In elke steekproef werden gemiddeld 18.489 (variërend van 15.439 tot 22.505) SV's met hoog vertrouwen geïdentificeerd.(Figuur 2d, 2e en 2f)
Figuur 2. Algemeen landschap van SV's geïdentificeerd door Nanopore-dataset
Validatie door PacBio: SV's geïdentificeerd in één monster (HG002, kind) werden gevalideerd door een PacBio HiFi-dataset.Het totale percentage valse ontdekkingen (FDR) was 3,2%, wat een relatief betrouwbare SV-identificatie door Nanopore-metingen illustreert.
Niet-redundante SV's en genomische kenmerken
Niet-redundante SV's: Een set van 132.312 niet-redundante SV's werd verkregen door SV's in alle steekproeven samen te voegen, waaronder 67.405 DEL's, 60.182 INS's, 3.956 DUP's en 769 INV's.(Figuur 3a)
Vergelijking met bestaande SV-datasets: deze dataset werd vergeleken met gepubliceerde TGS- of NGS-dataset.Binnen de vier vergeleken datasets deelde LRS15, dat ook de enige dataset is van het langgelezen sequencingplatform (PacBio), de grootste overlappingen met deze dataset.Bovendien werd 53,3% (70.471) van de SV's in deze dataset voor het eerst gerapporteerd.Door naar elk SV-type te kijken, was het aantal herstelde INS's met langgelezen sequencing-dataset veel groter dan de rest van de kortgelezen INS'en, wat aangeeft dat langgelezen sequencing bijzonder efficiënt is bij de detectie van INS.(Figuur 3b en 3c)
Figuur 3. Eigenschappen van niet-redundante SV's voor elk SV-type
Genomische kenmerken: Het aantal SV's bleek significant gecorreleerd met de chromosoomlengte.Verdeling van genen, herhalingen, DELs (groen), INS (blauw), DUP (geel) en INV (oranje) werden weergegeven in een Circos-diagram, waar een algemene toename in SV werd waargenomen aan het einde van de chromosoomarmen.(Figuur 3d en 3e)
Lengte van SV's: De lengte van INS's en DEL's bleek aanzienlijk korter te zijn dan die van DUP's en INV's, wat overeenkwam met die geïdentificeerd door de PacBio HiFi-dataset.De lengte van alle geïdentificeerde SV's bedroeg 395,6 Mb, wat 13,2% van het gehele menselijke genoom besloeg.SV's beïnvloedden gemiddeld 23,0 Mb (ongeveer 0,8%) van het genoom per individu.(Figuur 3f en 3g)
Functionele, fenotypische en klinische impact van SV's
Voorspeld functieverlies (pLoF) SV's: pLoF SV's werden gedefinieerd als SV's die een interactie aangingen met CDS, waarbij coderende nucleotiden werden verwijderd of ORF's werden gewijzigd.In totaal werden 1.929 pLoF-SV's die CDS van 1.681 genen beïnvloeden, geannoteerd.Daarbinnen benadrukten 38 genen “immunoglobulinereceptorbinding” in GO-verrijkingsanalyse.Deze pLoF SV's werden verder geannoteerd door respectievelijk GWAS, OMIM en COSMIC.(Figuur 4a en 4b)
Fenotypische en klinisch relevante SV's: Van een aantal SV's in de dataset met nanoporiën is aangetoond dat ze fenotypisch en klinisch relevant zijn.Een zeldzame heterozygote DEL van 19,3 kb, waarvan bekend is dat deze alfa-thalassemie veroorzaakt, werd geïdentificeerd bij drie individuen, waarbij de genen van hemoglobine-subeenheid Alpha 1 en 2 (HBA1 en HBA2) disfunctioneerden.Een andere DEL van 27,4 kb op het gen dat codeert voor hemoglobinesubeenheid bèta (HBB) werd bij een ander individu geïdentificeerd.Het was bekend dat deze SV ernstige hemoglobinopathieën veroorzaakt.(Figuur 4c)
Figuur 4. pLoF-SV's geassocieerd met fenotypes en ziekten
Een gemeenschappelijke DEL van 2,4 kb werd waargenomen bij 35 homozygote en 67 heterozygote dragers, die het volledige gebied van het derde exon van Growth Homone Receptor (GHR) beslaat.De homozygote dragers werden significant korter gevonden dan heterozygote dragers (p=0,033).(Figuur 4d)
Bovendien werden deze SV's verwerkt voor populatie-evolutiestudies tussen twee regionale groepen: Noord- en Zuid-China.Er werden significant verschillende SV’s gevonden, verdeeld over Chr 1, 2, 3, 6,10,12,14 en 19, waarbinnen de bovenste geassocieerd waren met immuniteitsregio’s, zoals IGH, MHC, enz. Het is redelijk om te speculeren dat de differentiatie in deze SV's kan te wijten zijn aan genetische drift en langdurige blootstelling aan diverse omgevingen voor subpopulaties in China.
Referentie
Wu, Zhikun, et al.“Structurele varianten in de Chinese bevolking en hun impact op fenotypes, ziekten en bevolkingsaanpassing.”bioRxiv(2021).
Nieuws en hoogtepunten heeft tot doel de nieuwste succesvolle cases te delen met Biomarker Technologies, waarbij nieuwe wetenschappelijke prestaties worden vastgelegd, evenals prominente technieken die tijdens het onderzoek worden toegepast.
Posttijd: 06-jan-2022