RESEQUENCING SELURUH GENOME
Varian struktur populasi Tiongkok dan dampaknya terhadap fenotipe, penyakit, dan adaptasi populasi
Nanopori |PacBio |Pengurutan ulang seluruh genom |Panggilan variasi struktural
Dalam penelitian ini, pengurutan Nanopore PromethION disediakan oleh Biomarker Technologies.
Highlight
Dalam studi ini, keseluruhan lanskap variasi struktural (SV) dalam genom manusia terungkap dengan bantuan pengurutan yang telah lama dibaca pada platform Nanopore PromethION, yang memperdalam pemahaman SV dalam fenotipe, penyakit, dan evolusi.
Desain eksperimental
Sampel: Leukosit darah tepi dari 405 orang Tionghoa yang tidak berkerabat (206 laki-laki dan 199 perempuan) dengan 68 pengukuran fenotipik dan klinis.Di antara seluruh individu, wilayah leluhur 124 individu berada di provinsi Utara, 198 individu berada di Selatan, 53 individu berada di Barat Daya, dan 30 individu tidak diketahui.
Strategi pengurutan: Pengurutan baca panjang seluruh genom (LRS) dengan pembacaan Nanopore 1D dan pembacaan PacBio HiFi.
Platform pengurutan: Nanopore PromethION;Sekuel PacBio II
Panggilan Variasi Struktur
Gambar 1. Alur kerja pemanggilan dan pemfilteran SV
Prestasi Utama
Penemuan dan validasi variasi struktur
Kumpulan tanggal Nanopore: Total 20,7 Tb pembacaan bersih yang dihasilkan pada platform pengurutan PromethION, mencapai rata-rata 51 Gb data per sampel, kira-kira.Kedalamannya 17 kali lipat.
Penyelarasan genom referensi (GRCh38): Tingkat pemetaan rata-rata tercapai sebesar 94,1%.Tingkat kesalahan rata-rata (12,6%) serupa dengan studi benchmarking sebelumnya (12,6%) (Gambar 2b dan 2c)
Panggilan variasi struktur (SV): Penelepon SV yang diterapkan dalam penelitian ini termasuk Sniffles, NanoVar, dan NanoSV.SV berkeyakinan tinggi didefinisikan sebagai SV yang diidentifikasi oleh setidaknya dua penelepon dan lolos penyaringan berdasarkan kedalaman, panjang, dan wilayah.
Rata-rata 18.489 (berkisar antara 15.439 hingga 22.505) SV berkeyakinan tinggi diidentifikasi dalam setiap sampel.(Gambar 2d, 2e dan 2f)
Gambar 2. Keseluruhan lanskap SV yang diidentifikasi oleh dataset Nanopore
Validasi oleh PacBio: SV yang diidentifikasi dalam satu sampel (HG002, anak) divalidasi oleh kumpulan data PacBio HiFi.Tingkat penemuan palsu (FDR) secara keseluruhan adalah 3,2%, menggambarkan identifikasi SV yang relatif andal berdasarkan pembacaan Nanopore.
SV dan fitur genom yang tidak berlebihan
SV non-redundan: Satu set 132.312 SV non-redundan diperoleh dengan menggabungkan SV di semua sampel, yang mencakup 67.405 DEL, 60.182 INS, 3.956 DUP, dan 769 INV.(Gambar 3a)
Perbandingan dengan kumpulan data SV yang ada: Kumpulan data ini dibandingkan dengan kumpulan data TGS atau NGS yang dipublikasikan.Dari empat kumpulan data yang dibandingkan, LRS15, yang juga merupakan satu-satunya kumpulan data dari platform pengurutan yang sudah lama dibaca (PacBio), memiliki tumpang tindih terbesar dengan kumpulan data ini.Selain itu, 53,3% (70.471) SV dalam kumpulan data ini dilaporkan untuk pertama kalinya.Dengan melihat setiap jenis SV, jumlah INS yang dipulihkan dengan kumpulan data pengurutan baca panjang jauh lebih besar dibandingkan kumpulan data pengurutan baca pendek lainnya, yang menunjukkan bahwa pengurutan baca panjang sangat efisien dalam pendeteksian INS.(Gambar 3b dan 3c)
Gambar 3. Properti SV non-redundan untuk setiap tipe SV
Fitur genom: Jumlah SV ditemukan berkorelasi signifikan dengan panjang kromosom.Distribusi gen, pengulangan, DELs (hijau), INS (biru), DUP (kuning) dan INV (oranye) ditampilkan pada diagram Circos, di mana peningkatan SV secara umum diamati pada ujung lengan kromosom.(Gambar 3d dan 3e)
Panjang SV: Panjang INS dan DEL ditemukan jauh lebih pendek dibandingkan dengan DUP dan INV, yang sesuai dengan panjang yang diidentifikasi oleh kumpulan data PacBio HiFi.Panjang semua SV yang teridentifikasi bertambah hingga 395,6 Mb, yang menempati 13,2% dari seluruh genom manusia.SV rata-rata memengaruhi 23,0 Mb (sekitar 0,8%) genom per individu.(Gambar 3f dan 3g)
Dampak fungsional, fenotip dan klinis dari SV
Prediksi hilangnya fungsi (pLoF) SV: pLoF SV didefinisikan sebagai SV yang berinteraksi dengan CDS, di mana nukleotida pengkode dihapus atau ORF diubah.Sebanyak 1.929 pLoF SV yang mempengaruhi CDS dari 1.681 gen dijelaskan.Di dalamnya, 38 gen menyoroti “pengikatan reseptor imunoglobulin” dalam analisis pengayaan GO.SV pLoF ini selanjutnya dijelaskan masing-masing oleh GWAS, OMIM dan COSMIC.(Gambar 4a dan 4b)
SV yang relevan secara fenotip dan klinis: Sejumlah SV dalam dataset nanopore terbukti relevan secara fenotip dan klinis.DEL heterozigot langka berukuran 19,3 kb, yang diketahui menyebabkan talasemia alfa, diidentifikasi pada tiga individu, yang mengalami disfungsi gen Subunit Hemoglobin Alfa 1 dan 2 (HBA1 dan HBA2).DEL lain sebesar 27,4 kb pada gen pengkode Hemoglobin Subunit Beta (HBB) diidentifikasi pada individu lain.SV ini diketahui menyebabkan hemoglobinopati yang serius.(Gambar 4c)
Gambar 4. pLoF SV terkait dengan fenotip dan penyakit
DEL umum sebesar 2,4 kb diamati pada 35 pembawa homozigot dan 67 heterozigot, yang mencakup seluruh wilayah ekson ke-3 dari Growth Homone Receptor (GHR).Pembawa homozigot ditemukan secara signifikan lebih pendek dibandingkan pembawa heterozigot (p=0,033).(Gambar 4d)
Selanjutnya, SV ini diproses untuk studi evolusi populasi antara dua kelompok regional: Tiongkok Utara dan Selatan.SV yang berbeda secara signifikan ditemukan terdistribusi pada Chr 1, 2, 3, 6,10,12,14 dan 19, yang di dalamnya, SV teratas dikaitkan dengan wilayah imunitas, seperti IGH, MHC, dll. diferensiasi dalam SV ini mungkin disebabkan oleh penyimpangan genetik dan paparan jangka panjang terhadap beragam lingkungan untuk sub-populasi di Tiongkok.
Referensi
Wu, Zhikun, dkk.“Varian struktural pada populasi Tiongkok dan dampaknya terhadap fenotipe, penyakit, dan adaptasi populasi.”bioRxiv(2021).
Berita dan Sorotan bertujuan untuk berbagi kasus-kasus sukses terbaru dengan Biomarker Technologies, menangkap pencapaian ilmiah baru serta teknik-teknik terkemuka yang diterapkan selama penelitian.
Waktu posting: 06 Januari 2022