全ゲノムの再配列決定
中国人の構造変異とその表現型、疾患、集団適応への影響
ナノポア |パックバイオ |全ゲノムの再配列 |構造変化が呼び起こす
この研究では、Nanopore PromethION シーケンスは Biomark Technologies によって提供されました。
ハイライト
この研究では、Nanopore PromethION プラットフォーム上のロングリード シーケンスの助けを借りて、ヒトゲノムの構造変異 (SV) の全体像が明らかになり、表現型、疾患、進化における SV の理解が深まりました。
実験計画
サンプル: 405 人の血縁関係のない中国人 (男性 206 人、女性 199 人) の末梢血白血球、68 の表現型および臨床測定値。全個体のうち、124 個体の祖先地域は北部の州、198 個体の祖先地域は南部、53 個体は南西部、30 個体は不明でした。
シーケンス戦略: Nanopore 1D リードと PacBio HiFi リードを使用した全ゲノムロングリードシーケンス (LRS)。
シーケンスプラットフォーム: Nanopore PromethION;PacBio シークエル II
構造変化呼び出し
図 1. SV の呼び出しとフィルタリングのワークフロー
主な実績
構造変異の発見と検証
ナノポア データセット: PromethION シーケンシング プラットフォームで生成された合計 20.7 Tb のクリーン リードで、サンプルあたり平均 51 Gb データ、約 51 Gb のデータを達成。奥行きは17倍。
リファレンスゲノムアライメント(GRCh38): 平均マッピング率94.1%を達成。平均エラー率 (12.6%) は、以前のベンチマーク調査 (12.6%) と同様でした (図 2b および 2c)
構造バリエーション (SV) コーリング: この研究で適用された SV コーラーには、Sniffles、NanoVar、および NanoSV が含まれていました。高信頼性 SV は、少なくとも 2 人の発信者によって識別され、深さ、長さ、および領域のフィルタリングに合格した SV として定義されました。
各サンプルで平均 18,489 個 (15,439 ~ 22,505 個の範囲) の高信頼度 SV が特定されました。(図 2d、2e、2f)
図 2. Nanopore データセットによって特定された SV の全体的な状況
PacBio による検証: 1 つのサンプル (HG002、子) で特定された SV は、PacBio HiFi データセットによって検証されました。全体の誤検出率(FDR)は 3.2% であり、Nanopore リードによる比較的信頼性の高い SV 同定を示しています。
非冗長SVとゲノム特徴
非冗長 SV: すべてのサンプルの SV をマージすることで、132,312 個の非冗長 SV のセットが得られました。これには、67,405 個の DEL、60,182 INS、3,956 個の DUP、および 769 個の INV が含まれます。(図3a)
既存の SV データセットとの比較: このデータセットは、公開されている TGS または NGS データセットと比較されました。比較した 4 つのデータセット内で、ロングリード シーケンス プラットフォーム (PacBio) からの唯一のデータセットでもある LRS15 は、このデータセットと最も大きな重複を共有しました。さらに、このデータセット内の SV の 53.3%(70,471) が初めて報告されました。各 SV タイプを調べると、ロングリード シーケンス データセットを持つ復元された INS の数は、残りのショートリード データセットよりもはるかに多く、ロングリード シーケンスが INS 検出において特に効率的であることを示しています。(図 3b および 3c)
図 3. 各 SV タイプの非冗長 SV のプロパティ
ゲノムの特徴: SV の数は染色体長と有意な相関があることが判明しました。遺伝子、リピート、DEL (緑色)、INS (青色)、DUP (黄色)、および INV (オレンジ) の分布が Circos ダイアグラム上に表示され、SV の一般的な増加が染色体腕の末端で観察されました。(図 3d および 3e)
SV の長さ: INS および DEL の長さは、DUP および INV の長さよりも大幅に短いことが判明し、これは PacBio HiFi データセットによって特定された長さと一致しました。同定されたすべての SV の長さは最大 395.6 Mb に達し、これはヒトゲノム全体の 13.2% を占めました。SV は個人あたり平均 23.0 Mb (約 0.8%) のゲノムに影響を与えました。(図 3f および 3g)
SV の機能的、表現型、および臨床的影響
予測される機能喪失(pLoF) SV: pLoF SV は、コーディング ヌクレオチドが欠失または ORF が変更された、CDS と相互作用した SV として定義されました。1,681 個の遺伝子の CDS に影響を与える合計 1,929 個の pLoF SV に注釈が付けられました。これらのうち、38 個の遺伝子が GO 濃縮分析で「免疫グロブリン受容体結合」を強調しました。これらの pLoF SV には、それぞれ GWAS、OMIM、および COSMIC によってさらに注釈が付けられました。(図 4a および 4b)
表現型および臨床的に関連する SV: ナノポア データセット内の多数の SV が表現型および臨床的に関連することが示されました。α-サラセミアを引き起こすことが知られている19.3kbの稀なヘテロ接合性DELが3名で同定され、これはヘモグロビンサブユニットα1および2(HBA1およびHBA2)の遺伝子の機能不全を引き起こした。ヘモグロビンサブユニットベータ(HBB)をコードする遺伝子上の27.4kbの別のDELが別の個体で同定された。このSVは重篤なヘモグロビン症を引き起こすことが知られていました。(図4c)
図 4. 表現型および疾患に関連する pLoF SV
2.4 kb の共通の DEL が 35 人のホモ接合性保因者と 67 人のヘテロ接合性保因者で観察されました。これは、成長ホルモン受容体 (GHR) の 3 番目のエクソンの完全な領域をカバーしています。ホモ接合性キャリアはヘタ接合性キャリアよりも有意に短いことが判明した(p=0.033)。(図4d)
さらに、これらの SV は、中国北部と南部の 2 つの地域グループ間の集団進化研究のために処理されました。有意に異なる SV が Chr 1、2、3、6、10、12、14、および 19 に分布していることが判明し、その中で上位の SV は IGH、MHC などの免疫領域に関連していました。これらのSVの分化は、遺伝的浮動と中国の部分集団の多様な環境への長期曝露によるものである可能性があります。
参照
ウー、ジクン、他「中国人の構造的変異とその表現型、疾患、集団適応への影響」バイオRxiv(2021年)。
ニュースとハイライト この研究は、最新の成功事例をバイオマーカー テクノロジーズと共有し、新たな科学的成果や研究中に適用された著名な技術を把握することを目的としています。
投稿時刻: 2022 年 1 月 6 日