このページではゲノム解析に関する技術紹介を掲載します。
膨大な塩基・ゲノム情報を解析するためには、もはや手作業での解析は無理で、計算機の力を借りなければなりません。計算機は人間が出した指示に従って計算を高速に実行して結果を返してくれます。苦労して解析技術を習得した者にとって、計算機が出してくる答えはいつも完璧で正しいように映ります。しかし、計算結果が生物学的に正しいかどうかは別問題なのです。計算機が返してくる結果は、あくまでも入力したデータに基づいた計算の結果に過ぎません。計算結果が生物学的に妥当であるかどうかは、人間である研究者が判断する必要があります。
項目ごとに普遍的に役立つ情報やdecision-makingの助けになるノウハウを少しだけ紹介しています。ただし、ベストなワークフローは時間とともに変わりますし、生物種によっても変わることもあります。
Discordにて皆さまからの技術情報をお待ちしております。
ゲノムサイズ推定
使用するプログラムやパラメータにより大きく変動しうるアセンブリサイズ(配列の総塩基数)を評価するための究極的な拠り所として、核ゲノムDNA量の測定によるゲノムサイズの事前情報を得ておくことが推奨される。
フローサイトメータ等を利用する従来法では生細胞が必要であったが、リアルタイムPCR増幅によりゲノムサイズを推定する方法(例、下記リンク先のsQuantGenomeプロトコル)もある。
HiFiリードの処理
取得したデータは、CCS化されたものであるか、また、どのファイルフォーマットであるか、をまず確認。適宜、使用したいフォーマットに変換する。ショートリードの場合とは勝手が異なるが、ライブラリ調製時に使用されるアダプタを除去したのちに利用するとよい。
HiFiアセンブリ
ヘテロ接合度や反復配列含有率に応じて最適なアセンブリプログラムやパラメータ設定を吟味する必要がある。
出力されるコンティングのN50長や遺伝子の網羅度(後出のBUSCO/Compleasmなどで評価)がある程度以上(例えば、脊椎動物の場合は、それぞれ5Mbや95%以上)となることがまず望ましいが、とくに後者は頭打ちとなりがちなため、これらの指標だけで一喜一憂すべきものではない。
これらの指標よりも、1Mb以上や10Mb以上(これら目安とすべき長さはゲノムサイズにもよる)のコンティングの本数と全体に占める割合、そしてBUSCOスコアからみたDuplicationの度合いがさらに重要な着目点かもしれず、とくにBUSCO Duplication %がPloidyからの想定以上に高い場合(例えば、倍数体ではないケースに5%以上)には、スキャフォルディング前にhaplotigの冗長性へのケアが必要であると考えられる。
Hi-Cスキャフォルディング
2015年ごろから新規ゲノム配列取得の仕上げに使われはじめた手法で、時代と共に主流のプログラムはLachesis~SALSA~3d-dna~YaHSと推移してきた。多様性の高いライブラリを安く確実に調製し、ゲノムサイズに合わせた量のリードを効率よく得ることが大事。まずリードをコンティグにどうマッピングするか、そして、スキャフォルディング時には、contigレベルのmisjoinを修正するか、どのくらい短いcontigまで入力するか、などの検討が必要。最終的に得られるコンタクトマップにおいてコンタクトが見られない領域が顕著な場合には、Hi-Cリードがマップされていない理由の検討が必要。スキャフォルディングプログラムの出力ファイルはあくまでも通過点と考え、そこからJuiceboxなどでのコンタクトマップの手直しがどのくらい進めやすいか、その結果どこまで染色体規模の配列に組み上げられるかという視点が重要。
光学マッピング (Optical mapping )
ゲノムDNAの制限酵素サイトに蛍光物質を埋め込んだのちに、1本のDNA上の蛍光物質の物理的距離を測定し、制限酵素サイトの物理地図を作成する。この物理地図をコンティグ配列に照らし合わせることで、配列のスキャフォルディングを行う方法。ゲノムの構造多型も検出することができる。高分子DNAが必要であることに注意が必要。専用の装置と解析ソフトが必要。
遺伝地図を利用した染色体配列決定
SNPマーカーで飽和した遺伝地図は、染色体数と同じ数の連鎖群で構成される。集団のゲノムワイドなSNPタイピングにはNGSを利用したddRAD-Seqなど利用できる。遺伝地図が完成したら、マーカーの配列情報をアセンブル配列と照合して、アセンブル配列を遺伝地図上に整列化することで染色体レベルの配列を作成できる。すでに染色体レベルの配列が完成していた場合でも、配列と遺伝地図上のマーカーの並び順を照合することでアセンブルの精度が検証できる。欠点は、集団を作成する必要があること。
リファレンスを利用したアセンブリ (reference-guided assembly)
目的の生物のゲノムのコンティグ配列を、同種や近縁種の染色体配列をリファレンスとしてマッピングし、マッピング結果に基づいてコンティグ配列を連結して染色体配列を完成させる方法。この方法で作成した染色体配列はリファレンス配列に依存するため、必ずしも目的の生物のゲノム構造を反映しているとは限らないことに注意が必要である。
スキャフォルディング後のアセンブリの完成度の評価
核型を意識し、1Mb以上や10Mb以上のコンティングの本数と全体に占める割合を吟味することが特に重要。セントロメアやテロメアの位置を把握するとともに、染色体規模とはいえない配列(5Mbなどより短い配列)をどう扱うかに、公表時にはとくに注意を払う必要がある。
反復配列の検出
RepeatModeler/RepeatMaskerが普及しているが、それ以外のプログラムの利用も適宜検討する。また、完成度の高いアセンブリほど、とくに単純反復配列の検出(マスキング)が不十分となりがちなことに注意。Interspersedリピートのアノテーションや網羅的検出のためには、本来マニュアルキュレーションが必須とされていることも把握しておく必要がある。
遺伝子推定(ab initio 法)
参照ゲノムのタンパク質コード遺伝子のアノテーションを用いて、ターゲットゲノムのタンパク質コード遺伝子のアノテーションを推定する。ゲノム配列以外の情報の整備状況や扱う種の系統的位置に応じて、使用するプログラムを選択する。反復配列のマスキング(通常はsoftmasking)は、過剰な推定遺伝子が抑えられる一方で、推定されるべき一部の遺伝子の偽陰性推定にもつながりうる(Braker3におけるリピートの扱いを参照 )。生成されるGFF/GTFファイルは、AGATプログラム群等を用いてsplicing variantの冗長性を除くなどしたうえで、OrthoFinderなどを介した下流の解析に使用できる。
遺伝子推定(マッピング法)
同種や近縁種のゲノムに予測された遺伝子の配列を、目的の生物のゲノム配列上に整列化することで遺伝子を予測することができる。
VGP (Vertebrate Genomes Project) pipeline on Galaxy
多様な脊椎動物の全ゲノムアセンブリを多数生産しているコンソーシアムの標準ワークフロー。あくまでも例であり、Washokuメンバーがそのまま利用しているわけではない。