ゲノム解析方法

このページではゲノム解析に関する技術紹介を掲載します。

はじめに

膨大な塩基・ゲノム情報を解析するためには、もはや手作業での解析は無理で、計算機の力を借りなければなりません。計算機は人間が出した指示に従って計算を高速に実行して結果を返してくれます。苦労して解析技術を習得した者にとって、計算機が出してくる答えはいつも完璧で正しいように映ります。しかし、計算結果が生物学的に正しいかどうかは別問題なのです。計算機が返してくる結果は、あくまでも入力したデータに基づいた計算の結果に過ぎません。計算結果が生物学的に妥当であるかどうかは、人間である研究者が判断する必要があります。

項目ごとに普遍的に役立つ情報やdecision-makingの助けになるノウハウを少しだけ紹介しています。ただし、ベストなワークフローは時間とともに変わりますし、生物種によっても変わることもあります。

Discordにて皆さまからの技術情報をお待ちしております。

ゲノムサイズ推定

使用するプログラムやパラメータにより大きく変動しうるアセンブリサイズ（配列の総塩基数）を評価するための究極的な拠り所として、核ゲノムDNA量の測定によるゲノムサイズの事前情報を得ておくことが推奨される。
フローサイトメータ等を利用する従来法では生細胞が必要であったが、リアルタイムPCR増幅によりゲノムサイズを推定する方法（例、下記リンク先のsQuantGenomeプロトコル）もある。

Squalomixでの実施方法
従来法に基づくフローサイトメータでの実施例

Discord

HiFiリードの処理

取得したデータは、CCS化されたものであるか、また、どのファイルフォーマットであるか、をまず確認。適宜、使用したいフォーマットに変換する。ショートリードの場合とは勝手が異なるが、ライブラリ調製時に使用されるアダプタを除去したのちに利用するとよい。

pbtk : PacBio BAM toolkit
Pauvre : ロングリードQCツール
HiFiAdapterFilt : PacBio アダプター除去ツール

Discord

HiFiアセンブリ

ヘテロ接合度や反復配列含有率に応じて最適なアセンブリプログラムやパラメータ設定を吟味する必要がある。
出力されるコンティングのN50長や遺伝子の網羅度（後出のBUSCO/Compleasmなどで評価）がある程度以上（例えば、脊椎動物の場合は、それぞれ5Mbや95%以上）となることがまず望ましいが、とくに後者は頭打ちとなりがちなため、これらの指標だけで一喜一憂すべきものではない。
これらの指標よりも、1Mb以上や10Mb以上（これら目安とすべき長さはゲノムサイズにもよる）のコンティングの本数と全体に占める割合、そしてBUSCOスコアからみたDuplicationの度合いがさらに重要な着目点かもしれず、とくにBUSCO Duplication %がPloidyからの想定以上に高い場合（例えば、倍数体ではないケースに5%以上）には、スキャフォルディング前にhaplotigの冗長性へのケアが必要であると考えられる。

Hifiasm : アセンブリプログラム
Purge_Dups : 余剰haplotig除去プログラム
Genome assembly tools : アセンブリプログラムリスト

Discord

Hi-Cスキャフォルディング

2015年ごろから新規ゲノム配列取得の仕上げに使われはじめた手法で、時代と共に主流のプログラムはLachesis～SALSA～3d-dna～YaHSと推移してきた。多様性の高いライブラリを安く確実に調製し、ゲノムサイズに合わせた量のリードを効率よく得ることが大事。まずリードをコンティグにどうマッピングするか、そして、スキャフォルディング時には、contigレベルのmisjoinを修正するか、どのくらい短いcontigまで入力するか、などの検討が必要。最終的に得られるコンタクトマップにおいてコンタクトが見られない領域が顕著な場合には、Hi-Cリードがマップされていない理由の検討が必要。スキャフォルディングプログラムの出力ファイルはあくまでも通過点と考え、そこからJuiceboxなどでのコンタクトマップの手直しがどのくらい進めやすいか、その結果どこまで染色体規模の配列に組み上げられるかという視点が重要。

ライブラリ調製法の比較
iconHi-Cプロトコル
4DNコンソーシアムによるHi-Cリードマッピングガイド
Juicer：Hi-Cリードマッピングツール
YaHS：スキャフォルディングプログラム
3d-dna：スキャフォルディングプログラム
Hi-Cスキャフォルディング周辺の検討項目
Juicebox : Hi-Cコンタクトマップ編集プログラム
Juicebox ENCODE Tutorial
YaHSによるスキャフォルディングの検討

Discord

光学マッピング (Optical mapping )

ゲノムDNAの制限酵素サイトに蛍光物質を埋め込んだのちに、1本のDNA上の蛍光物質の物理的距離を測定し、制限酵素サイトの物理地図を作成する。この物理地図をコンティグ配列に照らし合わせることで、配列のスキャフォルディングを行う方法。ゲノムの構造多型も検出することができる。高分子DNAが必要であることに注意が必要。専用の装置と解析ソフトが必要。

Bionano Saphyr

Discord

遺伝地図を利用した染色体配列決定

SNPマーカーで飽和した遺伝地図は、染色体数と同じ数の連鎖群で構成される。集団のゲノムワイドなSNPタイピングにはNGSを利用したddRAD-Seqなど利用できる。遺伝地図が完成したら、マーカーの配列情報をアセンブル配列と照合して、アセンブル配列を遺伝地図上に整列化することで染色体レベルの配列を作成できる。すでに染色体レベルの配列が完成していた場合でも、配列と遺伝地図上のマーカーの並び順を照合することでアセンブルの精度が検証できる。欠点は、集団を作成する必要があること。

Lep-Map3 : 遺伝地図作成プログラム
ALLMAPS : 遺伝地図を使って染色体配列の構築するプログラム

Discord

リファレンスを利用したアセンブリ (reference-guided assembly)

目的の生物のゲノムのコンティグ配列を、同種や近縁種の染色体配列をリファレンスとしてマッピングし、マッピング結果に基づいてコンティグ配列を連結して染色体配列を完成させる方法。この方法で作成した染色体配列はリファレンス配列に依存するため、必ずしも目的の生物のゲノム構造を反映しているとは限らないことに注意が必要である。

RagTag : リファレンスガイドスキャフォールディングツール
RaGOO : RagTagの前身

Discord

スキャフォルディング後のアセンブリの完成度の評価

核型を意識し、1Mb以上や10Mb以上のコンティングの本数と全体に占める割合を吟味することが特に重要。セントロメアやテロメアの位置を把握するとともに、染色体規模とはいえない配列（5Mbなどより短い配列）をどう扱うかに、公表時にはとくに注意を払う必要がある。

Merqury : k-merベースのアセンブリ評価ツール
QUAST : ゲノムアセンブリ評価ツール
BUSCO : ゲノムアセンブリの完全性を評価するツール
Compleasm : ゲノムアセンブリの完全性を評価するツール
gvolante : ゲノムアセンブリの完全性を評価するウェブツール
BUSCOの問題
Squalomixコンソーシアムによるアセンブリ評価等についての日本語総説
（2020年のものであることに注意）

Discord

反復配列の検出

RepeatModeler/RepeatMaskerが普及しているが、それ以外のプログラムの利用も適宜検討する。また、完成度の高いアセンブリほど、とくに単純反復配列の検出（マスキング）が不十分となりがちなことに注意。Interspersedリピートのアノテーションや網羅的検出のためには、本来マニュアルキュレーションが必須とされていることも把握しておく必要がある。

RepeatModeler : ゲノム配列からde novoで反復配列を検出するツール
RepeatMasker : ゲノム配列をスクリーニングして反復配列を識別するツール
TRASH : k-merに基づいて反復領域を検出するツール
tidk : テロメア等の反復配列を特定するツール
quarTeT : セントロメア等の反復配列を特定するツール

Discord

遺伝子推定（ab initio 法）

参照ゲノムのタンパク質コード遺伝子のアノテーションを用いて、ターゲットゲノムのタンパク質コード遺伝子のアノテーションを推定する。ゲノム配列以外の情報の整備状況や扱う種の系統的位置に応じて、使用するプログラムを選択する。反復配列のマスキング（通常はsoftmasking）は、過剰な推定遺伝子が抑えられる一方で、推定されるべき一部の遺伝子の偽陰性推定にもつながりうる（Braker3におけるリピートの扱いを参照）。生成されるGFF/GTFファイルは、AGATプログラム群等を用いてsplicing variantの冗長性を除くなどしたうえで、OrthoFinderなどを介した下流の解析に使用できる。

BRAKER3 : RNA-Seqと他生物種のタンパク質情報をエビデンスとする構造アノテーションパイプライン
Helixer : エビデンスを必要としない構造アノテーションツール
OMArk : コンタミネーションなど推定遺伝子アミノ酸配列の品質を評価する
AGAT (Another GTF/GFF Analysis Toolkit) : GTF/GFF形式の遺伝子アノテーションを処理するツール

Discord

遺伝子推定（マッピング法）

同種や近縁種のゲノムに予測された遺伝子の配列を、目的の生物のゲノム配列上に整列化することで遺伝子を予測することができる。

GeMoMa : 参照ゲノムのタンパク質配列を用いてターゲットゲノムの遺伝子を推定する。
Liftoff : 参照ゲノムのGFF3/GTFを用いてターゲットゲノムの遺伝子を推定する。

Discord

VGP (Vertebrate Genomes Project) pipeline on Galaxy

多様な脊椎動物の全ゲノムアセンブリを多数生産しているコンソーシアムの標準ワークフロー。あくまでも例であり、Washokuメンバーがそのまま利用しているわけではない。

VGP
assembly workflows
YaHS scaffolding
Tutorial movie
Paper

Discord