私のNGS解析入門2

9月 28, 2018 · 2 分で読める
ngs

RNA-seqのワークフローは一般的には下記のようになります。

1.シークエンスリード(シークエンサーが読んだ塩基配列データ)のQC (quality control)とクリーンアップ

必要に応じてqualityの低いリードの排除。リード末端のトリミングを行うことも。 この段階で使っているシークエンスリードのフォーマットは(Illuminaであれば)FASTQです。塩基配列とそのクオリティー等が書かれたTextファイルです。

2. リファレンスゲノムへのシークエンスリードのマッピング(アライメント)

ゲノムの塩基配列に一致するところへリードを並べていく。 STARやbowtieといったaligner(リードの塩基配列をゲノムの塩基配列と比較して一致(類似)したところに並べるソフト)を使う。 STARを推薦。

3. 遺伝子にマップされたリードをカウントする

つまり、シークエンスされた断片のどれだけが、ある遺伝子に一致するものかを数えることになる。 HomerやCufflinks等を使う。 Homerが扱いやすい。

4. 発現レベルの比較など、後方解析

現在ではリファレンスゲノムへのマッピングをしないで、直接定量データを出力するSalmonkallistoというプログラムもありますが、これまでの解析結果と直接比較できなくなるため、まだ使っていません。

RNA-seqの実際についてはRNA-seqlopediaが詳しい。

Homerを使う場合は、マッピングからの具体的な方法がHomerのサイトにわかりやすく書かれています⇢Homer