私のNGS解析入門2

9月 28, 2018 · 2 分で読める

RNA-seqのワークフローは一般的には下記のようになります。

1．シークエンスリード（シークエンサーが読んだ塩基配列データ）のQC (quality control)とクリーンアップ

必要に応じてqualityの低いリードの排除。リード末端のトリミングを行うことも。この段階で使っているシークエンスリードのフォーマットは（Illuminaであれば）FASTQです。塩基配列とそのクオリティー等が書かれたTextファイルです。

↓

2. リファレンスゲノムへのシークエンスリードのマッピング（アライメント）

ゲノムの塩基配列に一致するところへリードを並べていく。 STARやbowtieといったaligner（リードの塩基配列をゲノムの塩基配列と比較して一致（類似）したところに並べるソフト）を使う。 STARを推薦。

↓

3. 遺伝子にマップされたリードをカウントする

つまり、シークエンスされた断片のどれだけが、ある遺伝子に一致するものかを数えることになる。 HomerやCufflinks等を使う。 Homerが扱いやすい。

↓

4. 発現レベルの比較など、後方解析

現在ではリファレンスゲノムへのマッピングをしないで、直接定量データを出力するSalmonやkallistoというプログラムもありますが、これまでの解析結果と直接比較できなくなるため、まだ使っていません。

RNA-seqの実際についてはRNA-seqlopediaが詳しい。

Homerを使う場合は、マッピングからの具体的な方法がHomerのサイトにわかりやすく書かれています⇢Homer

最終更新 9月 28, 2018