私のNGS解析入門2
RNA-seqのワークフローは一般的には下記のようになります。
1.シークエンスリード(シークエンサーが読んだ塩基配列データ)のQC (quality control)とクリーンアップ
必要に応じてqualityの低いリードの排除。リード末端のトリミングを行うことも
この段階で使っているシークエンスリードのフォーマットは(Illuminaであれば)FASTQです。塩基配列とそのクオリティー等が書かれたTextファイルです。
↓
2. リファレンスゲノムへのシークエンスリードのマッピング(アライメント)
ゲノムの塩基配列に一致するところへリードを並べていく
STARやbowtieといったaligner(リードの塩基配列をゲノムの塩基配列と比較して一致(類似)したところに並べるソフト)を使う
STARを推薦
↓
3. 遺伝子にマップされたリードをカウントする
つまり、シークエンスされた断片のどれだけが、ある遺伝子に一致するものかを数えることになる
HomerやCufflinks等を使う
Homerが扱いやすい
↓
4. 発現レベルの比較など、後方解析
現在ではリファレンスゲノムへのマッピングをしないで、直接定量データを出力するSalmonやkallistoというプログラムもありますが、これまでの解析結果と直接比較できなくなるため、まだ使っていません。
RNA-seqの実際についてはRNA-seqlopediaが詳しい。
Homerを使う場合は、マッピングからの具体的な方法がHomerのサイトにわかりやすく書かれています⇢Homer