私のNGS解析入門2

RNA-seqのワークフローは一般的には下記のようになります。

1.シークエンスリード(シークエンサーが読んだ塩基配列データ)のQC (quality control)とクリーンアップ
必要に応じてqualityの低いリードの排除。リード末端のトリミングを行うことも
この段階で使っているシークエンスリードのフォーマットは(Illuminaであれば)FASTQです。塩基配列とそのクオリティー等が書かれたTextファイルです。     ↓
2. リファレンスゲノムへのシークエンスリードのマッピング(アライメント)
ゲノムの塩基配列に一致するところへリードを並べていく
STARやbowtieといったaligner(リードの塩基配列をゲノムの塩基配列と比較して一致(類似)したところに並べるソフト)を使う
STARを推薦
    ↓
3. 遺伝子にマップされたリードをカウントする
つまり、シークエンスされた断片のどれだけが、ある遺伝子に一致するものかを数えることになる
HomerやCufflinks等を使う
Homerが扱いやすい
    ↓
4. 発現レベルの比較など、後方解析

現在ではリファレンスゲノムへのマッピングをしないで、直接定量データを出力するSalmonkallistoというプログラムもありますが、これまでの解析結果と直接比較できなくなるため、まだ使っていません。

RNA-seqの実際についてはRNA-seqlopediaが詳しい。
Homerを使う場合は、マッピングからの具体的な方法がHomerのサイトにわかりやすく書かれています⇢Homer