私のNGS解析入門2

2018-09-28

RNA-seqのワークフローは一般的には下記のようになります。

1．シークエンスリード（シークエンサーが読んだ塩基配列データ）のQC (quality control)とクリーンアップ
必要に応じてqualityの低いリードの排除。リード末端のトリミングを行うことも
この段階で使っているシークエンスリードのフォーマットは（Illuminaであれば）FASTQです。塩基配列とそのクオリティー等が書かれたTextファイルです。　　　　↓
2. リファレンスゲノムへのシークエンスリードのマッピング（アライメント）
ゲノムの塩基配列に一致するところへリードを並べていく
STARやbowtieといったaligner（リードの塩基配列をゲノムの塩基配列と比較して一致（類似）したところに並べるソフト）を使う
STARを推薦
　　　　↓
3. 遺伝子にマップされたリードをカウントする
つまり、シークエンスされた断片のどれだけが、ある遺伝子に一致するものかを数えることになる
HomerやCufflinks等を使う
Homerが扱いやすい
　　　　↓
4. 発現レベルの比較など、後方解析

現在ではリファレンスゲノムへのマッピングをしないで、直接定量データを出力するSalmonやkallistoというプログラムもありますが、これまでの解析結果と直接比較できなくなるため、まだ使っていません。

RNA-seqの実際についてはRNA-seqlopediaが詳しい。
Homerを使う場合は、マッピングからの具体的な方法がHomerのサイトにわかりやすく書かれています⇢Homer

NGS

私のNGS解析入門2

真鍋研究室