私のNGS解析入門1

2010年頃から次世代シークエンサーを用いた解析を徐々に導入し、研究に活用するようになりました。いろいろな事情から必要に迫られて自分の手で解析を行うようになったのが、ほぼ50歳(正確には49歳8か月頃)のことです。今は、私のような本当のlatecomerでも、独学でなんとか自分で解析できる程度にまで、いろいろな環境が整っています。始めさえすれば、それほど難しくないというのが実感です。
自分で解析を始めようとしたときに痛感したのが、初心者でも理解しやすく、実際の手順に沿って情報を整理した成書というものがないことです。あらゆる情報は(多分)ネット空間に存在します。日本語でも、丁寧に解説しているサイトがたくさんあります。しかし、断片的な知識がなかなかつながらない。正体不明の略号だらけで、意味が理解できない。もちろん、日本でもNGS解析入門的な本は販売されていますが、それらを読んで実際に解析ができるようになるのでしょうか?
最近、時々どんなふうにNGS解析を始めたらいいかを聞かれることがあるので、何かヒントになるかもしれないことを(個人的な備忘録の意味もあり)、少しだけ記していきたいと思います。

1.コンピュータ

バイオインフォマティクスの専門家の多くがラップトップはMacを使っているため、Macを勧められることも多いかもしれません。Macでも(少し苦労するかもしれませんが)多くのことができるようなので、もともとMacを使っていらっしゃる方はMacで始めるのも方法だと思います。3で紹介している本もMacを前提にしています。ただ色々と難しいので、Macが手許にない方には(個人的な経験からも)お勧めしません。できるかどうか、まずは試してみたいという場合は、WindowsにVirtual machineを導入して、Ubuntuかその派生(Mint等)をインストールすることをおすすめします。メモリーさえそれなりにあれば、Virtual machine上のLunuxでもそれなりに解析できてしまいます。インストール法はGoogleすれば、極めて丁寧に解説したサイトが見つかるはずです。
もしLinuxマシンを購入するということであればメモリー(RAM)はできるだけ多く(64GB以上)、またコア数も多ければ多いほど快適です。

2.コマンドライン

GUI(もはや誰も意識していないので、ほぼ死語ですね)でもいろいろな解析ができるようにしたGalaxy server等があります。確かに、少数のデータを解析するためには、呪文のようなコマンドを入力しなくてもいいので、手っ取り早いと思いますが、データはすぐにどんどん増えていきます。CUIまたはコマンドライン(プログラマーの人がよく黒バックで使っている文字が羅列されている画面)を使わないと、作業が指数関数的に大変になります。コマンドラインに拒否反応がある方が多いようですが、慣れるしかないように思います。GUIのプログラムで敷居は少し下がるかもしれませんが、指定するパラメータ等は実は同じで、自動でできるわけではないのが現状です。コマンドラインの基本(難しくはない)は習得することをお勧めします。

3.おすすめの入門書

“Practical computing for biologists. Haddock, Dunn著”
入門書がないというようなことを書きましたが、この本は間違いなく名著です。ほとんどコンピュータの知識がなくても順番にやっていけば理解できるように書かれています。題材も、実際の生物学的なものが多く、比較的応用も簡単にできる印象です。私はこの本を読んで取っ掛かりを得ました。

4.おすすめのサイト

Homer
HomerというNGS解析ソフトを開発したDr Chris Bennerのサイトです。実際の生物データの解析をWet labで始めた人のようで、生物学者が読んでもとても理解しやすい。私自身、Homerの一群のプログラムを多用していますが、このサイトに書いてある通りにやると、それなりのことができるようになります。インストールの仕方から丁寧に解説してあります。