2024年東京都立青山高等学校実習

アラインメントから分子系統樹を作ろう

生物のDNAやアミノ酸配列データをターゲットにした研究を生物情報学（バイオインフォマティックス）と言います。ちょうど2024年にノーベル化学賞の対象となったAlfaFold2も、AIを用いたタンパク質3次構造の予測プログラムですので、バイオインフォマティックスの1つといっても良いかと思います。

色々なデータベース

データベースには使い勝手やクセがあるので、自分が用いたい用途によりどのデータベースを使って作業をするか選択します。

NCBI: 米国NIHに属する「アメリカ国立生物工学情報センター」のデータベースであり、学術論文検索（PubMed）やDNAやアミノ酸配列データベースとして一番の老舗であり、最もオーソドックスなデータベース
KEGG: 日本の代謝系に強いデータベースであり、種間の比較やオーソログやパラログなどもサーチし易い
UniProt: The Universal Protein Resourceが作成するデータベースであり、各タンパク質ベースでアミノ酸配列のモチーフや立体構造、細胞内局在などアトラス的に・百科事典的に見ることが出来る
PDB: Protein Data Bankといい、タンパク質の3次構造のデータベース。実験的に3次構造が解明しているタンパク質について、どの手法（X線、NMR、クライオ電顕）で構造決定したか？、どの位の分解能で決定したか？などの情報が掲載してある。

☞今回はKEGGを用いて16S rRNAの比較をしてみたいと思います

クラスター解析

クラスター解析では、ざっくりですが複数の配列内の相同性（ホモロジー）を頼りにクラスター化していく解析を云い、似ている部分・似ていない部分をまとまりとしてアウトプットしていく作業です。 DNAやRNAでは同じ塩基かorそうでないかによって分別できますが、アミノ酸配列に対するクラスター解析だとそうもいかず、アミノ酸の「化学的な」相同性（例えば疎水性、塩基性、酸性といった具合）に依拠したクラスタリングを行います。例えばグルタミン酸からアスパラギン酸への変異は同じ酸性アミノ酸であるので、これは進化上「許されやすい」変異として高いスコアとなります。アミノ酸残基の変異について「スコア」をまとめた幾つかのマトリックスが提唱されていますが、一番古典的とされるPAM250マトリックスのリンクを参考として紹介しておきます。 ⇒☞https://www.thegpm.org/BIOML/aainfo/pam250.htm
ここでもグルタミン酸（E）からアスパラギン酸（D）への変異のスコアは“3”であり、そのままグルタミン酸として変わらない（EからE）ときのスコア“4”とそんなに大差がないことが分かります。対照的に疎水性アミノ酸であるフェニルアラニン（F）への変化は“-5”、トリプトファン（W）に至っては“-7”と「相性」が悪いことが分かります。

この様に、塩基or残基間のスコアを通して複数の配列から似ている箇所・似てない箇所を選別し、「かたまり」を作っていきます。この似ている・似ていないから、その配列間の相対的な「遺伝的距離」が数値化でき、それを画として描きだしたものが分子系統樹である、というざっくりとした理解で良いかと思います。

本日の作業

作業としてはClustal Ωというものを使って、クラスター解析から分子系統樹作成まで進みます。

FASTA形式

DNA/RNAまたはアミノ酸配列解析において、配列を表現するのに良く用いられる形式です。…といっても至って簡単です。 1行目にヘッダと呼ばれ、“>“でその配列の名前などを入力します。 2行目以降は実際の配列を貼り付けます。

例えばヒトヘモグロビンα-subunitのアミノ酸配列であれば：

  >Homo sapiens_Haemoglobin alpha subunit 
  MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

などとします。

Multiple Alignment

複数の配列を比較したいので、FASTA形式を1つのプレインテキストに幾つも貼り付けます。ちょうどClustal Ωに”Use the Example”というボタンがありますので、これを使ってみると、次のFASTA形式の配列が出てきます。

  >sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 PE=1 SV=2
  MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR  
  >sp|P01942|HBA_MOUSE Hemoglobin subunit alpha OS=Mus musculus GN=Hba PE=1 SV=2 
  MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHGKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTPAVHASLDKFLASVSTVLTSKYR 
  >sp|P13786|HBAZ_CAPHI Hemoglobin subunit zeta OS=Capra hircus GN=HBZ1 PE=3 SV=2 
  MSLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHFDLHSGSAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLASHFPADFTADAHAAWDKFLSIVSGVLTEKYR

配列を貼り付けるウィンドウの下にある“Output”の項は、デフォルトであるClustalW with character outputのまま、Titleは自分に分かる適当なJob titleにして下さい。

それで“Submit”を押すと、あとは似てる・似てないの計算をしてくれ、そこから分子系統樹まで作成してくれます。

結果を見る

tool outputのタブが、生ファイルになります（alnファイル）。 alignmentsのタブが、各アミノ酸残基同士で似てる・似てないをした結果を画にして表したものです。次にphylogenetic treeというタブがありますが、これが系統樹になります。距離が近すぎると思いますので、適宜上の矢印ボタンを使って表示させてみて下さい。

ヘモグロビンαサブユニット

☞このファイルを使用して下さい。

  >Hemoglobin subunit alpha Homo sapiens
  MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
  >Hemoglobin subunit alpha Pan troglodytes    
  MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
  >Hemoglobin subunit alpha Macaca mulatta
  MVLSPADKTNVKAAWGKVGGHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTLAVGHVDDMPQALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
  >Hemoglobin subunit alpha Oryctolagus cuniculus
  MVLSPADKTNIKTAWEKIGSHGGEYGAEAVERMFLGFPTTKTYFPHFDFTHGSEQIKAHGKKVSEALTKAVGHLDDLPGALSTLSDLHAHKLRVDPVNFKLLSHCLLVTLANHHPSEFTPAVHASLDKFLANVSTVLTSKYR
  >Hemoglobin subunit alpha Bos taurus
  MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPAVHASLDKFLANVSTVLTSKYR
  >Hemoglobin subunit alpha Rattus norvegicus
  MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHIDVSPGSAQVKAHGKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFTPAMHASLDKFLASVSTVLTSKYR
  >Hemoglobin subunit alpha Xenopus tropicalis   
  MHLTADDKKHIKAIWPSVAAHGDKYGGEALHRMFMCAPKTKTYFPDFDFSEHSKHILAHGKKVSDALNEACNHLDNIAGCLSKLSDLHAYDLRVDPGNFPLLAHQILVVVAIHFPKQFDPATHKALDKFLVSVSNVLTSKYR

目次