生物のDNAやアミノ酸配列データをターゲットにした研究を生物情報学(バイオインフォマティックス)と言います。 ちょうど2024年にノーベル化学賞の対象となったAlfaFold2も、AIを用いたタンパク質3次構造の予測プログラムですので、バイオインフォマティックスの1つといっても良いかと思います。
データベースには使い勝手やクセがあるので、自分が用いたい用途によりどのデータベースを使って作業をするか選択します。
☞今回はKEGGを用いて16S rRNAの比較をしてみたいと思います
クラスター解析では、ざっくりですが複数の配列内の相同性(ホモロジー)を頼りにクラスター化していく解析を云い、似ている部分・似ていない部分をまとまりとしてアウトプットしていく作業です。
DNAやRNAでは同じ塩基かorそうでないかによって分別できますが、アミノ酸配列に対するクラスター解析だとそうもいかず、アミノ酸の「化学的な」相同性(例えば疎水性、塩基性、酸性といった具合)に依拠したクラスタリングを行います。例えばグルタミン酸からアスパラギン酸への変異は同じ酸性アミノ酸であるので、これは進化上「許されやすい」変異として高いスコアとなります。
アミノ酸残基の変異について「スコア」をまとめた幾つかのマトリックスが提唱されていますが、一番古典的とされるPAM250マトリックスのリンクを参考として紹介しておきます。
⇒☞https://www.thegpm.org/BIOML/aainfo/pam250.htm
ここでもグルタミン酸(E)からアスパラギン酸(D)への変異のスコアは“3”であり、そのままグルタミン酸として変わらない(EからE)ときのスコア“4”とそんなに大差がないことが分かります。対照的に疎水性アミノ酸であるフェニルアラニン(F)への変化は“-5”、トリプトファン(W)に至っては“-7”と「相性」が悪いことが分かります。
この様に、塩基or残基間のスコアを通して複数の配列から似ている箇所・似てない箇所を選別し、「かたまり」を作っていきます。この似ている・似ていないから、その配列間の相対的な「遺伝的距離」が数値化でき、それを画として描きだしたものが分子系統樹である、というざっくりとした理解で良いかと思います。
作業としてはClustal Ωというものを使って、クラスター解析から分子系統樹作成まで進みます。
DNA/RNAまたはアミノ酸配列解析において、配列を表現するのに良く用いられる形式です。…といっても至って簡単です。 1行目にヘッダと呼ばれ、“>“でその配列の名前などを入力します。 2行目以降は実際の配列を貼り付けます。
例えばヒトヘモグロビンα-subunitのアミノ酸配列であれば:
>Homo sapiens_Haemoglobin alpha subunit MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR
などとします。
複数の配列を比較したいので、FASTA形式を1つのプレインテキストに幾つも貼り付けます。 ちょうどClustal Ωに”Use the Example”というボタンがありますので、これを使ってみると、次のFASTA形式の配列が出てきます。
>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 PE=1 SV=2 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR >sp|P01942|HBA_MOUSE Hemoglobin subunit alpha OS=Mus musculus GN=Hba PE=1 SV=2 MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHGKKVADALASAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTPAVHASLDKFLASVSTVLTSKYR >sp|P13786|HBAZ_CAPHI Hemoglobin subunit zeta OS=Capra hircus GN=HBZ1 PE=3 SV=2 MSLTRTERTIILSLWSKISTQADVIGTETLERLFSCYPQAKTYFPHFDLHSGSAQLRAHGSKVVAAVGDAVKSIDNVTSALSKLSELHAYVLRVDPVNFKFLSHCLLVTLASHFPADFTADAHAAWDKFLSIVSGVLTEKYR
配列を貼り付けるウィンドウの下にある“Output”の項は、デフォルトであるClustalW with character outputのまま、Titleは自分に分かる適当なJob titleにして下さい。
それで“Submit”を押すと、あとは似てる・似てないの計算をしてくれ、そこから分子系統樹まで作成してくれます。
tool outputのタブが、生ファイルになります(alnファイル)。 alignmentsのタブが、各アミノ酸残基同士で似てる・似てないをした結果を画にして表したものです。 次にphylogenetic treeというタブがありますが、これが系統樹になります。距離が近すぎると思いますので、適宜上の矢印ボタンを使って表示させてみて下さい。
☞このファイルを使用して下さい。
>Hemoglobin subunit alpha Homo sapiens MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR >Hemoglobin subunit alpha Pan troglodytes MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR >Hemoglobin subunit alpha Macaca mulatta MVLSPADKTNVKAAWGKVGGHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTLAVGHVDDMPQALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR >Hemoglobin subunit alpha Oryctolagus cuniculus MVLSPADKTNIKTAWEKIGSHGGEYGAEAVERMFLGFPTTKTYFPHFDFTHGSEQIKAHGKKVSEALTKAVGHLDDLPGALSTLSDLHAHKLRVDPVNFKLLSHCLLVTLANHHPSEFTPAVHASLDKFLANVSTVLTSKYR >Hemoglobin subunit alpha Bos taurus MVLSAADKGNVKAAWGKVGGHAAEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGAKVAAALTKAVEHLDDLPGALSELSDLHAHKLRVDPVNFKLLSHSLLVTLASHLPSDFTPAVHASLDKFLANVSTVLTSKYR >Hemoglobin subunit alpha Rattus norvegicus MVLSADDKTNIKNCWGKIGGHGGEYGEEALQRMFAAFPTTKTYFSHIDVSPGSAQVKAHGKKVADALAKAADHVEDLPGALSTLSDLHAHKLRVDPVNFKFLSHCLLVTLACHHPGDFTPAMHASLDKFLASVSTVLTSKYR >Hemoglobin subunit alpha Xenopus tropicalis MHLTADDKKHIKAIWPSVAAHGDKYGGEALHRMFMCAPKTKTYFPDFDFSEHSKHILAHGKKVSDALNEACNHLDNIAGCLSKLSDLHAYDLRVDPGNFPLLAHQILVVVAIHFPKQFDPATHKALDKFLVSVSNVLTSKYR