scRNAによる転写・分化解析の問題点

Single-molecule imaging of transcription dynamics in somatic stem cells

Justin C. Wheat, Yehonatan Sella, Michael Willcockson, Arthur I. Skoultchi, Aviv Bergman, Robert H. Singer, Ulrich Steid Nature 583:431-436, 2020

造血幹細胞(HSC)の分化では、階層的に分化が進行していくモデルが一般的に受け入れられており、各階層や分化の分岐点を決定づける転写因子が同定されている。ある種の転写因子の発現は細胞分化の方向性を規定するように働くと考えられている。例えば、PU.1は骨髄球(myeloid)系への、GATA1は摂家球への分化を決定づけ,この二つはお互いを阻害する分子スイッチのように考えられている。しかし、これまでのデータの多くがbulk解析に依存しており、1細胞内で何が起こっているかは必ずしも明確ではなかった。本論文では、single-molecule FISHやscRNA-seqを組み合わせることによって、実は分化の初期では多くの細胞で、PU.1、GATA1、また類縁のGATA2が同時に発現していることを示している。かなり分化が進むと、これらのうちどちらかのみを強発現するようになり、分化が固定するように見えるが、それまではこれらの転写因子の発現はstochasticで、PU.1とGATA1/2発現の比も変化する。PU.1が高い細胞とGATA1/2が高い細胞との関係も可逆的に見える。

論文の結果は、分化がかなり進むまでは、相反関係にある転写因子も含めて、多くの転写因子の発現はstochasticで、これまでのモデルで安定的に存在すると考えられてきた、分化状態や転写の状態も実は固定的なものではなく、stochasticな遺伝子発現に依存しており、可逆的でゆらぐものである。言い換えると、細胞分化は分岐図に描かれたような決定論的なものではなく、かなりの部分stochasticなプロセスという結論は、転写が本質的にstochasticなものであることから、個人的には納得感がある。また、Discussionで述べられているように、元来ノイジーな遺伝子発現の元では、リジットな決定論的な仕組みより、このようなstochasticな仕組みの方が幹・前駆細胞を維持しながら、効率よく細胞分化も獲得するには有利なのかもしれない。というより、ノイズのもとでall or nothing的な運命決定メカニズムは(効率よく)機能できないし、stochasticな仕組みで何となく必要な細胞が分化するメカニズムが得られているのに、これをそれ以上効率化するコストを払うだけのselction pressureはかからないということなのかもしれない。生物は最適化されたシステムではない。

さて、論文の結果も興味深いものではあるが、ここで取りあげたのは論文の結論部分より、Supplementary Discussion 1にscRNA-seqに関して、面白いことが書かれていたからである。

scRNA-seqでは多くの欠損値がある。このzero-inflation(ゼロばっか)の状態は、当然解析に影響する。例えば、scRNA-seqでみることの出来る発現量が多い、あるいは容易にdetect出来る遺伝子が、ダウンストリーム解析をdominateしてしまうことは容易に推察できる。Extended Data Figure 2で5個のscRNA-seq data setsで、PU.1(Spi1)等の転写因子発現のジニ係数を解析している。ジニ係数は所得の不平等さの指標によく使われているものであるが、多くの遺伝子のジニ係数は極めて高い、つまり、一部の細胞のみがその遺伝子を発現していることを示している。従って、scRNA-seqでは多くの遺伝子についてその発現はbinary(二分法的)に検出されている。言い換えると、多くの遺伝子で発現レベルの相違はあまり意味がなく、単純に発現がon/offに見えるということになる。scRNA-seqではある遺伝子のリードがみられないことは非常に頻繁に起こる、技術的なばらつきやノイズの多い系であるから、ますます遺伝子の発現が見られる・見られないということがもつ意味が怪しくなる。

著者らは、75%の遺伝子はクラスタリングに影響しないことを見いだしている。多くの遺伝子は細胞での発現をランダムに入れ替えても、クラスタリングに影響しない。そして、ある意味当然であるが、最も発現量が多い遺伝子たちが、クラスタリングを左右する。転写因子の発現は一般的に低いことから、その発現のクラスタリングにおける意義は限定的になる。

以上のことから、scRNA-seqからは、発現量の多い遺伝子のみが細胞の運命決定に寄与するように見えてしまう危険性が高い。

このDiscussionの最後の"…as even a single mRNA can be translated many times prior to degradation and because the minimum number of TF protein molecules needed to change a target gene’s expression kinetics is almost entirely unknown for most TF in mammalian stem cells, we feel that significant caution should be used when relying on this technique to exclude models of stem cell commitment.“も、その通りでしょう。

これらの結論はscRNA-seqの特性から仕方がないものであるが、転写因子の機能を解析する場合には特に問題となるだろう。

同様の現状のscRNA-seqの問題点は、“Lineage tracing on transcriptional landscapes links state to fate during differentiation” Science 367:eaaw3381でも指摘されている。“scSeq-based models do not fully predict fate choice"と議論されており、結論として、“Here, we confirmed that functional lineage priming in MPPs is associated with low-level expression of lineage-affiliated genes, including transcription factors and a wide array of other functional gene categories, and that cells differentiate through a continuous, structured fate hierarchy that differs from classical tree-like depictions of hematopoiesis in its clonal structure.“と述べられている。

もちろんテクノロジーは進歩し続けており、低発現遺伝子の定量性が改善し、また、タンパク質やエピゲノムの情報も付加されることによって多くの問題は修正されるだろう。しかしながら、一過性の問題かもしれないが、これらの論文は現在のscRNA-seqデータの解釈における難しさを指摘しており、実際にscRNA-seqで転写因子の機能解析を行う上での実感にも合致している。