AGBT2015参加記(2): 10X Genomics の新製品 GemCode

さて、肝心の発表内容に触れたいと思いますが、今年はここ数年の中で最もビッグニュースの少ない年でした。これは、Illumina が新製品の発表を AGBT ではなく、1月の JP モルガンヘルスケアカンファレンスに持ってくるようになったことや、Oxford Nanopore がデータの発表をユーザーに完全に任せて AGBT には社員を発表させに来なくなった、という2つのことが大きく関係しているかもしれません。また、ソーシャルメディアが発達し、国際会議のタイミングを見計らわずともニュースを効率的に研究者コミュニティに行き渡らせることができるようになったことも大きいでしょう。何れにせよ今年の最大の目玉は 10X Genomics 社の技術であるのは間違いなく、10X Genomics の話を軸に今年の進展をまとめたいと思います。内容には正確を期しているつもりですが誤りなどがあればご指摘ください。

10X Genomics 社は AGBT2015 がお披露目となったスタートアップで、私も含めてほとんどの人は初めて名前を知ったのではないかと思います。10X Genomics 社の商品は GemCode Platform という名前の機械で、GemCode Platform でライブラリーを作り、Illumina HiSeq 等で読むことでロングリード的なものを実現します。ロングリードといえば Illumina に買収された Moleculo という技術がありましたが、コンセプトとしてはかなり類似していると言ってよいでしょう。Moleculo には実用上の様々な問題があり、思ったほど流行りませんでしたが、その点 GemCode Platform は後発なだけあって Moleculo の持つ内在的な欠点をかなり克服しており、これから流行していく可能性は十分にあるように思いました。


図1に GemCode のワークフロー概要を示します。GemCode の入力は断片化されたゲノムDNAで、最低 1 ng からの入力を受け付けます。DNA 分子量は大きい方が良いのですが、高分子の DNA を綺麗に取ってくることは難しいのでとりあえず 50 kb 程度の DNA 分子を想像してください。この DNA をピコリットルスケールの液滴にしてマイクロ流路に流します。このとき、この後の反応で用いる酵素やその基質もマイクロ流路中で混ぜます。また、14 bp (75万種類)のバーコード配列を含むハイドロゲルビーズを1つ液滴に混ぜます。このような液滴を油層中で大量に作りチューブに溜めます。その後、Nextera のタグメンテーションの要領で*1バーコードを導入しつつ、液的中の DNA を断片化します。バーコードが十分に導入されたら液滴を溶かして全部混ぜ、Illumina の通常のシークエンシングプロトコルに載せて配列を読みます。Moleculo とは異なり、Long PCR でゲノム断片 DNA を増やしたりしないのが大きな特長です。液的中で増幅を行わないのでバーコードが付いた DNA 断片の配列には「重なり」が無く、液滴の中にある配列だけを読めたとしてもアセンブルを行うことはできません。


Illumina HiSeq などで作成したライブラリを読んだあとは、バーコードを外したリードを参照ゲノムにアラインメントするなり de novo アセンブリするなりして、Illumina 用の通常のライブラリを作った場合と同じように解析パイプラインを通します。参照ゲノムへのアラインメントや de novo アセンブリが終わったあとで各リードのバーコードを見ることで、リード間の関係を解析します。同じバーコードを持つリード群は基本的に1つの液滴に由来するので、ゲノム全体のほんの一部の領域に由来するリードであるはずです。話を簡単にするために、ある液滴に 50 kb のゲノム DNA 断片が1つだけ入った場合を考えましょう。このとき、参照ゲノムにリードをアラインメントした場合には、同じバーコードのリードはゲノム上で 50kb 以内の距離にあり、同一のハプロタイプに由来すると考えられるでしょう。また、de novo アセンブリの場合には、異なる2つのコンティグ上に同じバーコードを持つリードがたくさんアラインメントできた場合には、その2つのコンティグがゲノム上で 50 kb 以内の距離であることを示しており、隣り合っている可能性が非常に高いでしょう。つまり、10X Genomics の機械を用いると、50 kb ぐらいまでのロングレンジのリンク情報を持った「すごいメイトペア」のようなもの(PacBio の初期の頃をご存じなら、ストロボリードの順番が不定になったヤツと言えば良いだろうか。)が情報として取れるわけである。もちろん、1つの液滴に丁度1つだけ DNA 断片が入るとは限らないし、少数ながら同一のバーコードを持った複数の液滴が存在してしまう可能性もあるので実際にはこれよりずっと話は複雑になるのだが、ゲノムを十分多くの細かな領域に分割して十分多くの種類のバーコードを用いている分には基本的に問題無く長距離リンク情報が活用できることには変わりがないことは分かると思います。

彼らは Loupe というソフトウェアを開発し、ヒトゲノム(NA12878)で構造多型を発見したり SNP のフェージングを実際に行ってみたそうですが、疾患関連遺伝子の探索などで非常に効果を発揮しそうでした。他の発表では Stanford 大学のチームからガンゲノムの解析に応用した例などが発表されていて、実際に解析に使えることは間違いないといって良いでしょう。ここまで話を聞いたところで、講演の途中で紹介された宣伝動画を見ると理解が進むと思いますので視聴をお勧めしたいと思います。

Moleculo はイマイチだと思っていた私でも GemCode はは素晴らしいと今回思えたのですが、その理由を三つ説明します。第一に、PCR増幅を行わないでバーコードを付ける点です。Moleculo の場合には Long PCR を用いて 10 kb までのゲノム断片を増幅していました。この増幅には大きな問題が2つあります。Long PCR は 10 kb 程度までのゲノム断片でないと増幅できず、50 kb や 100 kb のレンジになるとお手上げです。つぎに、PCR の掛かりやすさで大きなバイアスが掛かり、ゲノム全体を均一に読むことができないという問題です。de novo アセンブリにしても SNP のフェージングにしても、これらの2つの問題はかなり大きな問題で、Moleculo のようなロングリードを用いて疾患関連遺伝子探索をするのは非実用的でした。増幅をしないでバーコードを付加する GemCode であれば 100 kb でも 200 kb でも好きな長さのゲノム断片を用いることができます。彼ら曰く、原理上はゲノム断片の長さに制限はない、少なくともそのような制限は見つかっていない、とのことで、長い DNA を上手く用意することができれば事実上長さは無限と考えて良さそうです。第二に、シークエンシングに必要なトータル塩基数が増えないことです。Moleculo の場合には同一断片に由来するショートリードをアセンブルして、アセンブル後のコンティグを仮想的なロングリードとして出力する仕様だったために各断片毎に 30x などといったカバー率が必要でした。Moleculo のロングリードでゲノムを 30x だけ読もうとすれば 30 × 30 = 900x が必要になる計算です。しかし、GemCode では、元々の解析がゲノムの 30x で動くものであればトータル 30x を良いわけで、ロスがあまりありません。このため、コスト面で遙かに優れています。第三に、エクソームのようなキャプチャ手法と互換性があることです。バーコードを付加したあとに普通にキャプチャをすればエクソームシークエンシングでフェージングできます。もうコンパウンドヘテロも怖くありません。

コストの話をする場合には本体と試薬の価格を抜きにしては語れないと思いますが、GemCode は1台7万5千ドル、試薬代は1ランで500ドル程度とのことで、ヒト疾患研究に用いるのであればかなり安い部類でしょう。ラン時間も8サンプル(1チップ)で5分とのことで、シークエンシング本体の時間を考えるとほとんどゼロと言って良い時間です。現在はアーリーアクセスのみで、第2四半期に出荷を開始するようです。例によって日本に入ってくるのがいつなのかは分かりません。

*1:この操作の具体的な話は(私が聞き落としていなければ)具体的には述べられていなかったと思います。スライドに掲載されていた図は、一般的には Transposase の反応をあらわす絵だったためそのように判断しました。しかし、Transoposase は使っていないという話もあります。