AGBT2014まとめ(その1:Oxford Nanopore編)

AGBT2014に参加してきました。AGBTでは様々なゲノムに関わるテクノロジーがよく新発表される会議です。新型のDNAシークエンサーなんかがよくこの会議で発表されています。

AGBT2014のまとめは英語圏の blog では一杯ありますが、日本語のものはあまり無かったので、自分の備忘録も兼ねてシークエンシング技術に関して簡単なまとめを残しておきます。
英語の聞き取り等で間違いが生じている可能性もありますが、その点はご容赦下さい。間違いの指摘などは大歓迎です。

まずは、一番期待されていたナノポアシークエンシングの Oxford Nanopore を用いたゲノムアセンブリについて David Jaffe が講演しました。Oxford Nanopore のシークエンシング原理は、ナノポアとして用いている(αヘモリジンと思われる)タンパク中にDNAを通し、ナノポア中を通り抜けるイオン電流の変化を調べる、というものです。ナノポア中に占める物体の体積が増えるとイオン電流が減るため、イオン電流を観測することによって、ナノポア中を通り抜けている物体が推測できるのでは無いか、ということです。


公演中に示されていたベースコールの原理を表す図では(右図を参照。この図は自分の記憶をもとに適当に作った図なので雰囲気だけ味わってください。)、イオン電流が階段状に上がったり下がったりしていました。階段の踏み台に当たる部分は比較的電流値がフラットですが、階段の「踏み板の長さ?」はまちまちな長さになっていて、おそらく指数分布になっているのだと思います。つまり塩基の通り抜ける速度が速すぎる場合には1塩基分のデータが欠損する可能性が十分にある、ということです。また、Oxford Nanopore のベースコールは1塩基単位ではありません。ナノポア中に入り込むDNAはおそらく3塩基から6塩基程度で、2年前のAGBTで Oxford Nanopore がアナウンスされていたころには3塩基単位でベースコールをしていると発表しており、今回の講演では6塩基を単位にベースコールをしている、ということでした。この2年間の間にナノポアとして使っているタンパク質が変わったのかもしれませんが、私の勝手な推測によれば、ナノポアトンネルの物理長よりももう少し長い範囲で塩基がイオン電流に対する抵抗を示したので隠れマルコフモデル等でベースコールする場合に履歴を長めにとったのではないか、と思っています。ただし、David Jaffe 曰く、「ベースコールの方法はブラックボックスであり、しかも DNA を Oxford Nanopore に送ってシークエンシングしてもらったので手元で動かしたわけでもない。」とのことでした。この「手元で動かしていない」という点については他の参加者からも失望の声が上がっていたようです。

USBタイプのシークエンサー(MinION)は1平方センチメートルの範囲に長方形のアレイを作り、512個のナノポアを整列しているとのことで、このへんのスペックは以前の発表通りでした。ナノポアを通り抜ける塩基の速度は1〜100塩基/秒で可変だそうです。電気泳動でDNAを引っ張る際の強さで調節、ということでしょう。現在は25塩基/秒の速度を用いているとのことでした。これは、あまり速くDNAを進ませると読み飛ばすシグナルが増えるので塩基精度が悪化するので、塩基精度とのトレードオフを意識して設定した速度なのではないかと推測されます。

次にゲノムシークエンシングに用いた種名が明かされました。使った種は大腸菌(メチル化能欠損株)とScardoviaの2種で、大腸菌で 6x, Scardovia で 13x のデータを用いたそうです。Broad から DNA を Oxford Nanopore に送ってシークエンシングしてもらったそうですが、シークエンシングにいくつのカートリッジを使ったのかは明らかにされませんでした。いずれにせよ2年前に言っていたような超ハイスループットのシークエンサーが完成したわけではなさそうです。リード長はメディアンで5.4kb(大腸菌)、4.9kb(Scardovia )だそうです。リード長の分布はシークエンシングに用いたゲノムライブラリの分布と同じだそうで、長いゲノム断片だけを選択的に食わせてあげればもう少し長くなるだろう、という話でした。分布は非常にブロードで、sdで2kbぐらいはありそうなグラフでした。ゲノム断片をナノポアに向かって誘導するために、断片配列の片側に電荷を持った「テザー」をライゲーションしてナノポアに向かって電気的に分子を誘導しているのですが、100kbとか長い分子ばかりになると長大な分子の先端をナノポアに高効率に誘導するのがおそらく難しくなってくるので分子の平均長を長くするとスループットが下がるのではないかと推測しています。ちなみに、今回はサイズセレクション無しでシークエンシングしてみたとのことでした。

また、肝心の塩基精度ですが、単純に測ることは難しいようです。6-mer の窓で塩基をコールしているので、ベースコールにミスがあった場合には連続して間違いが入ることが多く、とても塩基が正確な領域と、塩基が不正確な領域に分かれているようでした。シークエンシングエラーは均等に分散しているわけではない、ということです。5kb以上の長さのリードについて、84%のリードはパーフェクト50-merを持っていて、100%のリードがパーフェクト25-merを持っていたそうです。そして、ここからが大きな問題なのですが、PacBio とは違ってシークエンシングエラーがシステマティックに起こっている例が観測されており、カバー率をとにかく高くしていけばシークエンシングエラーを除去できる、というわけではないそうです。系統的エラーはナノポアの種類を変えると異なるパターンで発生するそうなので、複数種類のナノポアを仕込んでエラーを平均化するなどの対策を今後とっていくとのことでした。

つまるのところ、Oxford Nanopore は今のところ単体でゲノムシークエンシングができるような塩基精度は出ておらず、1ランも(今回のデータでは最大で)30Mbぐらいしかない、ということです。PacBio の人たちは(ひとときとはいえ)胸を撫で下ろしたのではないでしょうか。今後の進捗に注目です。

というわけで、David Jaffe らのグループは PCR-free の Illumina ライブラリで同種をシークエンシングし、Nanopore のリードでリピート配列を解決することで環状のゲノムを復元することができた、という発表を行っていました。案の定質疑応答では、「それって Nanopore によるゲノムシークエンシングと書いてあるタイトルと中身が違っているよね」と突っ込まれていました。そう言いたくもなりますよね。