AGBT2015参加記(4): あとがき

他のこまごまとしたトピックとしては、私が生クレイグ=ベンターをはじめて見た話、リニアな参照ゲノムでは限界があるのでグラフ型参照ゲノムを解析できるツールとエコシステムを作ろうという GRC などのグループからの提案、米国の Precision Medicine の宣伝、がんゲノムから分かったがんゲノム進化モデルの複雑さ、など、他の会議でも良く見るタイプの発表が今年は多かったと思います。

AGBTは新しいテクノロジーの発表の場として、技術の進化が続く限りゲノム屋はみんな追いかけていかなくてはならない会議の1つになりました。来年はホテルの老朽化に伴う立て替えの影響で2月10日よりフロリダ州オーランドのJWマリオットホテルで開催されます。みなさんも是非参加してみてはいかがでしょうか。抽選を避けるために採択してもらえそうな良い発表も忘れずに!

AGBT2015参加記(3): ロングリード時代の到来

AGBT2015 は PacBio がゴールドスポンサーでした。それは PacBio にとって今が経営的に勝負時であり、かつ、PacBio の有用性が大きく高まったタイミングでもあるからです。Oxford Nanopore のようなその他の1分子ロングリードシークエンサー、BioNano Irys や 10X Genomics, Dovetail Genomics などのロングレンジリンク情報を提供する観測機器など、直接・間接的に PacBio 社のライバルとなる会社はたくさんありますが、P6-C4 試薬を発売した PacBio 社は今のところ頭1つか2つぐらい抜きん出ているのは間違いありません。

2014年末に PacBio 社が発表した P6-C4 試薬は、その前の P5-C3 試薬と比べてリード長が大きく伸びています。AGBT2015 では PacBio P6-C4 試薬を用いたゲノム de novo 解読の発表が相次ぎ、N50 コンティグ長は 1 Mbp を超えていて当たり前、ヒトゲノム(胞状奇胎を読んでいるのでハプロイド)のアセンブリで N50 コンティグ長が 10 Mbp を超えても会場からそれほど大きな驚きの声は上がりませんでした。反復配列が少ないゲノム配列はもう「1コンティグ=1染色体」で当たり前の時代となりました。ヒトのセントロメアのようなひどい反復配列で PacBio によるアセンブルだけでは繋がらない領域も、BioNano Irys システムを用いて繋がったり、アセンブルの誤りを訂正したとの報告が GRC のグループからありました。PacBio リードのみのヒトゲノム(乳がんアセンブルDNANexus 社が並列計算を用いて1日で終えたとの発表をしており、2〜3年後には PacBio のみによる全ヒトゲノムアセンブルを遺伝疾患のケース・コントロール研究で普通に用いるのだろうな、という予感がしました。いずれにせよ、アーリーアダプターの研究者コミュニティでは「ロングリードは使って当たり前」の時代が到来したのです。本来ならば BioNano Irys などのシステムについてもここで解説できると良いのですが、システムの仕組み自体は何年も前から公開されているのでここでは割愛します。

AGBT2015参加記(2): 10X Genomics の新製品 GemCode

さて、肝心の発表内容に触れたいと思いますが、今年はここ数年の中で最もビッグニュースの少ない年でした。これは、Illumina が新製品の発表を AGBT ではなく、1月の JP モルガンヘルスケアカンファレンスに持ってくるようになったことや、Oxford Nanopore がデータの発表をユーザーに完全に任せて AGBT には社員を発表させに来なくなった、という2つのことが大きく関係しているかもしれません。また、ソーシャルメディアが発達し、国際会議のタイミングを見計らわずともニュースを効率的に研究者コミュニティに行き渡らせることができるようになったことも大きいでしょう。何れにせよ今年の最大の目玉は 10X Genomics 社の技術であるのは間違いなく、10X Genomics の話を軸に今年の進展をまとめたいと思います。内容には正確を期しているつもりですが誤りなどがあればご指摘ください。

10X Genomics 社は AGBT2015 がお披露目となったスタートアップで、私も含めてほとんどの人は初めて名前を知ったのではないかと思います。10X Genomics 社の商品は GemCode Platform という名前の機械で、GemCode Platform でライブラリーを作り、Illumina HiSeq 等で読むことでロングリード的なものを実現します。ロングリードといえば Illumina に買収された Moleculo という技術がありましたが、コンセプトとしてはかなり類似していると言ってよいでしょう。Moleculo には実用上の様々な問題があり、思ったほど流行りませんでしたが、その点 GemCode Platform は後発なだけあって Moleculo の持つ内在的な欠点をかなり克服しており、これから流行していく可能性は十分にあるように思いました。


図1に GemCode のワークフロー概要を示します。GemCode の入力は断片化されたゲノムDNAで、最低 1 ng からの入力を受け付けます。DNA 分子量は大きい方が良いのですが、高分子の DNA を綺麗に取ってくることは難しいのでとりあえず 50 kb 程度の DNA 分子を想像してください。この DNA をピコリットルスケールの液滴にしてマイクロ流路に流します。このとき、この後の反応で用いる酵素やその基質もマイクロ流路中で混ぜます。また、14 bp (75万種類)のバーコード配列を含むハイドロゲルビーズを1つ液滴に混ぜます。このような液滴を油層中で大量に作りチューブに溜めます。その後、Nextera のタグメンテーションの要領で*1バーコードを導入しつつ、液的中の DNA を断片化します。バーコードが十分に導入されたら液滴を溶かして全部混ぜ、Illumina の通常のシークエンシングプロトコルに載せて配列を読みます。Moleculo とは異なり、Long PCR でゲノム断片 DNA を増やしたりしないのが大きな特長です。液的中で増幅を行わないのでバーコードが付いた DNA 断片の配列には「重なり」が無く、液滴の中にある配列だけを読めたとしてもアセンブルを行うことはできません。


Illumina HiSeq などで作成したライブラリを読んだあとは、バーコードを外したリードを参照ゲノムにアラインメントするなり de novo アセンブリするなりして、Illumina 用の通常のライブラリを作った場合と同じように解析パイプラインを通します。参照ゲノムへのアラインメントや de novo アセンブリが終わったあとで各リードのバーコードを見ることで、リード間の関係を解析します。同じバーコードを持つリード群は基本的に1つの液滴に由来するので、ゲノム全体のほんの一部の領域に由来するリードであるはずです。話を簡単にするために、ある液滴に 50 kb のゲノム DNA 断片が1つだけ入った場合を考えましょう。このとき、参照ゲノムにリードをアラインメントした場合には、同じバーコードのリードはゲノム上で 50kb 以内の距離にあり、同一のハプロタイプに由来すると考えられるでしょう。また、de novo アセンブリの場合には、異なる2つのコンティグ上に同じバーコードを持つリードがたくさんアラインメントできた場合には、その2つのコンティグがゲノム上で 50 kb 以内の距離であることを示しており、隣り合っている可能性が非常に高いでしょう。つまり、10X Genomics の機械を用いると、50 kb ぐらいまでのロングレンジのリンク情報を持った「すごいメイトペア」のようなもの(PacBio の初期の頃をご存じなら、ストロボリードの順番が不定になったヤツと言えば良いだろうか。)が情報として取れるわけである。もちろん、1つの液滴に丁度1つだけ DNA 断片が入るとは限らないし、少数ながら同一のバーコードを持った複数の液滴が存在してしまう可能性もあるので実際にはこれよりずっと話は複雑になるのだが、ゲノムを十分多くの細かな領域に分割して十分多くの種類のバーコードを用いている分には基本的に問題無く長距離リンク情報が活用できることには変わりがないことは分かると思います。

彼らは Loupe というソフトウェアを開発し、ヒトゲノム(NA12878)で構造多型を発見したり SNP のフェージングを実際に行ってみたそうですが、疾患関連遺伝子の探索などで非常に効果を発揮しそうでした。他の発表では Stanford 大学のチームからガンゲノムの解析に応用した例などが発表されていて、実際に解析に使えることは間違いないといって良いでしょう。ここまで話を聞いたところで、講演の途中で紹介された宣伝動画を見ると理解が進むと思いますので視聴をお勧めしたいと思います。

Moleculo はイマイチだと思っていた私でも GemCode はは素晴らしいと今回思えたのですが、その理由を三つ説明します。第一に、PCR増幅を行わないでバーコードを付ける点です。Moleculo の場合には Long PCR を用いて 10 kb までのゲノム断片を増幅していました。この増幅には大きな問題が2つあります。Long PCR は 10 kb 程度までのゲノム断片でないと増幅できず、50 kb や 100 kb のレンジになるとお手上げです。つぎに、PCR の掛かりやすさで大きなバイアスが掛かり、ゲノム全体を均一に読むことができないという問題です。de novo アセンブリにしても SNP のフェージングにしても、これらの2つの問題はかなり大きな問題で、Moleculo のようなロングリードを用いて疾患関連遺伝子探索をするのは非実用的でした。増幅をしないでバーコードを付加する GemCode であれば 100 kb でも 200 kb でも好きな長さのゲノム断片を用いることができます。彼ら曰く、原理上はゲノム断片の長さに制限はない、少なくともそのような制限は見つかっていない、とのことで、長い DNA を上手く用意することができれば事実上長さは無限と考えて良さそうです。第二に、シークエンシングに必要なトータル塩基数が増えないことです。Moleculo の場合には同一断片に由来するショートリードをアセンブルして、アセンブル後のコンティグを仮想的なロングリードとして出力する仕様だったために各断片毎に 30x などといったカバー率が必要でした。Moleculo のロングリードでゲノムを 30x だけ読もうとすれば 30 × 30 = 900x が必要になる計算です。しかし、GemCode では、元々の解析がゲノムの 30x で動くものであればトータル 30x を良いわけで、ロスがあまりありません。このため、コスト面で遙かに優れています。第三に、エクソームのようなキャプチャ手法と互換性があることです。バーコードを付加したあとに普通にキャプチャをすればエクソームシークエンシングでフェージングできます。もうコンパウンドヘテロも怖くありません。

コストの話をする場合には本体と試薬の価格を抜きにしては語れないと思いますが、GemCode は1台7万5千ドル、試薬代は1ランで500ドル程度とのことで、ヒト疾患研究に用いるのであればかなり安い部類でしょう。ラン時間も8サンプル(1チップ)で5分とのことで、シークエンシング本体の時間を考えるとほとんどゼロと言って良い時間です。現在はアーリーアクセスのみで、第2四半期に出荷を開始するようです。例によって日本に入ってくるのがいつなのかは分かりません。

*1:この操作の具体的な話は(私が聞き落としていなければ)具体的には述べられていなかったと思います。スライドに掲載されていた図は、一般的には Transposase の反応をあらわす絵だったためそのように判断しました。しかし、Transoposase は使っていないという話もあります。

AGBT2015参加記(1)

この記事は某所のニュースレターとクロスポストです。

今年2月の下旬にアメリカ合衆国フロリダ州マルコアイランドで開催されたAGBT2015に参加してきましたので、参加の感想を書きたいと思います。この会議は名前の通り、ゲノムやバイオテクノロジーに関する技術の進展やその応用例について報告するのがメインの会議です。私は比較的最近になってから参加しはじめたので知りませんが、古くはサンガーシークエンサーの進展が発表されていたころからずっと同じ場所で開催している会議だそうです。454 に始まり Illumina (当時は Solexa) や SOLiD やら PacBio に ION torrent, Oxford Nanopore と、様々な新しいDNAシークエンサーや試薬のアップデート、ライブラリ調整やらそれらのアプリケーションや、光学マッピングを用いた DNA のマッピングやマイクロ流体技術を用いた1細胞シークエンシングなど、ゲノムやバイオテクノロジーに関連する実に様々な発表はこの会議でなされてきました。そういった意味で、今後のゲノミクスやその周辺の動向を考えるうえでこの会議での情報収集は欠かせないものになってきています。

昔からの参加者曰く、AGBT はおよそ200人程度の規模で運営していたようですが、「次世代シークエンサー」が騒がれ始めた頃からこの会議の参加希望者数はうなぎのぼりで会場のキャパシティーを遙かに超えてしまい、ある年にはとうとう参加希望者を募集してから数時間で席が全て埋まってしまいました。今では全体で千数百人の巨大なキャパシティーがあるのにもかかわらず、今では口頭発表あるいはポスター発表に採択されるか、抽選をくぐり抜けないと参加できない人気会議となってしまいました。このため私も最近は偶にしか参加できていない状況です。今後の分子生物学を牽引する技術の動向を考えるうえでこれほど大事な会議に日本人がほとんど来ていないのは憂慮すべき状況だなぁ、と昔から思っていたのですが、そういった意味では参加出来た人はなるべく情報を日本語コミュニティにも流した方が良いのだろうな、と思いこの記事を書いています。今年は運が良く、はじめて抽選に一発当選したので無事に参加することができたのでした。

AGBT2015 のまとめは英語圏ではすでに多くの blog でまとめられた記事があり、英語でゆっくり読める人にはそちらを直接読んでもらうほうが知識が深まると思いますので、いくつかまとめ記事を挙げておきます。

/etc/init.d から GlusterFS 3.4.x のファイルシステムをマウントする

起動時に GlusterFS を用いたファイルシステムをマウントしたい人は /etc/fstab に書いてね、ってドキュメントには書いてあるのだが、私の環境では諸事情によりその方法では動かない。(主に GlusterFS をイーサネット経由ではなく IPoIB 経由で使っているせい。)

以前にもこの blog で /etc/init.d に GlusterFS をマウントするスクリプトを書いて運用している旨を紹介したが、GlusterFS のバージョンアップして少し事情が変わったことと、(Infiniband の) RDMA を使った実装はユーザーが少なくてテストが甘いわりに TCP/IP 経由と比べてパフォーマンスが計測できるほどには良くなっていなかったので TCP/IP を使うオプションにしたバージョンを作った。バックアップも兼ねて gist に上げてあるので使ってみたい人はどうぞ。

AGBT2014まとめ(その1:Oxford Nanopore編)

AGBT2014に参加してきました。AGBTでは様々なゲノムに関わるテクノロジーがよく新発表される会議です。新型のDNAシークエンサーなんかがよくこの会議で発表されています。

AGBT2014のまとめは英語圏の blog では一杯ありますが、日本語のものはあまり無かったので、自分の備忘録も兼ねてシークエンシング技術に関して簡単なまとめを残しておきます。
英語の聞き取り等で間違いが生じている可能性もありますが、その点はご容赦下さい。間違いの指摘などは大歓迎です。

まずは、一番期待されていたナノポアシークエンシングの Oxford Nanopore を用いたゲノムアセンブリについて David Jaffe が講演しました。Oxford Nanopore のシークエンシング原理は、ナノポアとして用いている(αヘモリジンと思われる)タンパク中にDNAを通し、ナノポア中を通り抜けるイオン電流の変化を調べる、というものです。ナノポア中に占める物体の体積が増えるとイオン電流が減るため、イオン電流を観測することによって、ナノポア中を通り抜けている物体が推測できるのでは無いか、ということです。


公演中に示されていたベースコールの原理を表す図では(右図を参照。この図は自分の記憶をもとに適当に作った図なので雰囲気だけ味わってください。)、イオン電流が階段状に上がったり下がったりしていました。階段の踏み台に当たる部分は比較的電流値がフラットですが、階段の「踏み板の長さ?」はまちまちな長さになっていて、おそらく指数分布になっているのだと思います。つまり塩基の通り抜ける速度が速すぎる場合には1塩基分のデータが欠損する可能性が十分にある、ということです。また、Oxford Nanopore のベースコールは1塩基単位ではありません。ナノポア中に入り込むDNAはおそらく3塩基から6塩基程度で、2年前のAGBTで Oxford Nanopore がアナウンスされていたころには3塩基単位でベースコールをしていると発表しており、今回の講演では6塩基を単位にベースコールをしている、ということでした。この2年間の間にナノポアとして使っているタンパク質が変わったのかもしれませんが、私の勝手な推測によれば、ナノポアトンネルの物理長よりももう少し長い範囲で塩基がイオン電流に対する抵抗を示したので隠れマルコフモデル等でベースコールする場合に履歴を長めにとったのではないか、と思っています。ただし、David Jaffe 曰く、「ベースコールの方法はブラックボックスであり、しかも DNA を Oxford Nanopore に送ってシークエンシングしてもらったので手元で動かしたわけでもない。」とのことでした。この「手元で動かしていない」という点については他の参加者からも失望の声が上がっていたようです。

USBタイプのシークエンサー(MinION)は1平方センチメートルの範囲に長方形のアレイを作り、512個のナノポアを整列しているとのことで、このへんのスペックは以前の発表通りでした。ナノポアを通り抜ける塩基の速度は1〜100塩基/秒で可変だそうです。電気泳動でDNAを引っ張る際の強さで調節、ということでしょう。現在は25塩基/秒の速度を用いているとのことでした。これは、あまり速くDNAを進ませると読み飛ばすシグナルが増えるので塩基精度が悪化するので、塩基精度とのトレードオフを意識して設定した速度なのではないかと推測されます。

次にゲノムシークエンシングに用いた種名が明かされました。使った種は大腸菌(メチル化能欠損株)とScardoviaの2種で、大腸菌で 6x, Scardovia で 13x のデータを用いたそうです。Broad から DNA を Oxford Nanopore に送ってシークエンシングしてもらったそうですが、シークエンシングにいくつのカートリッジを使ったのかは明らかにされませんでした。いずれにせよ2年前に言っていたような超ハイスループットのシークエンサーが完成したわけではなさそうです。リード長はメディアンで5.4kb(大腸菌)、4.9kb(Scardovia )だそうです。リード長の分布はシークエンシングに用いたゲノムライブラリの分布と同じだそうで、長いゲノム断片だけを選択的に食わせてあげればもう少し長くなるだろう、という話でした。分布は非常にブロードで、sdで2kbぐらいはありそうなグラフでした。ゲノム断片をナノポアに向かって誘導するために、断片配列の片側に電荷を持った「テザー」をライゲーションしてナノポアに向かって電気的に分子を誘導しているのですが、100kbとか長い分子ばかりになると長大な分子の先端をナノポアに高効率に誘導するのがおそらく難しくなってくるので分子の平均長を長くするとスループットが下がるのではないかと推測しています。ちなみに、今回はサイズセレクション無しでシークエンシングしてみたとのことでした。

また、肝心の塩基精度ですが、単純に測ることは難しいようです。6-mer の窓で塩基をコールしているので、ベースコールにミスがあった場合には連続して間違いが入ることが多く、とても塩基が正確な領域と、塩基が不正確な領域に分かれているようでした。シークエンシングエラーは均等に分散しているわけではない、ということです。5kb以上の長さのリードについて、84%のリードはパーフェクト50-merを持っていて、100%のリードがパーフェクト25-merを持っていたそうです。そして、ここからが大きな問題なのですが、PacBio とは違ってシークエンシングエラーがシステマティックに起こっている例が観測されており、カバー率をとにかく高くしていけばシークエンシングエラーを除去できる、というわけではないそうです。系統的エラーはナノポアの種類を変えると異なるパターンで発生するそうなので、複数種類のナノポアを仕込んでエラーを平均化するなどの対策を今後とっていくとのことでした。

つまるのところ、Oxford Nanopore は今のところ単体でゲノムシークエンシングができるような塩基精度は出ておらず、1ランも(今回のデータでは最大で)30Mbぐらいしかない、ということです。PacBio の人たちは(ひとときとはいえ)胸を撫で下ろしたのではないでしょうか。今後の進捗に注目です。

というわけで、David Jaffe らのグループは PCR-free の Illumina ライブラリで同種をシークエンシングし、Nanopore のリードでリピート配列を解決することで環状のゲノムを復元することができた、という発表を行っていました。案の定質疑応答では、「それって Nanopore によるゲノムシークエンシングと書いてあるタイトルと中身が違っているよね」と突っ込まれていました。そう言いたくもなりますよね。

Papers2 (Windows版) を日本語 Windows 上で動かすと MS-Word との連携時に MagicManuscript で余計な改行が入る不具合を抑制する方法

Papers2 を Windows で使おう、それも日本語の MS-Word 上で使おう、なんて人は凄く少ないのではないかとも思いますが、やってみたらいろいろバグって使い物にならなかったので、見つけた回避策を書いてみます。
本家には既にバグ報告してあちらで再現できたらしいのでそのうち直ると思いますが、誰かの役に立つかもしれないので。

Papers2 (2014/4時点での最新版) を Windows 上で、MS-Word 日本語版(正確にはちょっと違います。後述。)と Magic Manuscript を使って文献引用すると "(Un)Format Manuscript" コマンドを実行したときに余計な改行が引用するたびに入ってしまいます。これではちょっと使い物にならない。この現象は Mac だと起きなくて Windows に特有の現象です。ただ、開発陣が使っている英語版 MS-Word ではこの現象は起きないのでは無いかと推測しました。これでは使い物にならないし、使い物にならないことが分かっているソフトウェアをそのままリリースするのは(iOSのマップとかの前例もあるけど)少し考えにくいので、開発陣の環境では起こらないバグなのだろう、と。

そこで試しに MS-Word の言語設定を英語にしてやってみたら、あれ不思議。動いちゃいました。やり方は簡単。Office プログラムで別の言語を使用できるようにするに従って MS-Office の言語設定を英語に変更し、MS-Word を再起動するだけ。日本語に戻したいときには同様の手順で日本語に戻すこともできます。どうせ Papers2 を使って英語論文を書いているときには英語しか使わないのでそれほど手間ではありません。

Papers2 で日本語論文を書きたい、という人はこの手法ではダメかもしれませんが、Papers2 のサポートからもう一つの回避方法を教えて貰ったのでそれを紹介します。無駄に入ってしまう改行は実は改行ではなくて ^P (CTRL+P) なのだそうです。そこで、MS-Word の置換機能を使って ^P を空文字列に置換してやれば元通りになるとか。MS-Word で ^P を置換ダイアログに入力する方法を私は知りませんが、別のエディタで入力してコピペしてくる、とかできっと入力できるはず。