1分子リアルタイムシーケンシング

PacBio RSII

一分子リアルタイムシーケンシング(英:Single-molecule real-time sequencing;SMRT Sequencing)または一分子リアルタイムシーケンスとは、並列化された単一分子DNAシーケンスの手法の一つであり、Pacific Biosciences of California社(アメリカ)から発売されているPacBioシーケンサープラットフォーム上で動作する。SMRTシーケンスでは、ゼロモード導波路(zero-mode waveguide)を利用しており[1]DNAポリメラーゼ酵素が一つずつZMWの底部に固定されている。そして、この酵素がテンプレートのDNA分子を一つづつ取り込む。ZMWは、DNAポリメラーゼによって取り込まれるDNAを1ヌクレオチド単位で観察することができるような、極小の蛍光観察を行える場を構成する構造をとっている。4種類のDNA塩基は各々異なる蛍光色素が付着しており、ヌクレオチドがDNAポリメラーゼによって取り込まれることで蛍光タグが切断されて蛍光が発せられ、またその蛍光タグは迅速にZMWの観察領域から拡散することで蛍光が観察されなくなる。検出器は、ヌクレオチド取り込み時に発せられるこの一瞬の蛍光シグナルを検出し、その蛍光色素に対応する塩基に従うことで、ベースコールが行われる[2]

技術

この技術においてDNAシーケンスは、多数のZMWを含むチップ上で行われる。各ZMWの内部では、1本鎖DNAをテンプレートとして取り込む活性を持つDNAポリメラーゼが、1分子ずつ底部に固定化されている、そして、そこから光が透過して1分子レベルでDNAポリメラーゼの活性をモニタリングできるような、可視化チャンバーが作成されている。DNAポリメラーゼによって取り込まれたリン酸化ヌクレオチドからのシグナルは、DNA合成の進行中に検出されるため、シーケンス中のリアルタイムで塩基配列を決定することができる。

リン酸化ヌクレオチド

各ヌクレオチド塩基について、対応する蛍光色素分子が設定されている。この蛍光色素分子は、ヌクレオチドのリン酸鎖に付着している。 ヌクレオチドがDNAポリメラーゼによって取り込まれると、DNA鎖を伸長するために作成される自然のDNA合成プロセスの一部として、蛍光色素をつないでいるリン酸ジエステル結合が切断される。その際に蛍光が発せられ、これを検出器によって測定することで、DNA合成を実行する中で今何の塩基がDNAポリメラーゼによって組み込まれているかを識別することができる。切断された蛍光色素分子は、速やかに検出容器内から拡散するため、蛍光シグナルが検出されなくなる[3]

ゼロモード導波路

ゼロモード導波路(ZMW)は、透明なシリカ基板上に堆積したアルミニウムクラッドフィルムの円形の穴からなる、ナノフォトニックを閉じ込める構造になっている[4]。ZMWホールは直径〜70 nmほどであり、深さは〜100 nmほどである。小さなアパーチャを通過するときの光の振る舞いにより、光場はチャンバー内で指数関数的に減衰する[5]。照らされるZMW内の観測容積は〜20ゼプトリットル(20 X 10 -21リットル)程度である。このボリューム内で、単一ヌクレオチドを組み込んだDNAポリメラーゼの活性を検出する[3]

シーケンス性能

シーケンスの性能は、それぞれの実験におけるリード長と総スループットから測定することができる。

2018年9月19日、Pacific Biosciences [PacBio]社は、Sequel 6.0ケミストリーとそれに伴うソフトウェアバージョンをリリースした。高分子量DNAを使用した大きなインサートライブラリと、長さが約15,000塩基未満の短いインサートライブラリを使用した場合、対照的なパフォーマンスになることが示されている。具体的には、大きなテンプレートの場合、平均リード長は最大30,000塩基であるのに対し、挿入ライブラリが短い場合、平均分子長は最大100,000塩基で、同じ分子を環状に読み取る。 後者の短い挿入ライブラリの場合は、単一のSMRTセルから最大500億の塩基を生成する[6]

歴史

Pacific Biosciences [PacBio]社は、2010年後半にRS装置のベータ版をリリース[7]した後、2011年にSMRTシーケンスを商品化した[8]

RSおよびRS II

RS/RS II用のSMRTセル

最初に製品化された際のリード長は、平均で約1100塩基の正規分布を描いていた。2012年の初めにリリースされた新しいケミストリーキットでは、シーケンサーのリード長は長くなり、このケミストリーを試した初期の研究者は2500から2900塩基の平均リード長を報告している[9]。2012年後半にリリースされたXLケミストリーキットでは、平均リード長は4300塩基以上にまで増えた[10][11]

2013年8月21日、PacBioは新しいDNA / Polymerase Binding Kit P4をリリースした。このP4酵素の平均リード長は、C2シーケンシングケミストリーと組み合わせた場合は4,300塩基以上、XLケミストリーと組み合わせた場合は5,000塩基以上になった[12] 。酵素の精度はC2に類似しており、30倍から40倍の範囲でQV50に達する。そのため、このケミストリーでは、より少ないSMRTセルで、バリアントコールの精度を高めた高品質のアセンブリを行うことが可能になった 。また、BluePippinなどの電気泳動装置を使用して入力DNAサイズを事前に選択することで、7kbを超える平均リード長を得られた[13]

2013年10月3日、PacBioはPacBio RS IIの新しい試薬の組み合わせ、C3ケミストリーを備えたP5 DNAポリメラーゼ(P5-C3)をリリースした。同時に、シーケンスリードの長さは平均約8,500塩基まで延長され、最長のリードは30,000塩基を超えた[14]。SMRTセルあたりのスループットは、CHM1セルラインのシーケンス結果では約5億塩基にまで達した[15]

2014年10月15日、PacBioは、RS IIシステム用の新しいケミストリーであるP6-C4のリリースを発表した。これは、同社の第6世代のポリメラーゼと第4世代のケミストリーを表し、平均リード長をさらに延長して10,000〜15,000塩基程度になり、最長のものは40,000塩基を超えた。新しいケミストリーのスループットは、シーケンスされるサンプルに応じて、SMRTセルあたり5億から10億塩基になると予想された[16][17]。このケミストリーは、RS用にリリースされたものの最終バージョンとなった。

各テクノロジーにおけるスループットは、シーケンスされたDNA分子のリード長と、SMRTセルの総マルチプレックスの両方に影響される。SMRTセルのプロトタイプでは、並列DNAシーケンスを可能にする約3000 ZMWの穴が含まれていた。商業化時には、SMRTセルはそれぞれ2組の75,000で読み取られた150,000 ZMWの穴でパターン化された[18]。2013年4月、同社は「PacBio RS II」と呼ばれる新しいバージョンのシーケンサーをリリースした。これは、150,000 ZMWの穴をすべて同時に使用して、実験ごとのスループットを2倍にしている[19][20]。2013年11月の最高スループットモードでは、P5バインディング、C3ケミストリー、BluePippinサイズ選択を使用し、PacBio RS IIにおいて、SMRTセルあたり平均3億5000万塩基を産出し、また多いときには5億塩基を含むヒトゲノムのリードを産出したことが公式から発表された。ただし、このスループットは、シーケンスされるサンプルのタイプによって異なる[21] 。P6-C4ケミストリーの導入により、SMRTセルあたりの典型的なスループットは5億ベースから10億ベースに増加した。

RS/RS II パフォーマンス
C1 C2 P4-XL P5-C3 P6-C4
平均リード長(bp) 1100 2500〜2900 4300-5000 8500 10,000〜15,000
SMRTセルあたりのスループット(bp) 3,000万〜4,000万 6,000万〜1億 2億5000万〜3億 3億〜5億 5億〜10億

Sequel

Sequel用のSMRTセル

2015年9月、同社は、容量を100万ZMWホールに増加させた新しいシーケンス装置Sequel Systemの発売を発表した[22][23]。初期のSequelのリード長はRSに匹敵し、その後のケミカルの更新によってリード長はさらに増加した。2017年1月23日にリリースされた、V2ケミストリーでは、平均リード長は10,000〜18,000塩基に増加した[24]。2018年3月8日、2.1ケミストリーがリリースされた。 これにより、平均リード長は20,000塩基になり、半数のリードが30,000塩基を超えた。SMRTセルあたりの収量は、ラージインサートライブラリまたはショートインサート(アンプリコンなど)ライブラリのそれぞれで、100~200億塩基にまで増加した[25]。2018年9月19日、同社はSequel 6.0ケミストリーを発表した。平均リード長は、短い挿入ライブラリの場合は100,000塩基に、長い挿入ライブラリの場合は30,000塩基に増加した。SMRT Cellの収量は、より短い挿入ライブラリーで最大500億塩基にまで増加した[6]

Sequel パフォーマンス
V2 2.1 6.0
平均リード長(塩基) 10,000〜18,000 20,000〜30,000 30,000-100,000
SMRTセルあたりのスループット 5B-8B 10B-20B 20B〜50B

8Mチップ

8M SMRTセルのピペットチップ

2019年4月、同社は800万ZMWの新しいSMRTセルをリリースし[26]、SMRTセルあたりの想定スループットを8倍に増加させた[27]。2019年3月の58の早期アクセスの顧客によるレポートでは、長さが約15 kbのテンプレートでセルあたり250 GBのデータが生産され、より大きな分子のテンプレートではセルあたり67.4 GBのスループットが出たことが報告された[28]。現在、システムパフォーマンスは、高分子量の連続したリードまたは事前に修正されたHiFi(別名CCS)のリードによって報告されており、高分子量のリードの場合、全リードの約半分は長さが50 kbを超えている。

Sequel II 高分子量 パフォーマンス
早期アクセス 1.0 2.0
SMRTセルあたりのスループット 〜67.4 GB 最大160 GB 最大200 GB

HiFiリードのパフォーマンス測定には、繰り返し読まれたアンプリコンパスを利用して補正された、PhredスコアでQ20を超える品質の補正済み配列を利用している。アンプリコンの長さは最大で20kbに抑える必要がある。

Sequel II HiFi補正済みリード パフォーマンス
早期アクセス 1.0 2.0
SMRTセルごとの生リード 約250 GB 最大360 GB 最大500 GB
SMRTセルあたりの補正リード(> Q20) 〜25 GB 最大36 GB 最大50 GB

応用

一分子リアルタイム(SMRT)シーケンシングは、幅広いゲノミクス研究に適用できる。例えばde novoゲノムシーケンスにおいて、SMRTシーケンスからのリード長は、サンガーシーケンスによる手法と同等かそれ以上の性能を発揮する。より長いリード長を得られることで、de novoゲノムシーケンスとゲノムアセンブリが容易になる[2][29][30]。また、SMRTシーケンスとショートリードシーケンスの両方を併用したハイブリッドアセンブリにより、de novoゲノムアセンブリを行うことも行われている[31][32]。2012年に、細菌ゲノムのコンプリートゲノムを決定した査読済み論文が複数出版された[33][34]。長いSMRTシーケンスリードを使用したゲノムアセンブリのパイプラインも発表されており、Celera Assemblerの更新版を報告した論文が含まれる[35]。2013年には、細菌や古細菌のゲノムの大部分を完全にアセンブリしてコンプリートゲノムを決定するためにロングリードシーケンスが利用できると考えられるようになった[36]

SMRTシーケンスでは、環状にDNAテンプレートを作成するが、新しく合成されたDNA鎖をテンプレートから分離する鎖置換酵素を利用することで、一度のランで同じDNA分子を複数回リシーケンスすることができる[37]。2012年8月、この技術を利用し、SNPコーリング用のSMRTシーケンスを評価した研究がBroad Instituteから報告された[38]

また、ポリメラーゼの挙動を調べることで、その塩基がメチル化されているかどうかを推定することができる[39]。科学者たちは、メチル化やその他の塩基修飾を検出するための単一分子リアルタイムシーケンシングの使用を実証した[40][41][42]。2012年、SMRTシーケンスを使用して、6つの細菌の完全なメチロームを決定した論文が報告された[43]。また2012年11月には、大腸菌の発生株のゲノムワイドなメチル化に関する報告が発表された[44]

長いリードにより、5 'および3'末端を含む完全な遺伝子アイソフォームのシーケンスが可能になった。このタイプのシーケンシング手法は、アイソフォームやスプライスバリアントを調べる際に有用である[45][46]

SMRTシーケンスの応用例の一つとして、生殖腺遺伝学の研究において、親性腺モザイク症が疑われる家族を調査した研究が報告されている。長いリードにより、患者のハプロタイプの調べることが可能になり、突然変異の親の起源を探索することができる。また、深くシーケンシングを行うことで、精子細胞の対立遺伝子頻度を決定し、将来影響を受ける子孫の再発リスクを推定できることが報告されている[47][48]

参考文献

  1. ^ “Zero-Mode Waveguides for Single-Molecule Analysis at High Concentrations”. Science 299 (5607): 682–6. (2003). Bibcode: 2003Sci...299..682L. doi:10.1126/science.1079700. PMID 12560545. 
  2. ^ a b “Real-Time DNA Sequencing from Single Polymerase Molecules”. Science 323 (5910): 133–8. (2009). Bibcode: 2009Sci...323..133E. doi:10.1126/science.1162986. PMID 19023044. 
  3. ^ a b “Pacific Biosciences Develops Transformative DNA Sequencing Technology”. Pacific Biosciences Technology Backgrounder. 11/24/2008閲覧。
  4. ^ “Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures”. PNAS 105 (4): 1176–81. (2008). Bibcode: 2008PNAS..105.1176K. doi:10.1073/pnas.0710982105. PMC 2234111. PMID 18216253. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2234111/. 
  5. ^ “Improved fabrication of zero-mode waveguides for single-molecule detection”. J. Appl. Phys. 103 (3): 034301–034301–9. (2008). Bibcode: 2008JAP...103c4301F. doi:10.1063/1.2831366. https://semanticscholar.org/paper/21118902c86e9f275a6c65da43824acfeb9a63dd. 
  6. ^ a b “PacBio Post”. Twitter. 19 Sep 2018閲覧。
  7. ^ Karow J. “PacBio Ships First Two Commercial Systems; Order Backlog Grows to 44”. GenomeWeb. 3 May 2011閲覧。
  8. ^ Karow J. “PacBio Reveals Beta System Specs for RS; Says Commercial Release is on Track for First Half of 2011”. GenomeWeb. 7 Dec 2010閲覧。
  9. ^ Karow J (10 Jan 2012). “After a Year of Testing, Two Early PacBio Customers Expect More Routine Use of RS Sequencer in 2012”. GenomeWeb. 10 Jan 2012閲覧。
  10. ^ Heger M (13 Nov 2012). “PacBio's XL Chemistry Increases Read Lengths and Throughput; CSHL Tests the Tech on Rice Genome”. GenomeWeb. 13 Nov 2012閲覧。
  11. ^ Heger M (5 Mar 2013). “PacBio Users Report Progress in Long Reads for Plant Genome Assembly, Tricky Regions of Human Genome”. GenomeWeb. 5 Mar 2013閲覧。
  12. ^ “New DNA Polymerase P4 Delivers Higher-Quality Assemblies Using Fewer SMRT Cells”. PacBio Blog (21 Aug 2013). 21 Aug 2013閲覧。
  13. ^ lexnederbragt (19 Jun 2013). “Longing for the longest reads: PacBio and BluePippin”. In between lines of code. 19 Jun 2013閲覧。
  14. ^ “New Chemistry for PacBio RS II Provides Average 8.5 kb Read Lengths for Complex Genome Studies”. PacBio Blog (3 Oct 2013). 3 Oct 2013閲覧。
  15. ^ “Resolving the complexity of the human genome using single-molecule sequencing”. Nature 517 (7536): 608–11. (2014). doi:10.1038/nature13907. PMC 4317254. PMID 25383537. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4317254/. 
  16. ^ “Pacific Biosciences Releases New DNA Sequencing Chemistry to Enhance Read Length and Accuracy for the Study of Human and Other Complex Genomes”. Pacific Biosciences (15 Oct 2014). 15 Oct 2014閲覧。
  17. ^ “New Chemistry Boosts Average Read Length to 10 kb – 15 kb for PacBio® RS II”. PacBio Blog (15 Oct 2014). 15 Oct 2014閲覧。
  18. ^ “SMRT Cells, sequencing reagent kits, and accessories for the PacBio RS II”. Pacific Biosciences (2020年). 2020年5月17日閲覧。
  19. ^ “PacBio Launches PacBio RS II Sequencer”. Next Gen Seek (11 Apr 2013). 11 Apr 2013閲覧。
  20. ^ “New Products: PacBio's RS II; Cufflinks”. GenomeWeb (16 Apr 2013). 16 Apr 2013閲覧。
  21. ^ “Duke Sequencing Post”. Twitter (30 Aug 2013). 30 Aug 2013閲覧。
  22. ^ “PacBio Announces Sequel Sequencing System”. Bio-IT World (30 Sep 2015). 30 Sep 2015閲覧。
  23. ^ Heger M (1 Oct 2015). “PacBio Launches Higher-Throughput, Lower-Cost Single-Molecule Sequencing System”. GenomeWeb. 1 Oct 2015閲覧。
  24. ^ “New Chemistry and Software for Sequel System Improve Read Length, Lower Project Costs”. PacBio Blog (9 Jan 2017). 9 Jan 2017閲覧。
  25. ^ “New Software, Polymerase for Sequel System Boost Throughput and Affordability”. PacBio Blog (7 Mar 2018). 7 Mar 2018閲覧。
  26. ^ “PacBio Launches Sequel II System”. Bio-IT World (26 Apr 2019). 26 Apr 2019閲覧。
  27. ^ http://investor.pacificbiosciences.com/static-files/e53d5ef9-02cd-42ab-9d86-3037ad9deaec [リンク切れ]
  28. ^ Heger M (7 Mar 2019). “PacBio Shares Early-Access Customer Experiences, New Applications for Sequel II”. GenomeWeb. 7 Mar 2019閲覧。
  29. ^ “Origins of the E. coli Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany”. N. Engl. J. Med. 365 (8): 709–17. (2011). doi:10.1056/NEJMoa1106920. PMC 3168948. PMID 21793740. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3168948/. 
  30. ^ “The Origin of the Haitian Cholera Outbreak Strain”. N. Engl. J. Med. 364 (1): 33–42. (2011). doi:10.1056/NEJMoa1012928. PMC 3030187. PMID 21142692. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3030187/. 
  31. ^ “Tech Tips: Next-Generation Sequencing”. Genetic Engineering & Biotechnology News 32 (8). (2012). https://www.genengnews.com/magazine/180/tech-tips-next-generation-sequencing/4074/. 
  32. ^ Schatz M (7 Sep 2011). “SMRT-assembly approaches”. schatzlab.cshl.edu. 7 Sep 2011閲覧。
  33. ^ “Finished bacterial genomes from shotgun sequence data”. Genome Res. 22 (11): 2270–7. (2012). doi:10.1101/gr.141515.112. PMC 3483556. PMID 22829535. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3483556/. 
  34. ^ “A hybrid approach for the automated finishing of bacterial genomes”. Nat. Biotechnol. 30 (7): 701–7. (2012). doi:10.1038/nbt.2288. PMC 3731737. PMID 22750883. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3731737/. 
  35. ^ “Hybrid error correction and de novo assembly of single-molecule sequencing reads”. Nat. Biotechnol. 30 (7): 693–700. (2012). doi:10.1038/nbt.2280. PMC 3707490. PMID 22750884. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3707490/. 
  36. ^ “Reducing assembly complexity of microbial genomes with single-molecule sequencing”. Genome Biol. 14 (9): R101. (2013). arXiv:1304.3752. Bibcode: 2013arXiv1304.3752K. doi:10.1186/gb-2013-14-9-r101. PMC 4053942. PMID 24034426. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4053942/. 
  37. ^ “Validation of ITD mutations in FLT3 as a therapeutic target in human acute myeloid leukaemia”. Nature 485 (7397): 260–3. (2012). Bibcode: 2012Natur.485..260S. doi:10.1038/nature11016. PMC 3390926. PMID 22504184. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3390926/. 
  38. ^ “Pacific Biosciences Sequencing Technology for Genotyping and Variation Discovery in Human Data”. BMC Genom. 13 (1): 375. (2012). doi:10.1186/1471-2164-13-375. PMC 3443046. PMID 22863213. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3443046/. 
  39. ^ “Direct detection of DNA methylation during single-molecule, real-time sequencing”. Nat. Methods 7 (6): 461–5. (2010). doi:10.1038/nmeth.1459. PMC 2879396. PMID 20453866. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2879396/. 
  40. ^ “Characterization of DNA Methyltransferase Specificities Using Single-Molecule, Real-Time DNA Sequencing”. Nucleic Acids Res. 40 (4): e29. (2012). doi:10.1093/nar/gkr1146. PMC 3287169. PMID 22156058. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3287169/. 
  41. ^ “Sensitive and Specific Single-Molecule Sequencing of 5-hydroxymethylcytosine”. Nat Methods 9 (1): 75–7. (2011). doi:10.1038/nmeth.1779. PMC 3646335. PMID 22101853. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3646335/. 
  42. ^ “Direct Detection and Sequencing of Damaged DNA Bases”. Genome Integr. 2 (1): 10. (2011). doi:10.1186/2041-9414-2-10. PMC 3264494. PMID 22185597. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3264494/. 
  43. ^ “The Methylomes of Six Bacteria”. Nucleic Acids Res. 40 (22): 11450–62. (2012). doi:10.1093/nar/gks891. PMC 3526280. PMID 23034806. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3526280/. 
  44. ^ “Genome-wide Mapping of Methylated Adenine Residues in Pathogenic Escherichia Coli Using Single-Molecule Real-Time Sequencing”. Nat. Biotechnol. 30 (12): 1232–9. (2012). doi:10.1038/nbt.2432. PMC 3879109. PMID 23138224. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3879109/. 
  45. ^ “A Single-Molecule Long-Read Survey of the Human Transcriptome”. Nat. Biotechnol. 31 (11): 1009–14. (2013). doi:10.1038/nbt.2705. PMC 4075632. PMID 24108091. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4075632/. 
  46. ^ “Characterization of the human ESC transcriptome by hybrid sequencing”. PNAS 110 (50): E4821–30. (2013). Bibcode: 2013PNAS..110E4821A. doi:10.1073/pnas.1320101110. PMC 3864310. PMID 24282307. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3864310/. 
  47. ^ “Single Molecule Real-Time (SMRT) Sequencing Comes of Age: Applications and Utilities for Medical Diagnostics”. Nucleic Acids Res. 46 (5): 2159–68. (2018). doi:10.1093/nar/gky066. PMC 5861413. PMID 29401301. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5861413/. 
  48. ^ “A Novel Approach Using Long-Read Sequencing and ddPCR to Investigate Gonadal Mosaicism and Estimate Recurrence Risk in Two Families With Developmental Disorders”. Prenatal Diagnosis 37 (11): 1146–54. (2017). doi:10.1002/pd.5156. PMC 5725701. PMID 28921562. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5725701/.