基本介紹
1.概述
DNA測序(DNA sequencing)作為一種重要的實(shí)驗技術(shù),在生物學(xué)研究中有著(zhù)廣泛的應用。早在DNA雙螺旋結構(Watson and Crick,1953)被發(fā)現后不久就有人報道過(guò)DNA測序技術(shù),但是當時(shí)的操作流程復雜,沒(méi)能形成規模。隨后在1977年Sanger發(fā)明了具有里程碑意義的末端終止測序法,同年A.M.Maxam和W.Gilbert發(fā)明了化學(xué)降解法。Sanger法因為既簡(jiǎn)便又快速,并經(jīng)過(guò)后續的不斷改良,成為了迄今為止DNA測序的主流。然而隨著(zhù)科學(xué)的發(fā)展,傳統的Sanger測序已經(jīng)不能完全滿(mǎn)足研究的需要,對模式生物進(jìn)行基因組重測序以及對一些非模式生物的基因組測序,都需要費用更低、通量更高、速度更快的測序技術(shù),第二代測序技術(shù)(Next-generation sequencing)應運而生。第二代測序技術(shù)的核心思想是邊合成邊測序[1](Sequencing by Synthesis),即通過(guò)捕捉新合成的末端的標記來(lái)確定DNA的序列,現有的技術(shù)平臺主要包括Roche/454 FLX、Illumina/Solexa genome Analyzer和Applied Biosystems SOLID system。這三個(gè)技術(shù)平臺各有優(yōu)點(diǎn),454 FLX的測序片段比較長(cháng),高質(zhì)量的讀長(cháng)(read)能達到400bp;Solexa測序性?xún)r(jià)比最高,不僅機器的售價(jià)比其他兩種低,而且運行成本也低,在數據量相同的情況下,成本只有454測序的1/10;SOLID測序的準確度高,原始堿基數據的準確度大于99.94%,而在15X覆蓋率時(shí)的準確度可以達到99.999%,是目前第二代測序技術(shù)中準確度最高的。雖然第二代測序技術(shù)的工作一般都由專(zhuān)業(yè)的商業(yè)公司來(lái)完成,但是了解測序原理、操作流程等會(huì )對后續的數據分析有很重要的作用,下文將以Illumina/Solexa Genome Analyzer 測序為例,簡(jiǎn)述第二代測序技術(shù)的基本原理、操作流程等方面。
2.基本原理
Illumina/Solexa Genome Analyzer測序的基本原理是邊合成邊測序。在Sanger等測序方法的基礎上,通過(guò)技術(shù)創(chuàng )新,用不同顏色的熒光標記四種不同的dNTP,當DNA聚合酶合成互補鏈時(shí),每添加一種dNTP就會(huì )釋放出不同的熒光,根據捕捉的熒光信號并經(jīng)過(guò)特定的計算機軟件處理,從而獲得待測DNA的序列信息。
3.操作流程
1)測序文庫的構建(Library Construction)
首先準備基因組DNA(雖然測序公司要求樣品量要達到200ng,但是Gnome Analyzer系統所需的樣品量可低至100ng,能應用在很多樣品有限的實(shí)驗中),然后將DNA隨機片段化成幾百堿基或更短的小片段,并在兩頭加上特定的接頭(Adaptor)。如果是轉錄組測序,則文庫的構建要相對麻煩些,RNA片段化之后需反轉成cDNA,然后加上接頭,或者先將RNA反轉成cDNA,然后再片段化并加上接頭。片段的大?。↖nsert size)對于后面的數據分析有影響,可根據需要來(lái)選擇。對于基因組測序來(lái)說(shuō),通常會(huì )選擇幾種不同的insert size,以便在組裝(Assembly)的時(shí)候獲得更多的信息。
2)錨定橋接(Surface Attachment and Bridge Amplification)
Solexa測序的反應在叫做flow cell的玻璃管中進(jìn)行,flow cell又被細分成8個(gè)Lane,每個(gè)Lane的內表面有無(wú)數的被固定的單鏈接頭。上述步驟得到的帶接頭的DNA 片段變性成單鏈后與測序通道上的接頭引物結合形成橋狀結構,以供后續的預擴增使用。
3)預擴增(Denaturation and Complete Amplification)
添加未標記的dNTP 和普通Taq 酶進(jìn)行固相橋式PCR 擴增,單鏈橋型待測片段被擴增成為雙鏈橋型片段。通過(guò)變性,釋放出互補的單鏈,錨定到附近的固相表面。通過(guò)不斷循環(huán),將會(huì )在Flow cell 的固相表面上獲得上百萬(wàn)條成簇分布的雙鏈待測片段。
4)單堿基延伸測序(Single Base Extension and Sequencing)
在測序的flow cell中加入四種熒光標記的dNTP 、DNA 聚合酶以及接頭引物進(jìn)行擴增,在每一個(gè)測序簇延伸互補鏈時(shí),每加入一個(gè)被熒光標記的dNTP就能釋放出相對應的熒光,測序儀通過(guò)捕獲熒光信號,并通過(guò)計算機軟件將光信號轉化為測序峰,從而獲得待測片段的序列信息。從熒光信號獲取待測片段的序列信息的過(guò)程叫做Base Calling,Illumina公司Base Calling所用的軟件是Illumina’s Genome Analyzer Sequencing Control Software and Pipeline Analysis Software。讀長(cháng)會(huì )受到多個(gè)引起信號衰減的因素所影響,如熒光標記的不完全切割。隨著(zhù)讀長(cháng)的增加,錯誤率也會(huì )隨之上升。
5)數據分析(Data Analyzing)
這一步嚴格來(lái)講不能算作測序操作流程的一部分,但是只有通過(guò)這一步前面的工作才顯得有意義。測序得到的原始數據是長(cháng)度只有幾十個(gè)堿基的序列,要通過(guò)生物信息學(xué)工具將這些短的序列組裝成長(cháng)的Contigs甚至是整個(gè)基因組的框架,或者把這些序列比對到已有的基因組或者相近物種基因組序列上,并進(jìn)一步分析得到有生物學(xué)意義的結果。