快速獲得完美裝配細(xì)菌基因組
日期:2012-08-02 08:24:25
精確的基因組參照序列對微生物研究者來說具有很高的價值。因此,研究人員進(jìn)行了經(jīng)年累月的繁復(fù)實驗和復(fù)雜的計算,迄今已完成了約1800種細(xì)菌的基因組裝配。日前,美國哈佛-麻省理工博德研究所的研究人員應(yīng)用新方法,結(jié)合了shotgun鳥槍法全基因組測序、單分子測序和自動化計算軟件,對16個細(xì)菌樣本進(jìn)行了高質(zhì)量的基因組裝配,得到了品質(zhì)卓越的完成基因組。這一方法極大的減少了完成基因組裝配所花費(fèi)的時間和經(jīng)費(fèi)。該文章發(fā)表在Genome Research雜志上。
盡可能精確的了解基因組信息對于微生物學(xué)研究有著基礎(chǔ)性的意義。使用大規(guī)模平行測序的短讀序數(shù)據(jù)進(jìn)行de novo從頭裝配,這在過去曾被認(rèn)為是不可能完成的任務(wù),而現(xiàn)在終于可以借助新興技術(shù)得以實現(xiàn)。自動化標(biāo)準(zhǔn)測序方法所生成的基因組裝配具有優(yōu)良的品質(zhì),在某些情況下輔以少量的人工實驗,就能夠得到近乎完成的基因組。然而不論是在Sanger測序的年代還是在目前的短讀序時代,大多數(shù)基因組裝配都存在諸多錯誤和缺口。重要的是,基因組裝配最困難(快速進(jìn)化)的區(qū)域常常缺失或者產(chǎn)生錯誤。幸運(yùn)的是,細(xì)菌的基因組很小(一般2-6Mb),因此在許多情況下都能夠通過額外的工作進(jìn)行校正。目前,通過測序結(jié)合人工實驗和計算程序,有1800種細(xì)菌的基因組裝配已經(jīng)完成。不過此前的方法即繁復(fù)耗時又很昂貴,對快速經(jīng)濟(jì)的新基因組裝配方法的需求依然很大。
為此,博德研究所開發(fā)了應(yīng)用特殊算法的ALLPATHS-LG軟件,對shotgun全基因組測序數(shù)據(jù)進(jìn)行裝配。該方法結(jié)合了Illumina和Pacific Biosciences測序儀各自的技術(shù)優(yōu)勢,將其生成的三種數(shù)據(jù)類型進(jìn)行了混合。這些數(shù)據(jù)具有互補(bǔ)性,在理論上具有精確裝配整個基因組的能力。并且這一方法和數(shù)據(jù)處理基本都是自動化的,最大程度的減少了時間和經(jīng)費(fèi)的消耗。
該方法采用的數(shù)據(jù)是Illumina生成的短讀序片段、Pacific Biosciences生成的長讀序和Illumina生成的jumping pairs數(shù)據(jù)。這些數(shù)據(jù)可以互相取長補(bǔ)短,Illumina技術(shù)在測序時由于樣品制備環(huán)節(jié)的擴(kuò)增偏好會導(dǎo)致某些區(qū)域的覆蓋度不足或缺失,而Pacific Biosciences的單分子測序技術(shù)不需要進(jìn)行擴(kuò)增,可以很好的覆蓋上述區(qū)域。同時堿基讀取精確度高的Illumina數(shù)據(jù)也彌補(bǔ)了Pacific Biosciences數(shù)據(jù)的不足。研究中用于生成jumping pairs的片段大小范圍很廣,能夠覆蓋相當(dāng)長的距離(5 kb以上),這樣做犧牲了一定的精確度。不過,Pacific Biosciences單分子測序的讀取對于中等距離很有效,彌補(bǔ)了這一缺陷。
研究人員充分利用了三種數(shù)據(jù)的優(yōu)勢,結(jié)合精確度、偏好性和分辨率開發(fā)了新的裝配算法。他們首先將短讀序進(jìn)行校正,應(yīng)用精確度高的短讀序進(jìn)行裝配,隨后再用長讀序和jumping pairs填補(bǔ)其中的缺口。這一過程的算法被整合入ALLPATHS-LG軟件,輸入長讀序數(shù)據(jù)后該模塊會自動啟動。
這種方法產(chǎn)生的裝配能夠兼容位點(diǎn)模糊性local ambiguities,允許裝配的位點(diǎn)中存在兩種或兩種以上的可能。這種模糊性可能是測序的系統(tǒng)性誤差產(chǎn)生的,也有可能是由裝配難以區(qū)分的重復(fù)拷貝引起的,或者是因為DNA樣本中確實存在混合性位點(diǎn)。原核生物在培養(yǎng)過程中的突變,以及真核細(xì)胞基因組中的等位基因多態(tài)性都可能造成這一現(xiàn)象。
研究人員應(yīng)用這一新方法,對16種細(xì)菌樣本進(jìn)行了基因組裝配,其中有三種細(xì)菌的基因組是已完成的,可作為研究的參照序列。作為參考序列的三種細(xì)菌分別是大腸桿菌E. coli、肺炎鏈球菌S. pneumoniae和類球紅細(xì)菌R. sphaeroides。這些菌種基因組的GC含量范圍很廣,從27%到69%,可以反映不同GC含量下裝配策略的有效性。
研究人員發(fā)現(xiàn)裝配的結(jié)果與參照序列存在差異,要正確評價裝配的質(zhì)量就必須解讀這些差異。在早前發(fā)表的文章中,研究人員曾對E. coli參照序列進(jìn)行了6處校正,對R.sphaeroides參照序列進(jìn)行了374處校正。在本研究中,研究人員通過PCR、Sanger測序等方法進(jìn)行驗證,進(jìn)一步校正了參照序列,其中E. coli校正1處,R. sphaeroides校正32處。研究人員還獲取了生成S. pneumoniae參照序列的原始讀序數(shù)據(jù),使他們得以對參照序列的原始測序數(shù)據(jù)和新讀序數(shù)據(jù)進(jìn)行綜合性的差異分析,當(dāng)然這種差異也可能是由兩個樣品真實序列的不同所引起的。因為無法得到生成參考序列的原始DNA樣本,研究人員還不能完全解釋這種差異,不過他們評估了參考序列的錯誤率。S. pneumoniae參考序列和新數(shù)據(jù)中存在63處差異,研究人員經(jīng)過驗證發(fā)現(xiàn),其中60處都是新方法的檢出正確。其余的三處,新舊兩種結(jié)果都可以說是正確的,這可能是樣品自身帶來的差異。
利用新方法, E. coli參考基因組的裝配生成了一個環(huán)形重疊群contig,基本確定了所有堿基(除一個堿基以外)。R. sphaeroides基因組裝配成兩個染色體,五個質(zhì)粒,形成11個重疊群。而S. pneumoniae的基因組裝配也形成了一個環(huán)形重疊群,其中存在6個模糊微點(diǎn),沒有錯誤。這樣的裝配結(jié)果非常完美,首先三種參照樣本的基因組裝配結(jié)果都沒有缺口,其次形成的重疊群都是基本完整的染色體(或質(zhì)粒),此外裝配結(jié)果的總體精確度比參考序列高。
研究人員隨后很自然的想到,所用到的三種數(shù)據(jù)類型是否還可以進(jìn)行精簡。他們進(jìn)行了相應(yīng)的研究,發(fā)現(xiàn)對算法進(jìn)行充分改進(jìn)后,可以不用到短讀序數(shù)據(jù),因為jumping讀取就能提供高質(zhì)量的覆蓋度。但去除長片段讀序數(shù)據(jù)則會對裝配結(jié)果造成嚴(yán)重的影響,因此長讀序數(shù)據(jù)不可或缺。
除了生成更長讀序之外,改進(jìn)實驗技術(shù)也能夠提高基因組裝配的質(zhì)量,例如進(jìn)一步減少擴(kuò)增偏好。這對于一些GC含量特別高或特別低的病原體尤為重要,例如結(jié)合分支桿菌Mycobacterium tuberculosis (高GC) 和惡性瘧原蟲Plasmodium falciparum (低GC)。通過優(yōu)化DNA提取方案和jumping文庫建立步驟,也可以提高jumping文庫銜接長重復(fù)片段的能力。
研究人員還強(qiáng)調(diào),本文中的方法是為可培養(yǎng)菌株DNA設(shè)計的,細(xì)菌可以從單個細(xì)胞繁殖成為一個菌落,這對于基因組裝配是一個挑戰(zhàn)。博德研究所的這種全自動化一鍵式新方法,對所有細(xì)菌樣品都適用默認(rèn)參數(shù),并且能達(dá)到極高的精確度。目前該方法僅用于細(xì)菌基因組,要裝配更大的基因組需要對算法進(jìn)行相應(yīng)變動。
完美的細(xì)菌基因組裝配非常重要,因為基因缺失、裝配錯誤或者堿基錯誤等會導(dǎo)致人們對測序生物得出錯誤的生物學(xué)和進(jìn)化史結(jié)論。早期對細(xì)菌基因組進(jìn)行測序,需要耗費(fèi)極大的精力和資源才能得到完整的環(huán)形基因組。隨著越來越快的新測序技術(shù)的出現(xiàn),人們?yōu)榱俗非笏俣群偷统杀荆鶢奚嘶蚪M裝配的完美性。現(xiàn)在人們的確可以很快裝配出基因組草圖,但這離完美的基因組裝配還差的很遠(yuǎn)。博德研究所開發(fā)的新方法基于快速測序技術(shù)和新的裝配方式,得出的裝配結(jié)果比已完成的參考基因組序列更好,這種方法即低廉又快速,費(fèi)用比從前降低了一個數(shù)量級。
博德研究所的研究人員以相對較低的成本,快速裝配出了近乎完美的細(xì)菌完成基因組。通過這一新方法,任何有測序數(shù)據(jù)和計算機(jī)的研究者都能生成高質(zhì)量的基因組裝配,這對于細(xì)菌基因組研究非常關(guān)鍵。舉例來說,這一技術(shù)可以應(yīng)用于細(xì)菌傳染病學(xué),為人們提供精確的信息,來追蹤致病菌的毒力和抗性在細(xì)菌群體中的出現(xiàn)和傳播。研究人員總結(jié)道,基因組裝配的完美化對許多領(lǐng)域都非常重要,隨著未來技術(shù)的發(fā)展,長讀序錯誤率的減少會使基因組裝配更加容易。
編者按:此前2012年7月1日的Nature Biotechnology雜志上曾刊登了冷泉港實驗室(CSHL)研究人員的文章,他們開發(fā)了混合錯誤校正方法,先將短讀序定位到Pacific Biosciences的長讀序上,再進(jìn)行裝配。這種方法不僅極大地提高了準(zhǔn)確性,同樣也能用于裝配高質(zhì)量的完成基因組。(見:基因組裝配新前沿:長片段完成完整的基因組,新技術(shù)攻克單分子測序大問題






