測序數據離奇污染?看貝瑞基因抽絲剝繭,UDI“保真”建庫一招制敵

一場嘔心瀝血的奮戰

終于成就了集顏值與內涵于一體的DNA樣本

于是承載著數日的心血與美好的愿景

被妥妥地送往測序公司

盡情施展它的ATCG

一切都似順利

期盼結果如意

誰知偏偏

遭遇了外來物種

內心一陣陣吶喊

為何我堂堂水稻樣本

卻blast出了人、小鼠、山羊、細菌…

為了揪出入侵者的隱匿之處

我和測序公司強強聯合

開展了一系列無死角偵查工作

提取:樣本準備實驗室無“外來物種”

建庫:測序公司同一批樣本中無“外來物種”

上機:測序公司同一條lane中竟存在人、小鼠、山羊、細菌文庫

作為測序公司,對此該作何解釋?!

 

1??究竟發生了什么?一個被忽視的“陷阱”

作為NovaSeq 6000早期的踐行者,貝瑞基因自設備運行之初便嚴密關注數據污染問題,較早啟動了相關研發測試工作。在測試過程中我們發現,以HiSeq3000/4000、HiSeq X Ten和NovaSeq為代表的測序平臺在運行單index文庫時均存在一定程度的樣本間數據污染問題。盡管造成污染的可能原因有多種,如接頭制備時的交叉污染、樣品間的交叉污染、建庫實驗的交叉污染,以及捕獲實驗多雜一等,但真正讓數據污染問題變得普遍到讓人聞風喪膽的“罪魁禍首”,卻是一個叫做標簽跳躍(Index Hopping)的“新手”。眾所周知,為提高測序產出通量,上述測序平臺均采用了規則流動槽(Patterned Flow Cell Technology, PFCT)芯片和排他性擴增(Exclusive Amplification, ExAmp)成簇兩種新技術,然而利劍有雙刃,也正是這兩個新技術使得pooling在一起的文庫更容易發生標簽跳躍,導致標簽錯配(Index Misassignment),進而造成樣品間數據污染。該現象及其原理早在Illumina于2017年4月發布的官方白皮書中就有過詳細介紹,但時至今日,這一問題似乎并未引起足夠的重視。

圖1? 來自Illumina官方白皮書(詳見以下鏈接)

https://www.illumina.com/science/education/minimizing-index-hopping.html

每個文庫通過其獨有的index實現數據拆分,傳統的Illumina文庫往往只引入一個index(通常是i7),那么對于單index文庫,一旦發生標簽跳躍,測序數據就會被錯誤分配。正如下圖所示,“Normal Multiplexing and Alignment”中樣本間index未發生交叉污染,同一批樣本的數據就可以被拆分到一起。而“Index Hopping and Misalignment”中發生了標簽跳躍,導致了在數據拆分過程中混入了“外來物種”。

圖2? 建庫測序流程圖

 

2??真相只有一個——看貝瑞如何“抽絲剝繭

標簽跳躍如何發生?

為什么與規則流動槽、排他性擴增有關?

簇生成(clustering)是Illumina測序反應前必經的步驟,在HiSeq2500之前,簇生成采用我們熟知的橋式擴增方法,即是在flowcell表面以P5和P7 oligo為引物進行的PCR擴增過程。自HiSeq3000/4000和HiSeq X Ten系統開始,到最新的NovaSeq 6000,簇生成均采用了單分子在patterned flowcell nanowell當中進行的排他性擴增技術,由于這一擴增過程采用等溫擴增原理,事實上擴增反應在pooling文庫變性為單鏈而尚未loading進入nanowell時已經開始。

盡管傳統文庫出庫前都有純化步驟,但事實上其中總會有少量接頭或接頭二聚體殘留,當文庫被pooling在一起并經變性之后,殘存的接頭便可成為引物對文庫進行等溫擴增。如下圖所示,由于不同單index文庫的接頭只在i7端位置不同,而臨近DNA insert的read2 SP序列(對引物配對很關鍵的3’端)相同,這就使得sample 2文庫殘存的含index 2的接頭作為引物可能錯搭在sample 1文庫分子上,由此擴增產生攜帶index 2的sample 1序列,由于單index拆分時無法區分這類序列和正確的sample 2測序序列,sample 2就此被sample 1數據串擾。事實上,同樣的串擾事件在pooling在一起的文庫之間大量交叉發生,其與文庫類型和物種來源并無直接關系,可謂“六親不認”,因此當一條lane pooling幾十上百個文庫時,這中間的串擾案情將無比復雜。

圖3? 使用常規index(左圖)和UDI(右圖)對測序數據的影響(圖片來自IDT)

通過添加先進的雙端序列標簽(Unique Dual Index, UDI)構建文庫,可以在數據拆分層面有效剔除串擾數據,即僅當i7和i5同時正確時(UDI設計當中,任何兩個UDI不會共用相同的i7和i5)數據才被拆分,否則將被剔除到unknown data當中,最大限度規避數據串擾風險。

自2018年5月,貝瑞基因已經完成全線主流測序業務的UDI替換,包括WGS、WES、WGBS、RNA-Seq、lncRNA-Seq等凡是會在NovaSeq 6000系統上測序的文庫,均已獲得貝瑞精心設計的一套UDI的“貼身防護”,由此保障我們每一位客戶的每一份樣本“清清白白”。

 

3??有圖有真相——見證貝瑞的“神級”表現

既然明白了文庫中殘留的接頭是造成標簽跳躍的元兇,我們就不難想象,什么樣的文庫更容易受到數據串擾影響。傳統的文庫構建流程往往包含PCR擴增步驟,并以PCR產物的純化回收結尾,這類文庫由于經過了PCR的指數級放大和最后一步純化,即使再有接頭殘留,也已顯得微不足道。相比之下,一直以來因無擴增偏好、覆蓋更均一而備受推崇的PCR-free文庫就沒有這么好運,由于連接頭后沒有PCR擴增步驟,而是直接純化出庫,這就導致PCR-free文庫當中的接頭殘留量相對遠高于PCR文庫,Illumina官方白皮書中也明確指出PCR-free文庫更易受到數據串擾的影響(見圖4)。

圖4? PCR文庫和PCR-free文庫在不同測序系統上的標簽跳躍情況

為了驗證這一理論,我們將一例貝瑞UDI(編號308308,即i7和i5編號均為308)PCR-free WGS文庫pooling在一條包含近50個文庫的lane中,NovaSeq 6000上機測序,數據經雙index流程拆分,僅當i7和i5序列均為308編號對應序列時,數據才會被歸屬到該樣品下。我們特意去關注unknown當中的數據,發現存在大量i7為308、而i5為其他編號index的數據,而這些雙index組合在建庫時是完全不存在的,這表明這例PCR-free文庫中殘留的含308 index的接頭大范圍地串擾到了其他文庫,要不是所有文庫都有UDI“金剛護體”,恐怕又會惹出不少冤假錯案。但即便如此,因串擾導致拆分率下降、有效數據損失過多仍然值得注意。從這個案例可以看到,index串擾現象,特別是在特殊類型文庫(如PCR-free文庫)當中,可謂觸目驚心,必須引起廣大科研工作者的高度警惕,并及時做出積極調整。

表? 1例UDI PCR-free WGS文庫的index串擾測試

注:表中只列出串擾占比前14位

 

4??授人以魚不如授人以漁——作客戶最貼心的伙伴

如果您也曾因數據被莫名污染而百思不得其解,因找不到真實原因而黯然傷神,因項目被延誤而痛心疾首,如果您是第一次聽說有index串擾這個問題,抑或是早有耳聞但未曾重視,相信讀過此文,您至少可以站在一個新的視角,去重新審視過去數據遭遇的問題,嘗試找到期盼已久的答案,享有來之不易的成果。

目前,如果您將樣品交給貝瑞基因建庫測序,您將直接享有貝瑞已穩定運行兩個多月的UDI“保真”建庫測序服務。

如果您希望在自己的實驗室內完成UDI接頭替換,并希望獲取相關技術支持,我們同樣為您準備了完整的解決方案,包括提供UDI Truseq接頭替換試用裝(前50位申請者將免費獲得一組經過貝瑞內部測試可放心使用的UDI,詳詢當地銷售),以及后續提供確有必要的一對一咨詢服務和技術支持。

貝瑞基因旨在為每一位科研工作者的每一份樣本提供“保真”建庫測序服務,助力科研追求最真、最美。

因為專業,值得信賴。下一期,我們將為大家分享更加詳實的貝瑞UDI測試結果,敬請期待。