用“實例”說話!貝瑞基因邀您見證UDI“保真”建庫如何出奇制勝

自從

UDI建庫打卡過后

貝瑞主流測序業務早已按耐不住內心的躁動

紛紛投向了UDI建庫

至今已樂不思蜀地運行了兩個多月

從此

“外來物種”基本就要告別了

數據污染也要成為難得一見的反常現象了

BUT

你以為這就是全部了

No No No

還有一波實際案例在暗流涌動

那么

這個暑假仍在科研的童鞋們

你們準備好貝瑞數據的洗禮了嗎

 

 

案例一

WES?UDI建庫數據污染“短兵相接”

與人全基因組相比,全外顯子組測序覆蓋深度更深,數據準確度更高,更加經濟高效,所以常用于尋找單基因病、復雜疾病等遺傳病和癌癥等致病基因和易感基因的研究。

基于外顯子組測序的廣泛應用,我們對一組人WES文庫進行UDI建庫測序,然后分別通過i7和i5單端index、UDI雙端index進行數據拆分,進而評估UDI對數據污染問題的改善效果。首先,我們將三種不同拆分方式所得數據與人參考基因組進行比對,比對結果(見表1)顯示,UDI建庫拆分數據與人參考基因組的mapping率平均達到了99.95%,幾乎可以全部比對,遠遠超過了任一單index拆分數據的mapping率。

表1?人WES UDI文庫中不同數據拆分方法的Mapping 率

 

然后,我們對于單獨使用i7端或i5端index單獨拆分數據中,比對不到人基因組的reads做blast分析,發現有35-70% reads無法比對到任何物種,余下30-65% reads均來自同lane其他文庫,從而可確認為同lane間發生的index串擾。

表2 Unmapped reads 做blast分析結果示例

 

既然拆分條件更嚴格了,那么必定伴隨著一定的數據量損失。所以,為了給您一顆定心丸,我們又繼續統計了三種拆分方式所得的數據量。結果(表3)顯示,UDI拆分在雙端index都完美匹配的情況下,僅僅會平均損失約3.5%的reads,而單獨使用i7端或i5端index拆分多出的這平均3.5%的reads,幾乎都是同lane其他物種的串擾。也就是說,我們以可忽略的數據量損失,就能避免數據污染問題,可以說是很值了!

表3??人WES UDI文庫不同數據拆分方法所得reads對比

?

?

案例二

UDI加持,PCR-free文庫“所向披靡”無懼index串擾

血漿游離DNA,即cfDNA(cell-free DNA),是血漿中游離存在的DNA,主要來源于正常細胞、異常細胞(如腫瘤細胞)和外部(如病毒DNA)。其中來源于腫瘤細胞的部分稱為血液循環腫瘤DNA,即ctDNA(circulating tumor DNA)。cfDNA為非侵入式取樣,更易獲得,可多次取樣,尤其適用于難取到的腫瘤組織研究,可用于癌癥早期診斷、用藥和監測。基于此熱點,我們對cfDNA不同建庫方式導致的數據污染情況進行了分析。

 

1. PCR-free文庫傳統單端index建庫

首先,我們來看下數據污染問題最嚴重的PCR-free文庫。上一篇中我們介紹了PCR-free文庫由于連接頭后沒有PCR擴增步驟,而是直接純化出庫,導致PCR-free文庫當中的接頭殘留量相對較高,從而更容易受到數據串擾的影響(詳細內容請看鏈接測序數據離奇污染?看貝瑞基因抽絲剝繭,UDI“保真”建庫一招制敵)。為了讓各位看官眼見為實,我們特意測試了cfDNA的PCR-free文庫,并且是傳統單端index建庫的案例,整條lane中文庫的物種構成詳見如下表4。

表4?PCR-free文庫單lane中測序端物種構成

 

然后我們將cfDNA WGS測序結果拆分的數據進行比對,結果(表5)發現,4個樣本數據都發生了嚴重的數據污染,平均僅有48.47%的數據可比對到人的參考基因組。而unmapped reads經Nt庫blast,發現除約20%的reads無法比對外,其余reads均比對到了同lane中的其他物種,表明同lane間發生了嚴重的數據串擾。

表5?人PCR-free文庫測序數據比對到各物種的比例

 

2.PCR文庫傳統單端index建庫

相對于PCR-free文庫,PCR文庫多了一步PCR擴增步驟,所受index串擾就會相對較小。本次,我們仍然拿實際案例來說話。如下表6為PCR文庫單lane中測序端物種構成,并且為傳統單端index建庫。

表6??PCR文庫單lane中測序端物種構成

 

數據下機后,我們依然選取了人類樣本(cfDNA WGS)的數據拆分比例進行分析。結果(表7)顯示,4個樣本比對到人參考基因組的比例,相對于PCR-free文庫有了很大的提升,平均占84.44%。這相對于PCR-free文庫的48.47%,已經是一個顯著的進步。但是!看unmapped reads的blast結果,我們仍然能夠看到同lane其他物種數據的串擾!

表7?人PCR文庫測序數據比對到各物種的比例

 

3.PCR-free文庫UDI建庫

雖然PCR文庫相對于PCR-free文庫已經是抵抗數據污染的強者,但是在UDI建庫面前還是不能匹及。為了體現UDI建庫的神級表現,我們選取最弱的PCR-free文庫來進行拯救。同樣的建庫測序后,發現PCR-free文庫經過UDI建庫的保駕護航,比對到人參考基因組的數據占比平均值都提升到了94.49%,相對于之前的48.47%,已經達到了質的飛越。同時,將unmapped reads經Nt庫blast,未發現reads比對到同lane其他物種,表明幾乎無串擾發生!

表8??人類樣本PCR-free?UDI文庫測序數據比對到參考基因組的比例

 

看了這么多表格,您是不是有點暈暈乎乎了。注意,要劃重點啦!

1、UDI建庫能夠以可忽略的數據損失,避免數據污染問題,使得拆分的數據幾乎可以全部比對到參考基因組。

2、加入UDI之后,即使是最易產生數據污染的PCR-free文庫,拆分后的有效數據比例也之前的48.47%提升到94.49%,有效避免index串擾問題。

目前貝瑞基因已穩定運行兩個多月的UDI“保真”建庫測序服務,后續也將不斷的推行至更多的測序項目中,為每一位科研工作者的每一份樣本提供“保真”建庫測序服務,同時,也會盡力協助自建庫項目的前期UDI接頭替換,切實解決index串擾問題!

 

詳情咨詢請聯系貝瑞基因當地銷售或致電010-84409702/或發電子郵件至郵箱[email protected]。關注“貝瑞基因科技服務”微信公眾號,獲取最新資訊。