重金創建基因組數據庫 貝瑞和康卡位基因解讀

來源:健康界

目前我國嬰兒的出生缺陷率達到5.6%,全民患腫瘤風險達到1/1000,如果能用基因測序的方式排除這些巨大的隱患,就具有重大的社會意義。

“科研領域,任何一個項目都不可能有100%成功的把握,但是我會盡力而為。尤其是最有挑戰性的技術項目,花再多的錢也值得嘗試!”接受健康界采訪時,北京貝瑞和康生物技術股份有限公司(以下簡稱貝瑞和康)CEO周代星如此評價公司正在重金建設的“神州基因組數據云”項目。

 

9月23日,在第十九屆全國臨床腫瘤學大會暨CSCO學術年會上,貝瑞和康公布了在生物信息分析領域和大數據建設方面做出的重要成果。憑借“神州基因組數據云”項目,貝瑞和康不僅為公司的基因測序業務擴張搭建了堅實的數據基礎平臺,也為公司在生物信息領域筑起了一道人才技術護城河。

基因測序“解讀”戰

“當基因測序成本在幾年前迅速下降以后,擁有數據量的多少不再是行業里唯一的競爭優勢,而是否能夠將海量的大數據進行解讀,轉換成具體能夠應用的有效信息,這才是測序企業發展的核心競爭力。受益于測序成本下降,中國非常有可能在生物基因信息解讀這一領域超越西方。” 貝瑞和康CIO于福利告訴健康界。

2015年4月24日,貝瑞和康宣布曾任職于美國貝勒醫學院(Baylor College of Medicine)的于福利教授正式加入貝瑞和康擔任首席生物信息官一職。作為全球范圍內生物信息分析領域的著名專家,于福利教授的加盟將進一步增強貝瑞和康的生物信息的研究與開發實力。

周代星告訴健康界,現在,獲得海量的基因數據已不再是制約,而基因行業最終將發展成為信息行業,信息的解讀與整合成為核心競爭力。于福利加盟貝瑞和康以前,公司一直與其保持長期合作,他的加入也是多年磨合的結果。

于福利加盟貝瑞和康后,公司就啟動了基因大數據分析項目。僅僅在一年后,腫瘤臨床學術年會(CSCO)公布了階段性成果,充分證實貝瑞和康的基因大數據分析能力已位居全球前列。

于博2于福利 ? 教授

貝瑞和康在該次大會上發布了中國40萬人基因組大數據項目在臨床應用層面上所取得的階段性成果,結果顯示中國人乳腺癌基因突變和其他人種相比具有顯著性差異。

于福利在報告中指出,現如今,獲得大數據已不再是數據庫建設的瓶頸,最關鍵的在于對數據的準確注釋解讀及其如何對臨床產生應用價值。

目前貝瑞和康集成40萬中國人群的基因組大數據還將持續累積,在此基礎上,通過開發的專利算法和應用平臺,挖掘中國人群特有突變并智能化生成分析結果,幫助臨床醫生結合患者表型進行醫療決策。而Enliven?變異注釋系統正在發揮出“千真萬確”的解讀作用,并將很快落地實施。

事實上,數據量的多寡以及數據分析能力的強弱,在歐美國家早已經成為了衡量一家基因公司強弱的標準。

于福利告訴健康界,Myriad genetics(MYGN)是美國一家分子診斷公司,主要業務集中于預測醫學、個性化醫學和臨床藥物檢測。其中最知名的基因檢測包括用于遺傳性乳腺癌和卵巢癌的BRAC Analysis,以及用于檢測遺傳性結腸癌和其他多種癌癥的COLARIS。由于Myriad genetics進行基因數據的分析解讀已有三十多年,在美國,很多醫生都在使用它的數據庫,醫學界對此也非常認可。

相比于Myriad 30多年的積累,國內企業在起步時間上顯然晚于美國。不過于福利告訴健康界,由于我們能夠很快地獲得大量數據,因此只要在數據解讀能力上快速突破,并非沒有可能實現彎道超車。

目前,對于貝瑞和康來說,已經掌握核心算法,接下來還需要積累更多數據。“神州基因組數據云”啟動項目時只有40萬人的數據。

“40萬肯定不夠,國際上做人類基因組數據庫,至少要100萬人的數據才能覆蓋所有的突變,因此我們還要繼續大量增加測序樣本量。”于福利告訴健康界。

解讀能力“卡位戰”

如何建立強大的解讀分析能力?顯然貝瑞和康已在摸索當中找到了一條可不斷復制和延續的成功路徑。

不同于其他領域的數據解讀,基因測序領域所需的計算分析能力,已經超過了一般的云計算概念。

于福利表示,參與“神州基因組數據云”項目的總人數達到了100多人,基本上來自于醫學、分子生物學、遺傳學、計算機編程等研究領域的博士。這是一個知識密集型項目。項目組分成三個團隊,一個是由幾位資深研究人員組成的貝瑞和康的團隊,一個是于福利本人在貝勒實驗室的團隊,另外一個則是專門做高性能運算的阿里云團隊。

據于福利回憶,阿里云團隊對數據云項目非常感興趣。只不過沒有料到難度如此之大。這個項目對軟硬件的要求連阿里云都感到吃驚。

有了完備的人才團隊之后,項目方舍不舍得下血本也是大數據項目能否成功的關鍵。于福利說,這個項目燒錢很快,一燒就在百萬級別。所以,先做小批量數據測試,測試方案做了半年,一遍不行就推倒重來。

周代星作為項目堅定的支持者,也對這樣的開銷感到驚訝。

但是,他認為解讀非常重要,其關鍵是如何把數據變成信息,再轉變為知識結構。比如,通過大規模人群調查,把健康人群和乳腺癌患者的數據進行比較,最終通過技術能夠80%地解決癌癥風險評估的問題。

北京大學腫瘤醫院解云濤教授在遺傳性婦科腫瘤的研究中始終精耕細作,2016年7月發表在Breast Cancer Res Treat雜志的一篇名為《Comprehensive analysis of BRCA1 and BRCA2 germline mutations in a large cohort of 5931 Chinese women with breast cancer》的文章中公布了5931例未經選擇的中國乳腺癌患者的BRCA1/2基因的攜帶情況。在CSCO會議上,他不僅分享了該研究的數據結果,還介紹了與貝瑞和康合作的依托高通量測序技術進行的“中國人遺傳性乳腺癌基因突變圖譜項目”,該項目包含近萬例婦科腫瘤(乳腺癌)患者樣本,通過高通量測序方法獲得檢測結果經一代測序驗證后,結果符合率達到99%以上,因此解教授認為未來用高通量測序進行腫瘤基因檢測在技術上無懈可擊。

于福利說,解云濤教授從事乳腺癌的研究和治療已有20年,解教授的研究團隊若想具備與解教授同等的疾病解析能力,則需要解教授把20年的學術經驗完全傳授給團隊成員,這又是何其艱難!目前國內欠缺對臨床咨詢的系統性教育和培訓,使得臨床醫生相關知識結構不完整,臨床咨詢能力不足。這需要好幾代人的經驗與知識的積累以及建立完備的教育與培訓體系。而貝瑞和康的“神州基因組數據云”項目正好可以補充這些不足。

于福利深感未來大數據庫的應用意義重大。“前幾天我去山東省做報告時,發現產前篩查日益受到重視。目前我國嬰兒的出生缺陷率達到5.6%,全民患腫瘤風險達到1/1000,如果能用基因測序的方式排除這些巨大的隱患,就具有重大的社會意義。”于福利感慨道。

“神州基因組數據云”項目的另一層意義則與我國醫療政策中正在力推的分級診療政策息息相關。通過與專家合作,大數據體系所提供的數據解讀能力能達到90%的覆蓋率,這將對基層臨床產生重要的指導意義。我們可以想象,在三線四線城市,醫生利用該數據云平臺分析基因測序數據,在當地可以獲得同樣質量的檢測分析,獲得和在大城市大醫院同等質量的報告,就能夠進一步促進實現分級診療。