新華社北京12月23日電(記者董瑞豐)我國的生物組學數(shù)據(jù)產(chǎn)量約占全球的40%,卻沒有國際認可的數(shù)據(jù)庫系統(tǒng),不得不把自己寶貴的數(shù)據(jù)資源交給他人代管——這樣的情況即將改變。中國科學院北京基因組研究所近日宣布,已初步建成生命與健康數(shù)據(jù)匯交與共享平臺,我國科學家的數(shù)據(jù)能自己做主了。
記者從北京基因組研究所得悉,該所下屬的生命與健康大數(shù)據(jù)中心圍繞國家精準醫(yī)學和重要戰(zhàn)略生物資源的組學數(shù)據(jù),建立了海量生物組學大數(shù)據(jù)儲存、整合與挖掘分析研究體系。
什么是組學?大數(shù)據(jù)中心研究員章張介紹,這是將基因、蛋白質(zhì)及代謝物等生物分子以整體為單位進行系統(tǒng)性的研究,基因組學、轉(zhuǎn)錄組學、蛋白質(zhì)組學和代謝物組學等相應產(chǎn)生。相較于此前以個體為單位的研究,組學最主要的特征就是大數(shù)據(jù)。
隨著測序技術(shù)的發(fā)展,生命科學領域進入組學時代,海量的數(shù)據(jù)產(chǎn)出成為常態(tài)。搭建組學數(shù)據(jù)庫,實現(xiàn)海量信息的存儲、整合及共享成為一項重要任務。此前,在國際上被認可的生物組學數(shù)據(jù)中心主要有美國的NCBI、歐洲的EBI及日本的DDBJ。要想在國際期刊發(fā)表論文,需要先將自己的原始數(shù)據(jù)提交到這三個數(shù)據(jù)庫中。
章張說,這種情況看似有利于國際科學數(shù)據(jù)的資源整合與共享,實際上對我國的科學研究發(fā)展帶來了很大影響,不僅數(shù)據(jù)提交時效率低,在數(shù)據(jù)下載時更有各種限制。
大數(shù)據(jù)中心高級工程師趙文明告訴記者,《美國國家科學院院刊》《細胞研究》等多個國際期刊已經(jīng)認可把數(shù)據(jù)提交到北京基因組研究所生命與健康大數(shù)據(jù)中心,標志著我國建設綜合性基因組數(shù)據(jù)資源獲得國際同行認可。
據(jù)了解,目前的數(shù)據(jù)資源系統(tǒng)包括高通量測序的原始組學數(shù)據(jù)歸檔庫,圍繞國家重要戰(zhàn)略生物資源的基因組數(shù)據(jù)庫,基于測序數(shù)據(jù)的基因表達數(shù)據(jù)庫,基于中國人群以及國家重要物種群體的基因組變異數(shù)據(jù)庫,基于全基因組DNA甲基化圖譜的表觀基因組數(shù)據(jù)庫,以及基于大眾審編的生命科學維基知識庫。
該研究主要在中科院戰(zhàn)略先導專項和國際大科學計劃的支持下完成。