國(guó)家生物信息中心發(fā)布基因序列數(shù)據(jù)庫(kù)GenBase
基因的序列和注釋信息(包括DNA、RNA和蛋白序列信息)是支撐基因功能研究的核心基礎(chǔ)數(shù)據(jù)之一。伴隨生物學(xué)的迅猛發(fā)展,在過(guò)去幾十年中,我國(guó)生命科學(xué)領(lǐng)域產(chǎn)出了海量的基因序列數(shù)據(jù)。為滿足我國(guó)科研人員在基因序列數(shù)據(jù)匯交、管理和共享過(guò)程中的現(xiàn)實(shí)需求,急需開(kāi)發(fā)相應(yīng)的基因序列數(shù)據(jù)庫(kù)。
近日,國(guó)家生物信息中心發(fā)布基因序列數(shù)據(jù)庫(kù)GenBase,并以“GenBase: A Nucleotide Sequence Database”為題在學(xué)術(shù)期刊Genomics Proteomics Bioinformatics?在線發(fā)表。
GenBase對(duì)標(biāo)美國(guó)國(guó)家生物信息中心NCBI的GenBank數(shù)據(jù)庫(kù),是一個(gè)存儲(chǔ)、管理、共享所有物種基因序列、注釋信息及其編碼蛋白質(zhì)序列的公共資源庫(kù),可為基因序列數(shù)據(jù)的匯交、存儲(chǔ)、發(fā)布和共享提供一系列Web服務(wù)?;贕enBase的提交系統(tǒng),用戶可根據(jù)詳細(xì)的操作提示,按步驟提交包括提交者信息、參考文獻(xiàn)、核苷酸序列、數(shù)據(jù)來(lái)源、數(shù)據(jù)特征等在內(nèi)的重要的實(shí)體和元數(shù)據(jù)信息。GenBase嚴(yán)格把控?cái)?shù)據(jù)質(zhì)量,保障基因序列數(shù)據(jù)的準(zhǔn)確性、完整性和可用性。GenBase系統(tǒng)遵循國(guó)際核酸序列共享聯(lián)盟(International Nucleotide Sequence Database Collaboration,INSDC)的相關(guān)標(biāo)準(zhǔn),立足中國(guó),服務(wù)全球,可接收來(lái)自全球科研人員的數(shù)據(jù)提交。截止到2024年8月1日,GenBase共接收了來(lái)自197個(gè)單位、309個(gè)用戶、2,650個(gè)批次的81,929條核酸序列及832,740條蛋白序列。其中,76,340 條核酸序列(93%) 與723,863 注釋的蛋白序列(87%) 已釋放,支撐了51篇論文的發(fā)表。特別地,GenBase接收了63,006條新冠病毒序列,其中的 59,913條已釋放。同時(shí),為保障全球基因序列數(shù)據(jù)的本地化管理,GenBase還整合了INSDC發(fā)布的約5.8億條核酸和蛋白序列,提高國(guó)內(nèi)科研人員查詢和獲取數(shù)據(jù)的效率。
國(guó)家生物信息中心卜琮凡、鄭欣暢、趙學(xué)彤、徐添翼、白雪為該文共同第一作者,唐碧霞高級(jí)工程師和鮑一明研究員為該文共同通訊作者。本工作得到了中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)專項(xiàng)、國(guó)家重點(diǎn)研發(fā)計(jì)劃、“一帶一路”國(guó)際科學(xué)組織聯(lián)盟國(guó)際專題網(wǎng)絡(luò)、中國(guó)科學(xué)院國(guó)際合作項(xiàng)目“國(guó)際基因組學(xué)數(shù)據(jù)共享體系研發(fā)”和國(guó)際生物多樣性與健康大數(shù)據(jù)共享計(jì)劃的項(xiàng)目支持。
GenBase整體架構(gòu)