GenBank、EMBL和DDBJ是國際上三大主要核酸序列數(shù)據(jù)庫。根據(jù)協(xié)議,這三個數(shù)" />
時間:2022-12-25 16:30:01 | 來源:信息時代
時間:2022-12-25 16:30:01 來源:信息時代
核酸序列數(shù)據(jù)庫 : 分子生物信息數(shù)據(jù)庫中最基本的一種序列數(shù)據(jù)庫,以核苷酸堿基順序為基本內(nèi)容,并附有注釋信息。
GenBank、EMBL和DDBJ是國際上三大主要核酸序列數(shù)據(jù)庫。根據(jù)協(xié)議,這三個數(shù)據(jù)中心各自搜集各國有關(guān)實驗室和測序機構(gòu)所發(fā)布的序列數(shù)據(jù),并通過計算機網(wǎng)絡(luò)每天將新發(fā)現(xiàn)或更新過的數(shù)據(jù)進行交換,以保證這三個數(shù)據(jù)庫序列信息的完整性。除了這些核酸一級結(jié)構(gòu)序列數(shù)據(jù)庫外,還有很多建立在它們基礎(chǔ)之上的二級數(shù)據(jù)庫。
(1) GenBank核酸數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/): 創(chuàng)建于1982年,20世紀90年代后迅速發(fā)展。1988年11月美國成立了國立生物技術(shù)信息中心(NCBI)。在美國政府的資助下,NCBI迅速成為生物信息學(xué)領(lǐng)域的主要推動者。1992年10月,NCBI承擔起對GenBank DNA序列數(shù)據(jù)庫的維護責(zé)任,同時隨著人類及各種模式生物大規(guī)模測序工作的展開,其收錄的序列迅速增加。目前,GenBanK每兩個月發(fā)布一次新版本,并且每天都通過匿名FTP提供遞增式(以及非遞增式)的更新。
GenBank數(shù)據(jù)庫是一個開放的系統(tǒng),它收錄包括任意長度的cDNA片段、單個的外顯子、完整的cDNA、任意的基因片段,甚至于包含多個基因的長片段。數(shù)據(jù)主要來源于個人或大規(guī)模測序中心直接遞交的數(shù)據(jù),也通過美國專利和商標局收集注冊專利的序列信息。此外,GenBank每年都對來源于3400種雜志的325000篇文章進行檢索,以收集公開發(fā)表的序列。它還與EMBL、DDBJ等大型數(shù)據(jù)庫每天相互更新。
GenBank每條記錄包含對序列的精確描述、序列來源生物的科學(xué)名稱及樹狀分類、參考文獻、序列特征表以及序列本身等信息。序列特征表里包含對序列生物學(xué)特征的注釋,如編碼區(qū)、轉(zhuǎn)錄單元、重復(fù)區(qū)域、突變位點或修飾位點等。對于每一序列,它還提供與文獻數(shù)據(jù)庫MED-LINK中相關(guān)參考文獻的鏈接,從而能夠獲得關(guān)于該序列的更進一步的信息。為了便于用戶檢索,又將所有數(shù)據(jù)記錄按類劃分為多個子數(shù)據(jù)庫。
(2) EMBL核酸數(shù)據(jù)庫(http://www.ebi.ac.uk/embl.html): 創(chuàng)建于1980年,目前由歐洲生物信息學(xué)研究所(EBI)維護。EBI是EMBL在英國Hinxton的分部,主要負責(zé)建立及維護EMBL核酸數(shù)據(jù)庫,并提供核苷酸序列檢索及序列相似性查詢等服務(wù),近年來發(fā)展十分迅速,它與美國的GenBank及日本的DDBJ共同組成全球性的國際DNA數(shù)據(jù)庫。
EMBL的數(shù)據(jù)格式與GenBank基本相同,不同的是其描述信息的關(guān)鍵詞一般以兩個字母代替。相對于GenBank,EMBL數(shù)據(jù)庫將真菌及細胞器單獨分類,增加了FUN(真菌數(shù)據(jù)庫)、ORG(細胞器數(shù)據(jù)庫)。其數(shù)據(jù)的遞交可通過基于網(wǎng)絡(luò)的Webin程序,它適宜于單個、多個甚至是大規(guī)模序列的遞交。同時也可通過基于本地計算機的Sequin程序遞交。EMBL數(shù)據(jù)庫提供的另外一個特殊服務(wù)是,可通過NCBI提供的Webin-Align程序遞交NEXUS、PHYLIP、CLUSTAL、GCG/MSF或SEQUIN/ASN.1格式的多序列比對記錄。
(3) DDBJ公共核酸/蛋白質(zhì)序列數(shù)據(jù)庫(http://www.ddbj.nig.ac.jp): 創(chuàng)立于1986年,收錄了所有已知的公共核酸與蛋白質(zhì)序列數(shù)據(jù),作為序列數(shù)據(jù)庫國際合作組織(International Nucleotide Sequence Database Collaboration,INSDC)成員,同時與GenBank和EMBL相互合作,互通有無,同步更新。目前,DDBJ由日本國立遺傳學(xué)研究所的生物信息中心(CIB/DDBJ)維護。DDBJ數(shù)據(jù)庫的結(jié)構(gòu)與GenBank完全一致。
(4) 中國核酸序列數(shù)據(jù)庫(http://www.cdnap.csdb.cn/): 是中科院上海生科院生物信息中心承擔建設(shè)的生物科學(xué)應(yīng)用數(shù)據(jù)庫。通過搜集快速增長的國際核酸序列數(shù)據(jù),為用戶提供核酸序列數(shù)據(jù)存儲、序列檢索、序列格式轉(zhuǎn)換、序列比較等服務(wù),同時通過本數(shù)據(jù)庫可對國內(nèi)各課題組遞交的核酸序列進行統(tǒng)計和比較,為了解國內(nèi)核酸序列情況提供依據(jù)。
關(guān)鍵詞:數(shù)據(jù),序列
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。