時間:2022-12-27 10:30:01 | 來源:信息時代
時間:2022-12-27 10:30:01 來源:信息時代
基因組數據庫 : 生物信息數據庫的重要組成部分,由各國基因組研究中心組建,分布在世界各地的信息中心、測序中心、大學和研究機構中。它的主要內容有基因組結構、基因單位、基因型、基因產物、基因組圖譜(遺傳圖、疊連群圖、放射雜交圖等)。它的主體是模式生物(即基因組計劃研究中具有代表性的若干種生物)基因組數據庫,其中主要有世界各國人類基因研究中心、測序中心構建的各種人類基因組數據庫,以及小鼠、水稻、線蟲、果蠅、酵母、大腸桿菌等各種模式生物基因組數據庫和其他多種動植物基因組數據庫。目前主要的基因組數據庫有GDB、Entrez Genomes、Ensembl、AceDB、SGD、KEGG、EcoGene和GO等。
(1) GDB人類基因組數據庫(http://www.gdb.org/): 于1990年建立于美國Johns Hopkins大學,是重要的人類基因組數據庫。數據庫的主要內容是人類基因組計劃所得到的圖譜數據。GDB數據庫包含的描述信息如下: 人類基因組區(qū)域譜、人類基因組圖譜和人類基因組差異信息。此外,GDB數據庫還包括了與核酸序列數據庫GenBank和EMBL、遺傳疾病數據庫OMIM、生物醫(yī)學文獻引用數據庫PubMed等其他網絡信息資源的超文本鏈接。
GDB數據庫的數據主要來自于科學文獻和各國基因組提交的數據,并經過人類基因組組織(human genome organization,HUGO)命名委員會(HUGO nomenclature committee)和染色體委員會(HUGO chromosome committees)修正。GDB基于Sybase數據庫管理系統(tǒng),包括三個數據庫,分別為HGD,Citation和Registry。HGD是GDB中最主要的數據庫,遺傳信息、與功能相關的結構信息和進化信息都存儲在HGD中;Citation存儲了文獻相關信息,包括文章摘要和Medline編號;Registry是GDB注冊用戶信息。GDB的另一個顯著特點是用面向對象的方式組織和管理數據,GDB的網絡應用也是典型的面向對象系統(tǒng),提供基于Web的數據對象檢索服務,用戶可以搜索各種類型的對象,并可以圖形方式觀看基因組圖譜。
(2) Entrez Genomes基因組數據庫: 是美國國家生物技術信息中心NCBI提供的基因組數據庫(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=G enome),收錄了1000多個病毒基因組、100多個微生物基因組以及部分真核生物基因組,是目前最大、最完整的一套多生物物種的基因組資源。同時它提供了大量的內部連接,并以盡量簡潔的方式將幾種遺傳圖譜、物理圖譜、DNA、蛋白質序列信息、三維晶體結構信息以及一個目錄型引用數據庫有機結合起來,可以作為許多序列檢索的起點。該數據庫還提供一個基因組數據瀏覽工具Map Viewer,讓用戶觀看數據庫內帶有綜合遺傳和自然圖的各種有機體基因組、全部染色體、序列集成數據。
(3) AceDB: 是線蟲(C. elegans)基因組數據庫(http://www.acedb.org/),它既是一個數據庫,又是一個數據庫管理系統(tǒng)。AceDB基于面向對象的程序設計技術,是一個靈活通用的數據庫系統(tǒng),可用于其他基因組計劃的數據分析。AceDB提供良好的圖形界面,用戶能夠從大到整個基因組小到序列的各個層次觀察和分析基因組數據。新開發(fā)的WebAce和AceBrowser基于網絡瀏覽器,已經應用于線蟲和人類基因組數據庫的瀏覽和搜索。庫內資源包括限制性圖譜、基因組結構信息、質粒圖譜、序列數據、等。
(4) Ensembl:是由歐洲生物信息學研究所(EBI)和英國Sanger中心共同合作開發(fā)的一個真核基因組自動注釋系統(tǒng)(http://www.ensembl.org/)。Ensembl產生并維護關于各種真核生物基因組的自動注釋,如人類基因組、小鼠基因組、果蠅基因組、黑猩猩基因組等。Ensembl主要根據已經測得的基因組序列定位所有已知基因,并預測未知新基因,同時為這些基因提供功能、疾病相關特征等方面的注釋信息。此外,Ensembl數據庫還提供數據搜索、數據下載、統(tǒng)計分析等服務。
Ensembl的底層是基于MySQL的關系型數據庫系統(tǒng),包括十個數據庫,涵蓋了從基因組序列到幫助文檔的全部信息。Ensembl系統(tǒng)的主體以及數據庫接口用Perl編寫,部分界面用Java編寫。Ensembl提供多種查詢方式,如用BLAST進行相似序列的搜索,通過序列號進行查詢,通過基因名稱查詢,以及通過遺傳疾病查詢等。另一種更直觀的方式是顯示各染色體,用戶可以在染色體水平上選擇感興趣的位點,然后逐層放大,從而瀏覽整個基因組,分析DNA序列和基因。
(5)基因本體數據庫GO(http://www.geneontology.org/): 是由基因本體聯盟(gene ontology consortium)開發(fā)的基因本體(gene ontology)數據庫,其目標是建立關于基因和基因產物的描述以及知識的標準術語,為實現各種與基因相關數據的統(tǒng)一、進行數據轉換、開展數據挖掘及數據庫集成提供一個標準。GO根據與基因產物相關的生物過程、細胞成分和分子功能提供了三個相對獨立的本體,描述基因和基因產物的屬性,以及對基因進行注釋。GO數據庫使用MySQL數據庫和Perl對象模型及API來簡化數據庫訪問。
關鍵詞:數據,基因