国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 信息時代 > 生物文獻(xiàn)挖掘(數(shù)據(jù)庫)

生物文獻(xiàn)挖掘(數(shù)據(jù)庫)

時間:2022-11-10 02:30:02 | 來源:信息時代

時間:2022-11-10 02:30:02 來源:信息時代

    生物文獻(xiàn)挖掘 : 利用數(shù)據(jù)挖掘技術(shù)在大量的生物信息學(xué)文獻(xiàn)集合中發(fā)現(xiàn)隱含的知識的過程。伴隨著基因組研究日新月異的快速發(fā)展,相關(guān)信息出現(xiàn)了爆炸性增長,迫切需要對海量生物信息進(jìn)行處理。大量的生物學(xué)數(shù)據(jù)是以結(jié)構(gòu)化的形式存在于數(shù)據(jù)庫中,而大量的生物學(xué)知識以非結(jié)構(gòu)化的形式被記載在各種文獻(xiàn)中。對于研究人員來說,通過手工查找文獻(xiàn)來獲取相關(guān)領(lǐng)域的所有信息,幾乎是不可能的。由此,生物信息學(xué)文獻(xiàn)數(shù)據(jù)挖掘誕生了。
生物信息學(xué)文獻(xiàn)挖掘分五個層次逐步進(jìn)行:
(1)信息檢索(information retrieval):是指將信息按一定的方式組織和存儲以來,并根據(jù)信息用戶的需要找出有關(guān)信息的過程。由美國國家生物技術(shù)信息中心(NCBI)開發(fā)的PubMed是一個典型的生物醫(yī)學(xué)信息檢索工具。PubMed收錄了全世界70個國家和地區(qū)的4600余種生物醫(yī)學(xué)期刊,起始時間是1953年,文摘條目1200多萬,年報道量近40萬條,英文刊物占90%,一周更新一次。檢索途徑有基本檢索、高級檢索、限定檢索、期刊檢索、主題詞檢索等。PubMed是廣泛采用的生物醫(yī)學(xué)信息檢索工具之
(2)生物實體識別(biological entity recognition):是從文本集中識別出指定的某類生物實體的名稱。例如蛋白質(zhì)、基因、核糖核酸、脫氧核糖核酸和細(xì)胞的名稱等。生物實體識別包括兩項任務(wù): 一為識別,即找到文本中實體名稱的邊界; 二為分類,即確定實體名稱的語義類別。生物實體識別富有挑戰(zhàn)性的主要原因是: 新術(shù)語不斷出現(xiàn),命名的復(fù)雜性等。目前主要有基于啟發(fā)式規(guī)則的方法、基于統(tǒng)計和機(jī)器學(xué)習(xí)的方法和基于字典的方法。
(3)信息提取(information extraction): 是從一段文本中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù)供用戶使用的過程。信息提取與信息檢索不同,信息檢索只是為了確定文獻(xiàn)討論的主題,而信息提取的目的是提取已經(jīng)預(yù)定義好的事實,特別是兩種或多種生物實體之間的關(guān)系,如信息提取發(fā)現(xiàn)基因與基因、蛋白質(zhì)與蛋白質(zhì)間的相互作用。目前用于信息提取的方法主要有兩種: “共發(fā)生”和自然語言處理。“共發(fā)生”方法就是查找文獻(xiàn)中“共發(fā)生”的生物實體名稱,如果兩個生物實體名稱總是同時出現(xiàn)在同一個句子里,那么極有可能兩者是相關(guān)的;自然語言處理方法是進(jìn)一步通過句法分析來判定共發(fā)生的基因間的確定關(guān)系。信息提取的更深層次的目標(biāo)是采用各種技術(shù)對生物學(xué)文獻(xiàn)自動化理解和解釋文獻(xiàn)信息。
(4)文本挖掘(text mining): 是通過自動提取相關(guān)信息來發(fā)現(xiàn)以前未被發(fā)現(xiàn)的知識。文本挖掘與信息提取的不同之處在于信息提取只能提取已經(jīng)被發(fā)現(xiàn)的并被公布出來的知識,而文本挖掘能獲得還未被發(fā)現(xiàn)的知識,所以說信息提取是文本挖掘的基礎(chǔ)。目前生物文本挖掘還處于起步階段,有待于進(jìn)一步發(fā)展。
(5)數(shù)據(jù)整合(data integration):是集成生物文獻(xiàn)和其他類型數(shù)據(jù)以便更有利于生物發(fā)現(xiàn)。目前數(shù)據(jù)整合只是針對基因或蛋白質(zhì)等的功能注解,數(shù)據(jù)整合是一種最高層次的生物文獻(xiàn)挖掘,也是最難以實現(xiàn)的。

74
73
25
news

版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉