時(shí)間:2022-11-08 20:30:01 | 來源:信息時(shí)代
時(shí)間:2022-11-08 20:30:01 來源:信息時(shí)代
生物數(shù)據(jù)挖掘 : 針對生物數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘。生物數(shù)據(jù)主要有生物序列數(shù)據(jù)(包括核酸序列和蛋白質(zhì)序列)、基因表達(dá)數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)、生物文獻(xiàn)數(shù)據(jù)等。目前在國際上總共約有1000多個(gè)生物數(shù)據(jù)庫,存放數(shù)百TB的生物數(shù)據(jù)。由于大多數(shù)生物數(shù)據(jù)的含義目前還不為人們所知,所以大量的生物學(xué)研究將在生物數(shù)據(jù)上進(jìn)行。生物學(xué)研究手段由單純的觀察和實(shí)驗(yàn)轉(zhuǎn)向現(xiàn)代信息學(xué)方法,形成了生物信息學(xué)。生物的實(shí)驗(yàn)變成了數(shù)據(jù)的計(jì)算。生物數(shù)據(jù)挖掘是生物信息學(xué)主要采用的數(shù)據(jù)分析技術(shù)。
生物數(shù)據(jù)挖掘的主要工作包括生物序列相似性分析、基因的識(shí)別和功能注釋、蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測、基因組序列信息分析(基因組功能注釋)、功能基因組相關(guān)信息分析(大規(guī)?;虮磉_(dá)譜分析、基因組水平蛋白質(zhì)功能綜合預(yù)測)等。
生物數(shù)據(jù)挖掘技術(shù)包括:
(1)序列模式挖掘:生物序列間的相似搜索和比較是基因分析中最重要的問題之一。通常,生物序列總是處于不斷的突變過程中,而其中的某些區(qū)域,如啟動(dòng)子區(qū)域等,對生物體的生存具有至關(guān)重要的意義,因而在進(jìn)化過程中更為保守一些,因此它們的出現(xiàn)頻率往往高于期望值;另一方面,生物由于進(jìn)化等目的對基因的復(fù)制,使得基因組的基因相關(guān)區(qū)域和基因外區(qū)域中產(chǎn)生大量重復(fù)序列,并且在遺傳分析中起重要作用。根據(jù)這樣的生物意義,可以將生物序列模式定義為: 在多條生物序列組成的序列集合中或某一指定生物序列中出現(xiàn)次數(shù)超過一定數(shù)量的序列片段,如在生物序列中具有一定保守性的序列片段或生物序列中的重復(fù)序列片段。生物序列模式挖掘是尋找這樣的序列模式的過程。
(2)關(guān)聯(lián)分析:尋找兩個(gè)或多個(gè)生物數(shù)據(jù)間的一種關(guān)聯(lián)關(guān)系以及密切程度,通常用關(guān)聯(lián)規(guī)則的形式描述,用置信度(confidence)和支持度(support)評估。
(3)聚類分析: 是將生物數(shù)據(jù)集劃分成若干個(gè)簇,使得每個(gè)簇中的數(shù)據(jù)間盡可能的相似,而與其他簇中的數(shù)據(jù)盡可能的不相似。通過聚類識(shí)別未知生物數(shù)據(jù)所屬類別。
(4)分類分析:是指給定一個(gè)未知類標(biāo)號的生物數(shù)據(jù),對已知數(shù)據(jù)的訓(xùn)練樣本構(gòu)造一個(gè)分類器,用以預(yù)測該生物數(shù)據(jù)是否屬于某個(gè)特定的類,目的是對未知類別的數(shù)據(jù)指定類別。
(5)異常分析:在生物數(shù)據(jù)集中尋找產(chǎn)生機(jī)制明顯不同于其他數(shù)據(jù)的數(shù)據(jù),即檢測生物數(shù)據(jù)集中偏差較大的數(shù)據(jù),大多數(shù)聚類算法具有識(shí)別異常的功能,但其主要目的是對簇進(jìn)行優(yōu)化,而某些有意義的異常數(shù)據(jù)往往希望被消除,并不是研究異常數(shù)據(jù)本身的價(jià)值。
(6)生物文獻(xiàn)挖掘:針對生物文獻(xiàn)數(shù)據(jù)進(jìn)行的數(shù)據(jù)挖掘。生物研究積累了大量的文獻(xiàn),研究成果大多體現(xiàn)在文獻(xiàn)中,如生物文獻(xiàn)與專利數(shù)據(jù)庫PubMed。除了文獻(xiàn)中所描述的成果,文獻(xiàn)中的數(shù)據(jù)之間也蘊(yùn)涵著大量的信息,如利用文獻(xiàn)可挖掘基因表達(dá)之間的相互作用等知識(shí)。
客戶&案例
營銷資訊
關(guān)于我們
微信公眾號
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。