時(shí)間:2022-12-19 18:30:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-12-19 18:30:01 來(lái)源:信息時(shí)代
FASTA序列比對(duì)和搜索 : 一種序列比較的啟發(fā)式算法,用于序列數(shù)據(jù)庫(kù)搜索。它既可以處理蛋白質(zhì)序列,也可以處理DNA序列。它由David Lipman等人在1985年提出,是在蛋白質(zhì)同源比較方法基礎(chǔ)上發(fā)展起來(lái)的。
FASTA是第一個(gè)被生物學(xué)研究人員廣泛使用的序列分析工具包,其中包含若干個(gè)獨(dú)立的程序。FASTA比對(duì)算法中允許比對(duì)過程中插入空格或缺口,與生物進(jìn)化過程中序列的插入突變或缺失突變相對(duì)應(yīng)。FASTA使用的是Wilbur-Lipman算法的改進(jìn)算法,進(jìn)行整體聯(lián)配,重點(diǎn)查找那些可能達(dá)到匹配顯著的聯(lián)配。
FASTA格式的序列以單行描述起始,為與下行的序列數(shù)據(jù)相區(qū)別,第一列的符號(hào)為“〉”。每行的字符以少于80個(gè)字符為宜。序列用標(biāo)準(zhǔn)的IUB/IUPAC氨基酸或核苷酸代碼表示,均用大寫字母,連字符或破折號(hào)表示序列缺口長(zhǎng)度。核酸查詢序列或氨基酸查詢序列中的數(shù)字應(yīng)以合適代碼代替。
對(duì)于一個(gè)查詢序列,序列搜索往往會(huì)返回許多數(shù)據(jù)庫(kù)序列,并且每個(gè)數(shù)據(jù)庫(kù)序列都有一個(gè)與查詢序列比對(duì)的得分,分值越高,則兩個(gè)序列越相似。FASTA返回與查詢序列非常相似的數(shù)據(jù)庫(kù)序列,并附加序列的比對(duì)及其他相關(guān)信息。
一般情況下,FASTA的查詢序列和數(shù)據(jù)庫(kù)是一致的。但是FASTA家族中的一些程序可以進(jìn)行特殊的數(shù)據(jù)庫(kù)搜索,如利用核酸序列搜索蛋白質(zhì)數(shù)據(jù)庫(kù),或者反之。
FASTA3軟件包中包含了六個(gè)程序:
(1) FASTA:是將查詢的蛋白質(zhì)序列與數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列進(jìn)行比較,或?qū)⒉樵兊腄NA序列與數(shù)據(jù)庫(kù)中的DNA序列進(jìn)行比較。
(2) FASTX/FASTY: 是將查詢的DNA序列與數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列進(jìn)行比較。FASTX是相對(duì)簡(jiǎn)單的一個(gè)算法,在序列比對(duì)過程中,只允許在密碼子之間有移碼; 而FASTY允許在密碼子內(nèi)部形成移碼,序列比對(duì)的結(jié)果好,但是運(yùn)行速度慢。
(3) TFASTA:是將查詢的蛋白質(zhì)序列與數(shù)據(jù)庫(kù)中的DNA序列進(jìn)行比較。
(4) TFASTX/TFASTY:是將查詢的蛋白質(zhì)序列與數(shù)據(jù)庫(kù)中的DNA序列進(jìn)行比較。對(duì)于數(shù)據(jù)庫(kù)中的DNA序列,同時(shí)考慮正向、反向所有可能的閱讀框,并允許有移碼。
(5) FASTS/TFASTS: 是將一系列短的多肽片段(如來(lái)自蛋白質(zhì)的質(zhì)譜分析結(jié)果)與數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列(FASTS)或DNA序列(TFASTS)進(jìn)行比較。
(6) FASTF/TFASTF: 是將一個(gè)有序的多肽混合物與數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列(FASTF)或者DNA序列(FASTF)進(jìn)行比較。
客戶&案例
營(yíng)銷資訊
關(guān)于我們
客戶&案例
營(yíng)銷資訊
關(guān)于我們
微信公眾號(hào)
版權(quán)所有? 億企邦 1997-2022 保留一切法律許可權(quán)利。