數(shù)據(jù)抽取純文本抽出通用程序庫(kù)
時(shí)間:2022-02-18 23:06:01 | 來(lái)源:信息時(shí)代
時(shí)間:2022-02-18 23:06:01 來(lái)源:信息時(shí)代
DMCTextFilter是HYFsoft開(kāi)發(fā)的純文本抽出通用程序庫(kù),本產(chǎn)品可以從各種各樣的文檔格式的數(shù)據(jù)中或從插入的OLE對(duì)象中,完全除掉特殊控制信息,快速抽出純文本數(shù)據(jù)信息。便于用戶實(shí)現(xiàn)對(duì)多種文檔數(shù)據(jù)資源信息進(jìn)行統(tǒng)一管理,編輯,檢索和瀏覽。
DMCTextFilter采用了先進(jìn)的多語(yǔ)言、多平臺(tái)、多線程的設(shè)計(jì)理念,支持多國(guó)語(yǔ)言(英語(yǔ),中文簡(jiǎn)體,中文繁體,日本語(yǔ),韓國(guó)語(yǔ)),多種操作系統(tǒng)(Windows,Solaris,Linux,IBMAIX,Macintosh,HP-UNIX),多種文字集合代碼(GBK,GB18030,Big5,ISO-8859-1,KSX1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多種形式的API功能接口(文件格式識(shí)別函數(shù),文本抽出函數(shù),文件屬性抽出函數(shù),頁(yè)抽出函數(shù),設(shè)定UserPassword的PDF文件的文本抽出函數(shù)等),便于用戶方便使用。用戶可以十分便利的將本產(chǎn)品組裝到自己的應(yīng)用程序中,進(jìn)行二次開(kāi)發(fā)。通過(guò)調(diào)用本產(chǎn)品的提供的API功能接口,實(shí)現(xiàn)從多種文檔格式的數(shù)據(jù)中快速抽出純文本數(shù)據(jù)。本產(chǎn)品在國(guó)內(nèi)外得到了廣泛的應(yīng)用,在產(chǎn)品性能和質(zhì)量上都得到了用戶高度的好評(píng)。
本產(chǎn)品通過(guò)解析文件內(nèi)部的信息,自動(dòng)識(shí)別生成文件的應(yīng)用程序名和其版本號(hào),不依賴于文件的擴(kuò)展名,能夠正確識(shí)別文件格式和相應(yīng)的版本信息。可以識(shí)別的文件格式如下:支持MicrosoftOffice、RTF、PDF、Visio、OutlookEML和MSG、Lotus1-2-3、HTML、AutoCADDXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、MacWrite、Works、CorelPresentations、QuarkXpress、DocuWorks、WPS、壓縮文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式
即使系統(tǒng)中沒(méi)有安裝作成文件的應(yīng)用程序,可以從指定的文件或插入到文件中的OLE中抽出文本數(shù)據(jù)。
從指定的文件中,抽出文件屬性信息。
從文件中,抽出指定頁(yè)中文本數(shù)據(jù)。
從設(shè)有打開(kāi)文檔口令密碼的PDF文件中抽出文本數(shù)據(jù)。
從指定的文件、或是嵌入到文件中的OLE對(duì)象中向流里抽取文本數(shù)據(jù)。
本產(chǎn)品支持以下語(yǔ)言:英語(yǔ),中文簡(jiǎn)體,中文繁體,日本語(yǔ),韓國(guó)語(yǔ)
抽出文本時(shí),可以指定以下的字符集合作為文本文件的字符集(也可指定任意特殊字符集,但需要另行定制開(kāi)發(fā)):GBK,GB18030,Big5,ISO-8859-1,KSX1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。