網(wǎng)站采集器系統(tǒng)需求
時(shí)間:2023-07-16 01:06:01 | 來(lái)源:營(yíng)銷百科
時(shí)間:2023-07-16 01:06:01 來(lái)源:營(yíng)銷百科
網(wǎng)站采集器系統(tǒng)需求:(1)多樣化的采集目標(biāo)
信息分布在各種信息存儲(chǔ)系統(tǒng)中,各種存儲(chǔ)系統(tǒng)有著各自的交互機(jī)制,需要采集系統(tǒng)提供多種并可擴(kuò)展的連接模塊。
(2)多樣化的數(shù)據(jù)格式
信息以多種形式存在,如網(wǎng)頁(yè)、word文檔、pdf等。這些不同的格式數(shù)據(jù)需要采用不同的采集機(jī)制。
(3)分布式海量數(shù)據(jù)
由于網(wǎng)絡(luò)通信的延時(shí)和網(wǎng)絡(luò)帶寬的限制,并發(fā)多線程通信能夠有效地減低延時(shí)和搶奪資源。
(4)數(shù)據(jù)橫向和縱向采集
需要系統(tǒng)自動(dòng)采集數(shù)據(jù)的下一頁(yè);自動(dòng)采集數(shù)據(jù)的關(guān)聯(lián)附件;自動(dòng)根據(jù)當(dāng)前采集結(jié)果采集下一數(shù)據(jù)。
(5)用戶操作簡(jiǎn)單、快捷
多樣且復(fù)雜的數(shù)據(jù)格式增加用戶的作業(yè)難度,用戶希望所見及所得,及時(shí)提供相應(yīng)的操作提示信息。