機票數(shù)據(jù)采集系統(tǒng)策劃方案介紹
時間:2023-05-28 08:09:02 | 來源:網(wǎng)站運營
時間:2023-05-28 08:09:02 來源:網(wǎng)站運營
機票數(shù)據(jù)采集系統(tǒng)策劃方案介紹: 這是一個探碼大數(shù)據(jù)客戶案例,根據(jù)客戶需求,作了如下調(diào)研。
基于大數(shù)據(jù)的理論,機票數(shù)據(jù)采集系統(tǒng)的軟件架構(gòu)應(yīng)該是從這三方面來研發(fā)的:左邊是大量的數(shù)據(jù)源,中間是大數(shù)據(jù)平臺,后邊是對大數(shù)據(jù)分析處理以后的用途歸屬。
提供機票數(shù)據(jù)源的平臺很多,包括像攜程、去哪兒、藝龍這樣的平臺,到各個航空公司自己的官網(wǎng),都可以源源不斷的提供實時的機票數(shù)據(jù),將這些機票數(shù)據(jù)匯集在一起,形成一個數(shù)據(jù)池。
中間的大數(shù)據(jù)平臺是機票數(shù)據(jù)采集系統(tǒng)的核心,大數(shù)據(jù)平臺將數(shù)據(jù)池中的數(shù)據(jù)結(jié)構(gòu)化以后,提供給項目作任何維度的分析和研究,查詢和檢索,同時根探碼大數(shù)據(jù)平臺的業(yè)務(wù)邏輯進行篩選。
當有了大數(shù)據(jù)平臺以后,探碼科技將結(jié)構(gòu)化的數(shù)據(jù)分發(fā)到不同的終端,這種終端可以是公司自有的APP、網(wǎng)站或者微信公共號,也可以是公司的第三方分銷平臺,如通過攜程API上傳到攜程分銷商,通過阿里開發(fā)結(jié)構(gòu)對接到阿里旅行。
機票數(shù)據(jù)是一種實時性要求很高的網(wǎng)絡(luò)數(shù)據(jù),同時機票采集數(shù)據(jù)的用途也很多,數(shù)據(jù)采集的量也會相應(yīng)增加。
機票數(shù)據(jù)采集系統(tǒng)的核心目的是通過采集[去哪兒]數(shù)據(jù)源的機票實時價格信息,動態(tài)分析出需要的價格內(nèi)容,并上傳到[攜程API]。以下的內(nèi)容是針對機票數(shù)據(jù)采集系統(tǒng)策劃方案的詳細介紹。
- 1. 采集去哪兒數(shù)據(jù)(多線程實時采集)
- 2. 大數(shù)據(jù)平臺管理系統(tǒng)實現(xiàn)
- 3. 開發(fā)攜程API接口,上傳數(shù)據(jù)
1.采集去哪兒網(wǎng)站機票信息
- 1.1 多線程處理:預(yù)計開設(shè)300-400條線程,每臺服務(wù)器至少保證每臺服務(wù)器能運行100個線程。
- 1.2 數(shù)據(jù)更新必須及時且準確,速度以杭州為例,循環(huán)杭州出港到國內(nèi)所有城市時間一圈不能超過20分鐘。
- 1.3 實現(xiàn)自動化采集,不用人工參與,后臺可以人工設(shè)置采集城市,采集參數(shù)。
2. 大數(shù)據(jù)平臺管理系統(tǒng)實現(xiàn)
- 2.1 構(gòu)建一個實時大數(shù)據(jù)分析平臺,可以在上面按照各種查詢條件分類、篩選出需要的航班機票。
- 2.2 一個數(shù)據(jù)采集前端隊列界面,可以直觀的看到目前數(shù)據(jù)采集的情況,成功的條數(shù),失敗的條數(shù),失敗的原因,真正排隊的任務(wù)等。
3. 上傳到攜程API
- 3.1 學習最新版本的攜程API接口,開發(fā)上傳接口。
- 3.2 完成機票資源共享平臺的對接。
總結(jié)
探碼大數(shù)據(jù)主要采集數(shù)據(jù)第一部分:所有航班的詳情,采集字段包括航空公司、起飛日期
、起飛機場 、到達機場 、航班號、 使用規(guī)定、對應(yīng)艙位、 對應(yīng)價格 、剩余座位。
第二部分:最低價格的航班詳情,采集字段包括起飛城市三字碼、到達城市三字碼、
航空公司、起飛日期、起飛機場、 到達機場、 航班號、 使用規(guī)定、最低價格、 最低價格艙位 、I艙價格、 最低價剩余座位。
OTA機票數(shù)據(jù)采集采集目標:
OTA網(wǎng)站機票價格、移動端機票價格,可采集指定網(wǎng)站的數(shù)據(jù),按客戶要求進行處理,輸出所需數(shù)據(jù)格式.
案例:
http://www.qunar.com、
http://www.ctrip.com、
http://www.kuxun.cn、以及各大航空公司
- 根據(jù)線路出發(fā)地、目的地獲取機票信息
- 自動對比機票價格,獲取最低報價
- 根據(jù)每天的機票價格生成2-3月報價
- 一鍵自動更新2-3個月內(nèi)的價格
- 可自行設(shè)定成人地接價、兒童地接價、價格說明
探碼大數(shù)據(jù)服務(wù)優(yōu)勢
- 一對一采集服務(wù):滿足每個客戶單獨的數(shù)據(jù)采集處理方式
- 內(nèi)容、關(guān)鍵字、鏈接替換:相近內(nèi)容、詞、鏈接地址替換
- 支持圖片采集下載:自動將內(nèi)容中的圖片換為本地圖片
- 分頁采集:多頁連續(xù)橫向采集
- 多層嵌套采集:多層嵌套縱向深入采集
- 復雜數(shù)據(jù)結(jié)構(gòu)組織:數(shù)據(jù)間復雜邏輯結(jié)構(gòu)自動組織
- 任意編碼采集:支持各種語言編碼網(wǎng)頁的采集
- 多種數(shù)據(jù)保存格式:Excel/JSON/MySQL/MsSQL/API
- 圖片驗證碼識別:自動識別圖片中的信息 中英、中拼自動轉(zhuǎn)換:中英文、中文拼音自動轉(zhuǎn)換
本文轉(zhuǎn)載自探碼科技官網(wǎng):
http://www.tanmer.com/bigdata/157
關(guān)鍵詞:方案,策劃,系統(tǒng),數(shù)據(jù),采集