国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務(wù) > 居理新房研究院:低頻長周期場景下的算法設(shè)計

居理新房研究院:低頻長周期場景下的算法設(shè)計

時間:2023-01-29 07:56:01 | 來源:電子商務(wù)

時間:2023-01-29 07:56:01 來源:電子商務(wù)

居理新房作為國內(nèi)最大新房電商平臺,一直致力于深入探索數(shù)據(jù)在房產(chǎn)流通中的應(yīng)用價值,提升居理新房用戶的購房體驗。2018年,居理新房在業(yè)內(nèi)率先成立了AI大數(shù)據(jù)研究院,從而更加系統(tǒng)化的挖掘數(shù)據(jù)的決策力和洞察力,通過大數(shù)據(jù)和AI技術(shù)發(fā)現(xiàn)和解決業(yè)務(wù)和產(chǎn)品核心問題,為業(yè)務(wù)的高速增長和用戶體驗的持續(xù)升級提供動力。

日前,居理新房大數(shù)據(jù)VP張惟師在公開場合發(fā)表演講。他表示,目前居理新房已經(jīng)打造了獨特的線上線下閉環(huán)的生態(tài)系統(tǒng)。

新房業(yè)務(wù)場景客單價極高,頻率極低,對比新聞信息流、廣告推薦、快消商品等,是產(chǎn)業(yè)互聯(lián)網(wǎng)中典型算法不友好場景。居理新房搭建了復(fù)用性和擴展性都比較好的算法平臺,可以通過一些靈活的配置,實現(xiàn)相關(guān)監(jiān)控、任務(wù)調(diào)度、模型校驗、可視化頁面以及AB Test。算法平臺底層支持多種算法引擎包括機器學(xué)習模型平臺(Spark-MLlib,Xgboost)、深度學(xué)習平臺(Tensorflow,Pytorch)以及圖相關(guān)模型,通過pipeline的方法整合數(shù)據(jù)流和算法引擎。

以優(yōu)選客戶識別算法為例,張惟師從以下方面介紹了居理新房的算法設(shè)計思路。

一、樣本選擇

如何選擇正負樣本?比較直觀的做法將“最終是否發(fā)生認購行為”作為正負樣本的評估依據(jù)。

在居理新房的業(yè)務(wù)場景下,由于房屋交易業(yè)務(wù)轉(zhuǎn)化率低,從線上訪問UV到最終房屋認購,比例在萬分之幾左右。

為了解決樣本稀疏問題,通過設(shè)置了一個代理目標,將是否發(fā)生帶看行為作為正負樣本的評估依據(jù)。帶看行為發(fā)生在認購行為之前,發(fā)生認購行為占帶看比例約十分之一,周期也可從一到兩個月縮減到兩周左右。

樣本在一個周期T內(nèi),將是否被帶看作為正負樣本的評估依據(jù)。另外可以后續(xù)模型訓(xùn)練時,提高具有多次帶看行為或者發(fā)生認購行為的權(quán)重。在一個時間周期T內(nèi),可能存在跟單不完全的情況,但這部分比例在10%以內(nèi),可以忽略。由于正負樣本比例差異較大,在樣本量較大的情況下,這種比例可以接受,但在樣本量較少的情況下,正負樣本比例差異導(dǎo)致模型學(xué)習困難,因此在訓(xùn)練模型前可以先對樣本進行采樣預(yù)處理。常見的樣本采樣方法有欠采樣和過采樣。欠采樣是保持數(shù)據(jù)集正樣本數(shù)量不變,根據(jù)一定比例去隨機抽取負樣本,過采樣是通過已有正樣本來構(gòu)造虛擬正樣本,來減小正負樣本差異,常見的過采樣方法有SMOTE等。但是采樣方法會影響數(shù)據(jù)集中的正負樣本分布,在關(guān)注概率值的分類等業(yè)務(wù)場景下,需要對模型輸出的概率進行校準。

二、特征工程

在特征工程中,特征類型主要有以下三類,信息來源類、用戶App行為類、用戶粘性類。

其中信息渠道來源是指用戶是來自百度、Feed、廣點通等平臺,多設(shè)備、多賬號等主要是用于衡量用戶是否發(fā)生過作弊行為。

用戶App行為類特征是占比最大的一類特征,主要是指用戶在留電話號碼前,在App上點擊、瀏覽、搜索等行為。

用戶粘性類特征是一些抽象統(tǒng)計特征,其中訪問深度是指App頁面用戶訪問最長的路徑,廣度是指App中用戶使用的功能的數(shù)量。

三、模型調(diào)優(yōu)

模型主要采用的傳統(tǒng)模型LR、RF、XGBoost、LightGBM,也嘗試了使用Deep Learning等,但實際效果不如傳統(tǒng)模型好。

在當前場景下樣本數(shù)量少,而且版本更新迭代較快的時候,常遇到數(shù)據(jù)分布不一致的問題。產(chǎn)品迭代了新的版本,但離線模型訓(xùn)練用的還是老的數(shù)據(jù),而線上用的新版數(shù)據(jù),這種信息不一致將拉低模型效果。當前采用的方案是時間窗口滾動的方式來訓(xùn)練模型,并盡量剔除一些可能因為版本導(dǎo)致數(shù)據(jù)不一致的特征,努力將影響降至最低。

在無論是深度學(xué)習還是傳統(tǒng)機器學(xué)習,參數(shù)調(diào)優(yōu)的方法大同小異,主要是網(wǎng)格搜索(Grid Search)、人工參數(shù)調(diào)優(yōu)以及分城市閾值調(diào)優(yōu)。網(wǎng)格搜索調(diào)優(yōu)雖然不能一定找到最優(yōu)解,但是花費時間較短。另外也嘗試了一些貝葉斯優(yōu)化的方法,它和grid search有的區(qū)別就是它會根據(jù)上一輪做算法的參數(shù)結(jié)果去選擇最有可能產(chǎn)生最優(yōu)算法參數(shù)方向去優(yōu)化這個參數(shù),利用貝葉斯優(yōu)化自動幫忙尋找參數(shù)優(yōu)化方向。貝葉斯尋優(yōu)容易陷入局部最優(yōu),需要多進行幾輪貝葉斯優(yōu)化,手工選出里面的極大值。分城市閾值調(diào)優(yōu)是遇到的另一個更嚴重的一個場景,由于居理新房業(yè)務(wù)分布在全國12個城市,而且每個城市有自己不同的特點,用戶的行為都不一樣,在模型分類時,每個城市應(yīng)采取不同的閾值。在本身整體數(shù)據(jù)量就不多情況,每個城市的數(shù)據(jù)量更少,這種情況下或者將城市信息加入特征,或者每個城市都分別訓(xùn)練一個模型。

四、可解釋性分析

整個房產(chǎn)行業(yè)的客單價都比較高,每個客戶都特別的寶貴。若將好線索誤判,沒有為客戶好好服務(wù)將會導(dǎo)致較大的損失。

對于居理新房的業(yè)務(wù)人員(客服、咨詢師)而言,模型預(yù)估結(jié)果會與他們原有的一些工作模式和習慣矛盾,需要向業(yè)務(wù)人員解釋模型預(yù)估結(jié)果。當算法去服務(wù)于業(yè)務(wù)團隊的時候,這種可解釋性顯得尤為重要。

通過xgboost計算得到的特征重要性(feature importance)不一定是完全可解釋的,和特征在決策森林中出現(xiàn)的次數(shù)相關(guān)。但特征在決策森林里面出現(xiàn)的次數(shù)越多并不能說明特征越重要。這里采用的是SHAP來進行可解釋性分析,SHAP計算的是一個特征加入到模型時的邊際貢獻,考慮了該特征在所有的特征序列的情況下不同的邊際貢獻。在SHAP圖中,縱坐標是特征列表,橫坐標是從負數(shù)到正數(shù)的取值范圍,表示對模型輸出值的影響。留電口、渠道特征是從SHAP方法來看是最為重要的特征。一般來說通過搜索渠道來的用戶,購房的意向較強烈,這個也和基本認知符合。另一個比較顯著的特征pv_p_select_city,表示切換城市的動作越多,購房意向越弱。

五、實際效果

從模型效果來看,客戶認購量提升了十七個百分點,基本達到了算法預(yù)期目標。從認購到帶看的目標變化,將周期從兩個月縮減到了兩周,后續(xù)希望能找到一個更好的指標來代替帶看,進一步縮短模型周期。另外居理新房還做了很多線下數(shù)據(jù)的累積,如咨詢師與客戶的電話錄音、交通行為等,通過這些離線數(shù)據(jù)能大概分析出咨詢師和客戶的行為。目前不同的城市數(shù)據(jù)累積量不同,等數(shù)據(jù)量積累到一定程度,可以為不同的城市設(shè)置獨立的模型。另外模型融合(stacking)是后續(xù)優(yōu)化的方向,看能不能做出更有意思的效果。目前的模型是基于無線數(shù)據(jù),PC數(shù)據(jù)相對無線來說,用戶行為比較少,下一步是跨站整合PC和無線的數(shù)據(jù)。

關(guān)鍵詞:場景,設(shè)計,周期,研究

74
73
25
news

版權(quán)所有? 億企邦 1997-2025 保留一切法律許可權(quán)利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關(guān)閉