導讀:電商技術進入認知智能時代,將給億萬用戶帶來更加智能的購物體驗。經(jīng)過兩年的探索與實踐,阿里巴巴的電商認知圖譜 AliCoCo 已成體系規(guī)模,并在搜索推薦等電商核心業(yè)務場景上取得佳" />

国产成人精品无码青草_亚洲国产美女精品久久久久∴_欧美人与鲁交大毛片免费_国产果冻豆传媒麻婆精东

18143453325 在線咨詢 在線咨詢
18143453325 在線咨詢
所在位置: 首頁 > 營銷資訊 > 電子商務 > 電商知識圖譜

電商知識圖譜

時間:2023-03-16 15:12:02 | 來源:電子商務

時間:2023-03-16 15:12:02 來源:電子商務

引自阿里電商知識圖譜核心技術揭秘

導讀:電商技術進入認知智能時代,將給億萬用戶帶來更加智能的購物體驗。經(jīng)過兩年的探索與實踐,阿里巴巴的電商認知圖譜 AliCoCo 已成體系規(guī)模,并在搜索推薦等電商核心業(yè)務場景上取得佳績,關于 AliCoCo 的文章《AliCoCo: Alibaba E-commerce Cognitive Concept Net》也已被國際頂會 SIGMOD 接收,這是阿里巴巴首次正式揭秘領域知識圖譜。本文將通過介紹 AliCoCo 的背景、定義、底層設計、構建過程中的一些算法問題,以及在電商搜索和推薦上的廣泛應用,分享 AliCoCo 從誕生到成為阿里巴巴核心電商引擎的基石這一路走來的思考。

背景

近年來電商搜索、推薦算法已經(jīng)取得了長足的進步,但面對用戶多樣化的需求,目前的電商體驗依然還稱不上"智能"。多年來,我們的搜索引擎在引導用戶如何輸入關鍵字才能更快地找到需要的商品,而這種基于關鍵字的搜索,適用于對明確清楚具體商品的用戶。但很多時候,用戶面臨的往往是一些問題或場景,如"舉辦一場戶外燒烤"需要哪些工具?在淘寶上購買什么商品能有效"預防家里的老人走失"?他們需要更多的"知識"來幫助他們決策。而在商品推薦中,重復推薦、買過了又推薦、推薦缺少新意等問題也是經(jīng)常為人詬病。當前的推薦系統(tǒng)更多的是從用戶歷史行為出發(fā),通過 i2i 等手段來召回商品,而不是真正從建模用戶需求出發(fā)。深究這些問題背后的原因,其根源在于電商技術所依賴的底層數(shù)據(jù),缺少對于用戶需求的刻畫。具體來講,目前淘寶用于管理商品的體系,是一套基于類目 - 屬性 - 屬性值 ( CPV,Category-Property-Value ) 的體系,它缺乏必要的知識廣度和深度,去描述和理解各類用戶需求,從而導致基于此的搜索、推薦算法在認知真實的用戶需求時產(chǎn)生了語義的隔閡,從而限制了用戶體驗的進一步提升。為了打破這個隔閡,讓電商搜索、推薦算法更好地認知用戶需求,我們提出建設一種新的電商知識圖譜,將用戶需求顯式地表達成圖中的節(jié)點,構建一個以用戶需求節(jié)點為中心的概念圖譜,鏈接用戶需求、知識、常識、商品和內(nèi)容的大規(guī)模語義網(wǎng)絡:阿里巴巴電商認知圖譜 ( Alibaba E-commerce Cognitive Concept Net ),簡稱 AliCoCo。我們希望 AliCoCo 能為電商領域的用戶理解、知識理解、商品和內(nèi)容理解提供統(tǒng)一的數(shù)據(jù)基礎。經(jīng)過兩年的努力,我們已經(jīng)完成了整體的結構設計和核心數(shù)據(jù)的建設,并在電商搜索、推薦等多個具體的業(yè)務場景落地,取得了不錯的效果,提升了用戶體驗。

AliCoCo

如下圖所示,AliCoCo 是一個概念圖譜,主要由四部分構成:

在電商概念層 ( E-commerce Concepts ),作為 AliCoCo 最大的創(chuàng)新點,我們將用戶需求顯式地用一個符合人話的短語表示為圖中的節(jié)點,如"戶外燒烤 ( outdoor barbecue )"、"兒童保暖 ( keep warm for kids )"等,并稱之為"電商概念"。用戶需求雖然一直被提及,但在電商領域,還未被正式地定義過。在很多下游應用 ( 如推薦系統(tǒng) ) 的工作中,常常用類目或品類節(jié)點 ( 商品的分類 ) 作為用戶需求的表達。但用戶需求是遠不止于這些的,很多場合下,用戶面臨的是一個"場景"或者"問題",他們并不知道具體什么商品可以幫助解決,因此我們將用戶需求的定義進一步泛化為電商概念,具體詳見下文章節(jié)。所有用于表示用戶需求的電商概念組成了這一層。

在原子概念層 ( Primitive Concepts ),我們?yōu)榱烁玫乩斫馍厦嬷v到的電商概念 ( 即用戶需求 ),我們將這些短語進行拆解細化到詞粒度,用這些細粒度的詞來更系統(tǒng)地描述用戶需求,這些細粒度的詞稱為"原子概念"。如對于電商概念"戶外燒烤"而言,它可以被表示成"動作:燒烤 & 地點:戶外 & 天氣:晴",這里的"燒烤"、"戶外"和"晴"都是原子概念。所有原子概念組成了這一層。

在分類體系 ( Taxonomy ) 中,為了更好地管理上述的原子概念,我們構建了一個描述大千世界基本概念的分類體系,它不局限于電商領域,但目前是為電商領域的概念理解所服務。在這一層中,我們定義了諸如"時間"、"地點"、"動作"、"功能"、"品類"、"IP"等一級分類 ( class ),并在每個分類下繼續(xù)細分出子分類,形成一顆樹形結構。在每個分類中,包含了分類的實例 ( instance ),即原子概念,如上述的"燒烤"、"戶外"和"晴"就分屬于"動作 - 消耗性動作"、"地點 - 公共空間"和"時間 - 天氣"。同時,不同分類之間有不同的關系 ( relation ),如"品類 - 服飾 - 服裝 - 褲子"和"時間 - 季節(jié)"之間定義了一個"適用于 ( 季節(jié) )"的關系。因此,相應的會有一條三元組實例:<棉褲,適用于,冬季>。

如果將上述的分類體系和原子概念層合起來,實際上可以看做一個相對完整的本體 ( Ontology ),它和 Freebase、DBpedia 等大家熟知的開放領域的知識圖譜非常相似,唯一的區(qū)別是我們的實例不僅有實體 ( entity ),還包括了大量的概念 ( concept )。而相比 Probase,ConceptNet 等概念圖譜,我們又定義了一套完整的類型系統(tǒng) ( type system )。

在商品 ( 內(nèi)容 ) 層,阿里巴巴平臺上數(shù)十億的商品和內(nèi)容,將會和電商概念、原子概念層進行關聯(lián)。如和"戶外燒烤"相關聯(lián)的商品可能會包括燒烤架、炭火、食材等等。但這里要注意的一點是,有些商品可以關聯(lián)到"戶外燒烤"這個電商概念,但不一定可以和相應的原子概念"戶外"直接關聯(lián)。對于商品來說,電商概念像是這個商品會被用于的某個場景,而原子概念更像是細粒度的屬性,用于刻畫商品的特性。

綜上所述,在 AliCoCo 的體系中,用戶需求被表達成短語級別的電商概念。在這之下,有一套定義完備的分類體系和原子概念實例去描述所有的電商概念。最后,電商平臺上的所有商品都會和電商概念或是原子概念相關聯(lián)。下面,我們詳細介紹每一層的細節(jié)以及在構建過程中所遇到的算法問題。

分類體系 ( Taxonomy )

AliCoCo 的分類體系是一個巨大的樹形結構,包含了百萬級別的原子概念實例。由于分類體系的構建,對專家知識的要求非常高,并且這部分的設計對于整個知識體系都至關重要,因此我們?nèi)斯ざx了約 20 個一級分類 ( 下圖 ),其中專為電商領域所設計的有:"品類"、"圖案"、"功能"、"材質(zhì)"、"花色"、"形狀"、"氣味"、"口味"。每個一級分類還會繼續(xù)細分為二級、三級,直至葉子分類,其中對于電商領域最為重要的"品類"包含了約800個葉子分類。諸如"時間"、"地點"、"受眾"、"IP"等分類和開放領域的知識圖譜可以交融,如"IP"中包含了大量的明星、運動員、電影、音樂等。

原子概念層 ( Primitive Concepts )

在原子概念層,我們希望這些細粒度的詞能夠去完整地描述所有的用戶需求,這是用于組成電商概念的基礎,在這一層,我們主要討論兩個問題:

1. 詞匯挖掘

在定義好分類體系之后,一般有兩種方式快速擴充分類下的實例 ( 詞匯 )。第一種是融合多種來源的結構化數(shù)據(jù),這種方法采用的技術通常是本體對齊 ( ontology matching ),在實踐過程中,我們主要采用規(guī)則+人工映射的方式將不同來源的結構化數(shù)據(jù)對齊到我們的分類體系進行詞匯的融合。第二種是通過在大規(guī)模的語料上進行自動挖掘來補充分類下的詞匯,這里我們將其定義為序列標注任務,并采用基于 BiLSTM+CRF [1] 的模型來挖掘發(fā)現(xiàn)分類下的新詞。由于葉子分類的數(shù)量過于龐大,我們使用一級分類作為label,先對詞匯進行粗粒度的挖掘。

上圖為 BiLSTM+CRF 模型的簡單示意,BiLSTM ( 雙向 LSTM ) 層用于捕捉句子上下位的語義特征,而 CRF ( 條件隨機場 ) 層則用于捕捉當前詞的 label 和前后詞 label 之間的相關性。而在模型挖掘得到可能屬于某個分類的新詞之后,后續(xù)還會經(jīng)由眾包投放審核、外包質(zhì)檢等人工把關環(huán)節(jié),最終才會入庫成為真正的原子概念。不同的原子概念可能擁有相同的名字,但分屬不同的類別,代表了不同的語義,每個原子概念有一個 ID,這也是 AliCoCo 未來可以用概念消歧的基礎。

2. 上下位關系構建

在某個一級分類下的詞匯挖掘到一定量后,我們需要繼續(xù)講所有詞匯分到不同層次的類別中去,這個過程可以抽象成為一個上下位關系發(fā)現(xiàn) ( hypernym discovery ) 的過程:給定一個下位詞,在詞表中找到其可能的上位詞。我們采用基于 pattern 的無監(jiān)督方法和基于 projection learning 的監(jiān)督方法兩種方式結合來完成上下位關系的構建。

Pattern based:

基于 pattern 的方式 [2] 是最直觀且準確率最高的方法,通過歸納和發(fā)現(xiàn)一些可用于判斷上下位關系的 pattern,從文本句子中直接抽取上下位詞對。典型的 pattern 如"XX,一種XX"、"XX,包括XX"等。但這種方式的缺點是默認上下位詞對在句子中必須共現(xiàn),會影響召回。此外,利用中文的一些特點,我們可以用過"XX褲"一定是"褲子"等來自動構建起一批置信度較高的上下位關系。

Projection learning:

Active learning:

模型產(chǎn)出候選和眾外包審核是一個同時進行的過程,人工審核的數(shù)據(jù)可以不斷反哺強化模型。因此,我們在迭代的過程中,考慮用 active learning 來進一步提升效率,降低人工審核的成本。我們采用了一種 uncertainty and high confidence ( UCS ) 的 sampling strategy,除了考慮模型難以判斷正負的樣例之外 ( 預測值接近 0.5 ),我們還額外添加了一定比例的高置信度判正的樣例一起送標,這是因為在上下位關系的判別中,很容易被諸如同義或者相關關系所干擾,尤其在前期樣本數(shù)量少且質(zhì)量不一,以及負采樣不均衡的情況下,模型對于區(qū)分相關關系和上下位的表現(xiàn)不是太好。而通過人工標注糾正這樣的判斷錯誤,可以及時懲罰這一類的誤判。實驗表明這樣的策略可以幫助我們減少 35% 的人力成本。

電商概念層 ( E-commerce Concepts )

在電商概念層,每一個節(jié)點代表了一種購物需求,這種購物需求可以用至少一個原子概念來描述。我們首先介紹電商概念的定義,然后介紹電商概念是如何被挖掘和生成的,最后介紹電商概念和原子概念之間的鏈接。

1. 電商概念的定義

我們定義一個符合標準的電商概念,需要滿足以下要求:

① 有消費需求

即一個電商概念必須可以讓人很自然地聯(lián)想到一系列商品,反例如"藍色天空"、"母雞下蛋"等就不是電商概念。

② 通順

反例如"仔細媽咪肥皂"等就不是電商概念。

③ 合理

即一個電商概念必須符合人類常識,反例如"歐式韓風窗簾"、"兒童性感連衣裙"等就不是電商概念,因為一個窗簾不可能即是歐式還是韓風的,而我們通常不會用性感去修飾一件兒童的連衣裙。

④ 指向明確

即一個電商概念必須有明確的受眾,反例如"兒童寶寶輔食"等就不是電商概念,因為兒童的輔食和寶寶的輔食差別較大,會造成用戶的疑惑。

⑤ 無錯別字

反例如"印渡神油"等。

2. 電商概念的生成

我們采用一個兩階段的方式來生成電商概念:首先我們用兩種不同的方式生成大量的候選,然后用一個判別模型來過濾那些不滿足我們的標準的候選。

候選生成:

候選生成有兩種方式,一種是從文本語料中去挖掘可能的短語,這里我們采用了 AutoPhrase [6] 在大規(guī)模的語料上進行挖掘,語料包括電商生態(tài)內(nèi)的 query log,商品的標題、評論,還有很多達人商戶寫的購物攻略等。另一種方式是用詞粒度的原子概念進行組合生成短語粒度的電商概念。我們挖掘并人工審核了一些 pattern 來賦值生成,部分 pattern 如下圖所示:

我們可以通過"[事件]用的[功能][品類]"這個 pattern 來生成"旅游用的保暖帽子"這樣的電商概念。而這些 pattern 可以和下面的判別過程結合,通過迭代的方式來進行不斷地挖掘和補充。

電商概念判別:

判斷一個候選短語是否滿足電商概念的要求,最大的挑戰(zhàn)是上文提到的第三點,即"合理",要符合人的常識。其他一些要求我們可以通過字級別或是詞級別的語言模型就能過濾掉大部分的 badcase,但常識錯誤的識別對機器來說是非常困難的。此外,電商概念判別任務中的候選短語又嚴重缺少上下文信息,進一步增加了判別的難度。

為了解決這個難題,我們設計了一種知識增強的判別模型 ( 如下圖所示 ),整體是一個 Wide&Deep [7] 的結構。在 Deep 側(cè),我們利用字級別和詞級別的 BiLSTM 來提取特征,同時對于詞級別的輸入,我們還加入了一些詞性特征如 POS tag 和 NER label 等。為了進行知識增強來輔助常識理解,我們將部分詞鏈接到 Wikipedia 上,如"性感"就可以找到對應的頁面。然后將頁面上的 gloss ( 通常是一段簡單的介紹 ) 用 Doc2vec [8] 的方式進行 encode 得到知識表達。在經(jīng)過 self-attention + max-pooling 之后將兩者融合。在 Wide 側(cè),我們主要計算了 concept 的一些統(tǒng)計特征,包括了 BERT [9] 語言模型產(chǎn)出的 ppl 值。最后,通過一個全連接層我們得到最終衡量一個候選短語是否符合電商概念要求的分數(shù)。

我們希望模型能輔助我們過濾掉大量的 badcase,此后我們對模型判別正確的電商概念通過眾包投放審核和外包多輪質(zhì)檢的方式來保證數(shù)據(jù)質(zhì)量。同時,審核入庫的數(shù)據(jù)會繼續(xù)迭代地幫助模型進一步提高準確率。

和原子概念的鏈接:

對于那些通過從原子概念組合而得到的電商概念,它們天然地和原子概念關聯(lián)了起來,但對于那些從文本中直接挖掘得到的短語概念,我們需要進一步將它們和原子概念層進行鏈接,以便更好地去理解和描述這些用戶需求?;仡櫱拔奶岬降碾娚谈拍?#34;戶外燒烤",我們需要預測"戶外"是一個"地點","燒烤"是一個"動作"。但"燒烤"在我們的體系中也有可能是一個"電影",所以這里的難點在于如何進行消歧。我們把這個任務定義為一個短文本的 NER 任務,由于電商概念普遍只有 2-3 個詞組成,缺少上下文也讓這個任務具有挑戰(zhàn)。

為了解決這個問題,我們設計了一種文本增強的方式,對短文本中待鏈接的詞進行外部上下文的補充,用以為消歧帶來額外的信息輔助。模型如上圖所示,左邊部分是比較常規(guī)的特征抽取,右邊是一個信息增強的模塊。我們將目標詞映射到高質(zhì)量的外部文本中,通過 doc2vec 將其周邊的上下文信息 encode 成 embedding,最終最為額外的輸入融合到最終的表達中。此外,由于部分電商概念中的原子概念可以屬于多個類型,如"鄉(xiāng)村半身裙"中的"鄉(xiāng)村",既可以是"地點",也可以是"風格"。因此我們將 CRF 層改為 Fuzzy-CRF [10],用以建模多個正確的 label 序列:

商品關聯(lián) ( Item Association )

在構建完原子概念和電商概念層之后,最重要的是將電商平臺上的所有商品進行關聯(lián)。前面提到原子概念更像是屬性,因而我們更關注商品與電商概念的關聯(lián),因為后者表達的是一個用戶需求,常常有著較為復雜的語義。此外,電商概念與商品的關聯(lián)不能直接從對應的原子概念到商品的關聯(lián)組合得到,因為會出現(xiàn)"語義漂移"的問題。例如"戶外燒烤"所需要的商品,往往和屬性"戶外"沒有任何關系。我們將這個問題抽象為一個語義匹配 ( semantic match ) [11, 12] 的問題,因為現(xiàn)階段我們暫時只用到商品側(cè)標題的信息 ( 實際上商品是一個多模態(tài)的結構,有著非常豐富的文本、圖像甚至越來越多的商品開始有了短視頻的介紹 )。這個任務最大的挑戰(zhàn)依舊在于我們的電商概念非常簡短,直接進行匹配,往往會遇到諸如某些不那么重要詞對結果產(chǎn)生了巨大的影響等問題。

針對上述難點,我們在語義匹配模型上引入了一些必要的外部知識來提升性能。具體模型如上圖所示,除了常規(guī)的特征抽取,attention 注意力機制模塊等建模商品和電商概念之間的關聯(lián)外,我們主要做了兩個地方的增強:

應用

目前,AliCoCo 已經(jīng)基本完成了 1.0 版本的建設,共包含 2.8m 的原子概念,5.3m 的電商概念,超過千億級別的關系。淘寶天貓上超過 98% 的商品均已納入到 AliCoCo 的體系之中,平均每個商品關聯(lián)了 14 個原子概念和 135 個電商概念。通過對用戶需求的統(tǒng)計,相較于之前的商品管理體系,AliCoCo 對于搜索 query 中用戶需求的覆蓋從35%提升到了 75%。AliCoCo 已經(jīng)支持了阿里巴巴集團核心電商的多個業(yè)務應用,這里我們主要介紹在電商搜索和推薦上已經(jīng)落地的、正在進行的,以及將要進行的一些應用。

1. 電商搜索

相關性是搜索引擎的核心問題,其最大的挑戰(zhàn)在于用戶輸入的 query 和商品端之間存在語義隔閡。AliCoCo 中已經(jīng)為大量的原子概念和電商概念關聯(lián)了相應的商品,為商品理解提供了從用戶視角出發(fā)的大量標簽,同時 AliCoCo 包含了大量的同義和上下位關系,這些數(shù)據(jù)幫助了搜索相關性取得顯著的提升,從而進一步改善了用戶體驗。

語義搜索和自動問答一直人們對于搜索引擎的夢想。在電商的場景中,我們可以充分發(fā)揮 AliCoCo 的優(yōu)勢,當用戶搜索命中電商概念的時候,通過一個知識卡片的形式透出該電商概念下多樣化的商品,類似 Google 的知識圖譜幫助搜索引擎在用戶檢索一些實體時透出知識卡片。如上圖 (a) 所示,當用戶在淘寶搜索"烘焙"時,命中了相應的電商概念"烘焙工具",于是會透出一個卡片,上面的商品按照不同品類來進行排序展示。此外,我們還可以透出一些對于烘焙知識的文字解釋用于輔助用戶進行決策。而電商場景中的自動問答,更多出現(xiàn)在語音交互的場景中,我們可以在家里問天貓精靈"周末要組織一場戶外燒烤,我需要準備哪些東西?",AliCoCo 可以為這樣的場景提供底層知識的支持。

2. 電商推薦

目前電商推薦主要以商品推薦的形式為主,但為了滿足用戶豐富多樣的購物需求,我們也需要為用戶做一些主題式的推薦,讓用戶能夠明顯感知到推薦系統(tǒng)能更人性化地在滿足其購物需求。AliCoCo 中的電商概念,正是為了表達用戶需求,同時 2-3 個詞的長度也非常適合直接推送給用戶。如上圖 (b) 中所示,在手機淘寶首頁信息流推薦中,我們在商品坑位之間插入了以電商概念為主題的知識卡片,當用戶點擊卡片時,就會跳到相應的頁面,展示該電商概念下的商品。這個應用目前已經(jīng)穩(wěn)定運行了超過一年,滿足了用戶多樣化的推薦需求,進一步提升了用戶的滿意度。

此外,電商概念簡短的文字也非常適合用作推薦理由展示在商品坑位中,進一步吸引用戶,如上圖 (c) 所示。AliCoCo 為可解釋的推薦提供了數(shù)據(jù)基礎。

總結

為了支持電商技術從個性化時代全面邁入認知智能時代,我們投入了巨大的心血和努力探索并構建了全新一代的電商知識圖譜 AliCoCo,目前 AliCoCo 已成為阿里巴巴電商核心引擎的底層基礎,賦能搜索、推薦、廣告等電商核心業(yè)務。同時,通過海量的線上用戶反饋,AliCoCo 也在不斷地對其自身的結構和數(shù)據(jù)進行補充與完善,形成了一個良性生長的循環(huán)。對于 AliCoCo 2.0 的方向,我們未來考慮:

關鍵詞:圖譜,知識

74
73
25
news

版權所有? 億企邦 1997-2025 保留一切法律許可權利。

為了最佳展示效果,本站不支持IE9及以下版本的瀏覽器,建議您使用谷歌Chrome瀏覽器。 點擊下載Chrome瀏覽器
關閉