搜索推薦技術(shù)在電商導(dǎo)購領(lǐng)域的應(yīng)用(三):自動分類

2015-11-11 09:33:00 來源:Pmcaff 作者:佚名 人氣: 次閱讀 180 條評論

有一個問題需要解決:自動分類。做好個性化商品推薦,商品整理是第一站。類目,是最為基礎(chǔ)的整理。我們需要將每一個商品分到一個具體的類目上去,商品數(shù)量龐大,這個過程要...

<a href=/tech/biz/ target=_blank class=infotextkey>電商</a>搜索引擎 電商搜索優(yōu)化 搜索推薦技術(shù) 搜索技術(shù)

有一個問題需要解決:自動分類。做好個性化商品推薦,商品整理是第一站。類目,是最為基礎(chǔ)的整理。我們需要將每一個商品分到一個具體的類目上去,商品數(shù)量龐大,這個過程要自動化,這就是商品自動分類問題。

我們來熱熱身吧,做幾道分類題:

“AppleiPhone6(A1586)16GB金色移動聯(lián)通電信4G手機

【第一滴血】so easy,是一個“手機”

“snidel * S家新款王小俊日系蓬蓬裙雙層松緊高腰短裙裙褲現(xiàn)貨實拍”

【主宰分類】嗯……應(yīng)該是“半身裙”,這個要分對就需要動一動腦子

華為 HUAWEI 電源適配器+數(shù)據(jù)線 5V/2A快充 USB帶線充電頭”

【分類如麻】這個是“充電器”,來個有點難度的

“福建特產(chǎn) 正宗金冠黑糖話梅糖200g 含上等梅肉 酸甜好滋味”

【無人能擋】這個……是糖果,有沒有更變態(tài)的

“美利達勇士公爵500 550 600 650 700挑戰(zhàn)者350可載人行李架后貨架”

【變態(tài)分類】 靠關(guān)鍵詞聯(lián)想已經(jīng)不夠了,查資料后知這是一個“自行車配件”,哈哈,還有誰?!

“比iphone還好用的諾基亞手機的手機套”

【已經(jīng)超神】這……

你看,解決這個問題并沒有看上去那么簡單,每個商品標(biāo)題中不會100%包含類目相關(guān)信息,怎么破?

分類1.0

我們研發(fā)的一代分類技術(shù)是比較樸素的,通過對應(yīng)表+特征庫來解決。

對應(yīng)表是一個簡單的配置文件,保存(關(guān)鍵詞,分類)的對應(yīng)關(guān)系:

“手機” ——> 手機

“牛仔褲” ——> 牛仔褲

…….

特征詞庫是對應(yīng)表的升級版(對應(yīng)表plus?),維護的是(關(guān)鍵詞組合,分類)的對應(yīng)關(guān)系:

“AppleiPhone6” ——> 手機

“棉麻 小腳 長褲 收腰 鉛筆褲” ——> 休閑長褲

“美利達 勇士 公爵 行李架 貨架” ——> 自行車配件

…….

這一整套樣本數(shù)據(jù)完全由人工整理,分類1.0的程序也很簡單,運行起來嘛……,“看上去”很可靠。首先,分類1.0一切的一切都建立在人工數(shù)據(jù)基礎(chǔ)上,只要樣本整理的好,分的結(jié)果就好,整理的不好就……。其次,人的精力是有限的,如果要大規(guī)模標(biāo)注,就需要維持大規(guī)模的運營團隊。最后,人沒有整理過的商品特征,就沒辦法分好,bug數(shù)量處于失控狀態(tài)。

隨著數(shù)據(jù)指標(biāo)的要求提升,數(shù)據(jù)集的增長,這套系統(tǒng)已經(jīng)不堪重負(fù)。

分類2.0

因此,我們研發(fā)了新系統(tǒng)——分類2.0。分類2.0結(jié)合商品信息的特征,避免了由于特征庫對分類帶來的干擾,同時可以保證以較高的效率完成在線分類任務(wù)。(分類2.0由我司一枚殿堂級工程師所創(chuàng)作,哎呀,現(xiàn)在回想起來,那一段時光真是令人懷念……)

分類2.0的技術(shù)要點

1.使用分詞技術(shù)對商品標(biāo)題信息分詞處理,使用分詞結(jié)果作為商品的特征tag,用tag來描述該商品

2.過濾沒有意義的tag,保留能夠有效描述該商品的tag

3.利用互信息計算訓(xùn)練集數(shù)據(jù)中,各個分類和該分類中商品所有tag的相關(guān)度

4.預(yù)測一個新商品的類別時,計算該商品中的所有tag在每個分類中相關(guān)度值,使用分類中所有tag相關(guān)度值的和作為商品在該分類中的得分

5.得分最高的類別即為該商品的分類

以一個具體的商品處理來說清楚這個流程,:

1.基于商品庫對商品進行分詞處理&過濾無意義詞

如:黑色iphone蘋果手機新上市,分詞&過濾結(jié)果為:iphone,手機,黑色

2.利用互信息計算各分類與其中tag的相關(guān)度:

互信息計算公式:

I(x,y) = log(p(x|y))-log(p(x))

其中:

p(x) 代表 x在所有商品中出現(xiàn)的概率

p(x|y)代表x在類別y中出現(xiàn)的條件概率

下表為10個商品的類別及分詞結(jié)果

電商搜索引擎 電商搜索優(yōu)化 搜索推薦技術(shù) 搜索技術(shù)

計算示例商品在上面的商品集中,手機類的互信息

a)概率計算

p(iphone) = 0.1

p(黑色) = 0.4

p(手機) = 0.2

p(iphone |手機) = 0.25

p(手機|手機) = 0.5

p(黑色|手機) = 0.25

b)互信息計算

I(iphone,手機) = log(p(iphone |手機))-log(p(iphone)) = -1.3863 + 2.3026 = 0.9163

I(手機,手機) = log(p(手機|手機))-log(p(手機)) = -0.6931 + 1.6094 = 0.9163

I(黑色,手機) = log(p(黑色|手機))-log(p(黑色)) = -1.3863 + 0.9163 = -0.47

c) 以此類推,可以算出iphone,手機,黑色三個關(guān)鍵詞在3個類別中分別的條件概率以及互信息

下表為關(guān)鍵詞在各個類別中的互信息

電商搜索引擎 電商搜索優(yōu)化 搜索推薦技術(shù) 搜索技術(shù)

3.計算1中示例商品在各個分類中的相關(guān)度

Class(手機)= 0.9163+0.9163-0.6932=1.1394

Class(電腦)=0.0+0.0+0.2231=0.2231

Class(服裝)= 0.0+0.0+0.2231=0.2231

4.由3可以看出示例商品分類為“手機”類別

我們用這套分類2.0系統(tǒng),重新處理所有商品,隨著訓(xùn)練集的不斷擴展,準(zhǔn)確率和召回率都在90%以上;同時也解放了運營團隊,他們不需要再每天標(biāo)記什么對應(yīng)表了。

這,就是算法的力量!一個好的算法可以極大的提高生產(chǎn)力。通過算法提升產(chǎn)品流程,需要很強的功力,否則就像篇頭漫畫所表達的,不好的算法上線后,效果還可能退步。總之,算法研究就像基礎(chǔ)科學(xué),需長期投入,一旦開花,提升是極大的。

    無相關(guān)信息