搜索推薦技術(shù)在電商導(dǎo)購領(lǐng)域的應(yīng)用(三):自動分類
有一個問題需要解決:自動分類。做好個性化商品推薦,商品整理是第一站。類目,是最為基礎(chǔ)的整理。我們需要將每一個商品分到一個具體的類目上去,商品數(shù)量龐大,這個過程要...
有一個問題需要解決:自動分類。做好個性化商品推薦,商品整理是第一站。類目,是最為基礎(chǔ)的整理。我們需要將每一個商品分到一個具體的類目上去,商品數(shù)量龐大,這個過程要自動化,這就是商品自動分類問題。
我們來熱熱身吧,做幾道分類題:
“AppleiPhone6(A1586)16GB金色移動聯(lián)通電信4G手機”
【第一滴血】so easy,是一個“手機”
“snidel * S家新款王小俊日系蓬蓬裙雙層松緊高腰短裙裙褲現(xiàn)貨實拍”
【主宰分類】嗯……應(yīng)該是“半身裙”,這個要分對就需要動一動腦子
“華為 HUAWEI 電源適配器+數(shù)據(jù)線 5V/2A快充 USB帶線充電頭”
【分類如麻】這個是“充電器”,來個有點難度的
“福建特產(chǎn) 正宗金冠黑糖話梅糖200g 含上等梅肉 酸甜好滋味”
【無人能擋】這個……是糖果,有沒有更變態(tài)的
“美利達勇士公爵500 550 600 650 700挑戰(zhàn)者350可載人行李架后貨架”
【變態(tài)分類】 靠關(guān)鍵詞聯(lián)想已經(jīng)不夠了,查資料后知這是一個“自行車配件”,哈哈,還有誰?!
“比iphone還好用的諾基亞手機的手機套”
【已經(jīng)超神】這……
你看,解決這個問題并沒有看上去那么簡單,每個商品標(biāo)題中不會100%包含類目相關(guān)信息,怎么破?
分類1.0
我們研發(fā)的一代分類技術(shù)是比較樸素的,通過對應(yīng)表+特征庫來解決。
對應(yīng)表是一個簡單的配置文件,保存(關(guān)鍵詞,分類)的對應(yīng)關(guān)系:
“手機” ——> 手機
“牛仔褲” ——> 牛仔褲
…….
特征詞庫是對應(yīng)表的升級版(對應(yīng)表plus?),維護的是(關(guān)鍵詞組合,分類)的對應(yīng)關(guān)系:
“AppleiPhone6” ——> 手機
“棉麻 小腳 長褲 收腰 鉛筆褲” ——> 休閑長褲
“美利達 勇士 公爵 行李架 貨架” ——> 自行車配件
…….
這一整套樣本數(shù)據(jù)完全由人工整理,分類1.0的程序也很簡單,運行起來嘛……,“看上去”很可靠。首先,分類1.0一切的一切都建立在人工數(shù)據(jù)基礎(chǔ)上,只要樣本整理的好,分的結(jié)果就好,整理的不好就……。其次,人的精力是有限的,如果要大規(guī)模標(biāo)注,就需要維持大規(guī)模的運營團隊。最后,人沒有整理過的商品特征,就沒辦法分好,bug數(shù)量處于失控狀態(tài)。
隨著數(shù)據(jù)指標(biāo)的要求提升,數(shù)據(jù)集的增長,這套系統(tǒng)已經(jīng)不堪重負(fù)。
分類2.0
因此,我們研發(fā)了新系統(tǒng)——分類2.0。分類2.0結(jié)合商品信息的特征,避免了由于特征庫對分類帶來的干擾,同時可以保證以較高的效率完成在線分類任務(wù)。(分類2.0由我司一枚殿堂級工程師所創(chuàng)作,哎呀,現(xiàn)在回想起來,那一段時光真是令人懷念……)
分類2.0的技術(shù)要點
1.使用分詞技術(shù)對商品標(biāo)題信息分詞處理,使用分詞結(jié)果作為商品的特征tag,用tag來描述該商品
2.過濾沒有意義的tag,保留能夠有效描述該商品的tag
3.利用互信息計算訓(xùn)練集數(shù)據(jù)中,各個分類和該分類中商品所有tag的相關(guān)度
4.預(yù)測一個新商品的類別時,計算該商品中的所有tag在每個分類中相關(guān)度值,使用分類中所有tag相關(guān)度值的和作為商品在該分類中的得分
5.得分最高的類別即為該商品的分類
以一個具體的商品處理來說清楚這個流程,:
1.基于商品庫對商品進行分詞處理&過濾無意義詞
如:黑色iphone蘋果手機新上市,分詞&過濾結(jié)果為:iphone,手機,黑色
2.利用互信息計算各分類與其中tag的相關(guān)度:
互信息計算公式:
I(x,y) = log(p(x|y))-log(p(x))
其中:
p(x) 代表 x在所有商品中出現(xiàn)的概率
p(x|y)代表x在類別y中出現(xiàn)的條件概率
下表為10個商品的類別及分詞結(jié)果
計算示例商品在上面的商品集中,手機類的互信息
a)概率計算
p(iphone) = 0.1
p(黑色) = 0.4
p(手機) = 0.2
p(iphone |手機) = 0.25
p(手機|手機) = 0.5
p(黑色|手機) = 0.25
b)互信息計算
I(iphone,手機) = log(p(iphone |手機))-log(p(iphone)) = -1.3863 + 2.3026 = 0.9163
I(手機,手機) = log(p(手機|手機))-log(p(手機)) = -0.6931 + 1.6094 = 0.9163
I(黑色,手機) = log(p(黑色|手機))-log(p(黑色)) = -1.3863 + 0.9163 = -0.47
c) 以此類推,可以算出iphone,手機,黑色三個關(guān)鍵詞在3個類別中分別的條件概率以及互信息
下表為關(guān)鍵詞在各個類別中的互信息
3.計算1中示例商品在各個分類中的相關(guān)度
Class(手機)= 0.9163+0.9163-0.6932=1.1394
Class(電腦)=0.0+0.0+0.2231=0.2231
Class(服裝)= 0.0+0.0+0.2231=0.2231
4.由3可以看出示例商品分類為“手機”類別
我們用這套分類2.0系統(tǒng),重新處理所有商品,隨著訓(xùn)練集的不斷擴展,準(zhǔn)確率和召回率都在90%以上;同時也解放了運營團隊,他們不需要再每天標(biāo)記什么對應(yīng)表了。
這,就是算法的力量!一個好的算法可以極大的提高生產(chǎn)力。通過算法提升產(chǎn)品流程,需要很強的功力,否則就像篇頭漫畫所表達的,不好的算法上線后,效果還可能退步。總之,算法研究就像基礎(chǔ)科學(xué),需長期投入,一旦開花,提升是極大的。
-
無相關(guān)信息