搜索推薦技術(shù)在電商導(dǎo)購(gòu)領(lǐng)域的應(yīng)用一:分詞

2015-11-11 09:26:00 來源:知乎網(wǎng) 作者:佚名 人氣: 次閱讀 196 條評(píng)論

隨著經(jīng)濟(jì)不斷發(fā)展,人們對(duì)消費(fèi)品質(zhì)要求也水漲船高,也更加個(gè)性化。線下實(shí)體的陳列空間是有限的,網(wǎng)上陳列空間是無限的,所以這十多年來,電子商務(wù)一直處于蓬勃發(fā)展之中。...

QQ截圖20151111094056

作者:高揚(yáng)

電商領(lǐng)域浸淫多年,近期有空對(duì)這些年的實(shí)踐經(jīng)歷做些整理,嘮叨嘮叨我們遇到的問題和用到的技術(shù)解決方案,歡迎同行交流。

PS:封面圖跟本文沒有任何卵關(guān)系,純粹個(gè)人喜歡……

導(dǎo)購(gòu)領(lǐng)域的發(fā)展

隨著經(jīng)濟(jì)不斷發(fā)展,人們對(duì)消費(fèi)品質(zhì)要求也水漲船高,也更加個(gè)性化。線下實(shí)體的陳列空間是有限的,網(wǎng)上陳列空間是無限的,所以這十多年來,電子商務(wù)一直處于蓬勃發(fā)展之中。

海量商品,雖然極大豐富了的選擇,但也讓你挑花了眼,經(jīng)常會(huì)被坑爹……所以,這就有了導(dǎo)購(gòu)的生存土壤。導(dǎo)購(gòu),故名思議,引導(dǎo)購(gòu)物,本質(zhì)上是一個(gè)信息過濾器,針對(duì)個(gè)人的需求和喜好,將海量商品過濾成有限選擇,減輕挑選成本。

如果把網(wǎng)上商品庫(kù)比喻成一個(gè)西瓜,導(dǎo)購(gòu)就是切西瓜的刀,一個(gè)特定的角度切入,就是一個(gè)導(dǎo)購(gòu)方向。舉個(gè)栗子:

早期的購(gòu)物搜索、購(gòu)物推薦是最早的導(dǎo)購(gòu)形態(tài),讓用戶自助尋找想買的商品;

折800,聚劃算,9塊9包郵,什么值得買等,是以價(jià)格角度切入;

美麗說、蘑菇街是以女性時(shí)尚角度切入;

chiphell,knewone是以男性原創(chuàng)曬單角度切入……

只要網(wǎng)上的商品信息保持持續(xù)增長(zhǎng),信息過濾、商品挑選的用戶痛點(diǎn)也會(huì)日益增加,導(dǎo)購(gòu)需求就會(huì)永遠(yuǎn)存在。

個(gè)性精準(zhǔn)導(dǎo)購(gòu),對(duì)技術(shù)要求較高,需要用到搜索,推薦,機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域技術(shù)。

導(dǎo)購(gòu)離錢近,可很快有現(xiàn)金流,屬于“自我造血型”業(yè)務(wù),在這個(gè)資本寒冬里,是一個(gè)不錯(cuò)的選擇。

做好導(dǎo)購(gòu),未來可演化成垂直電商平臺(tái),發(fā)展前景廣闊,美麗說、蘑菇街是成功案例。

說那么多廢話,我就是想簡(jiǎn)單講一下分詞

為了有效的給用戶推薦商品,首先要理解用戶需求和商品,這兩者的精準(zhǔn)刻畫都離不開分詞。

我們這里說的分詞是指中文分詞,指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。這是中文特有的問題(英文有空格可以天然分隔),需要進(jìn)行一些技術(shù)處理。

通用的分詞算法可分三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。這里不展開詳述,大家可以自行百度,這三個(gè)分詞流派我們都用上了。

在實(shí)踐過程會(huì)發(fā)現(xiàn),無論哪種方法,都保證不了100%的召回率和準(zhǔn)確率,技術(shù)同學(xué)通常面臨這樣一個(gè)難題:召回率83%,準(zhǔn)確率91%,想進(jìn)一步提高準(zhǔn)確率,就很難保持召回率不降低,怎么破?!

這時(shí)候,你需要詞典了。

購(gòu)物分詞優(yōu)化到后期,基本就是詞典的優(yōu)化過程。

詞典是一個(gè)擴(kuò)展集合,用于保存預(yù)先分好的詞,每一個(gè)詞要標(biāo)注詞性。詞性,就是詞的性質(zhì),是對(duì)一個(gè)詞的進(jìn)一步解釋,比如“D100”在詞性是“系列”,“尼康”的詞性是“品牌”。(詞條,詞性)組合,可以保存對(duì)應(yīng)的領(lǐng)域知識(shí)。

再列舉一些我們用到的詞性

核心詞:如品牌,型號(hào),系列,商品名等

修飾詞:如顏色,材質(zhì),風(fēng)格等

Stopword:無意義的詞,如包郵,淘寶熱賣等

我們?cè)~典的最大特點(diǎn)是基于分類的,也就是說,詞典中每一個(gè)詞的詞性并不是唯一性確定的,在不同類目下有不同的詞性含義。目前我們維護(hù)的電商分類是數(shù)千個(gè)節(jié)點(diǎn),深度為4的樹形結(jié)構(gòu),常見的分類有手機(jī),連衣裙,膨化食品……

這是我們一個(gè)詞條的印象,大家感覺一下。

下面是我們?cè)O(shè)計(jì)的詞條數(shù)據(jù)結(jié)構(gòu)。

我們?cè)~條的詞性是基于分類的。

詞條的組織形式是分形的,可遞歸,父詞條結(jié)構(gòu)和詞條是一樣的。

這是詞性維度的數(shù)據(jù)結(jié)構(gòu),也是基于分類的。

最終,我們通過詞條關(guān)系的構(gòu)建,搭建成如上類目屬性庫(kù),在各種商品文本處理場(chǎng)景中使用。

那么問題來了,那么多品牌詞,類目詞,修飾詞都是從哪里來的呢?

答:從大數(shù)據(jù)里面來。

通過海量商品文本數(shù)據(jù),我們對(duì)文本中,相鄰的keyword建立起概率鏈模型,如果兩個(gè)keyword經(jīng)常一起出現(xiàn),同時(shí)詞條庫(kù)里面還沒有,那很可能是一個(gè)新詞。這時(shí)候,人工介入標(biāo)注,更新詞條庫(kù)。日積月累,詞條庫(kù)會(huì)越來越強(qiáng)大!

最后,我們的購(gòu)物分詞系統(tǒng),就演化成介個(gè)醬紫的。

    無相關(guān)信息