人工智能時代 語音技術(shù)怎么賺錢?

2016-11-15 15:42:45 來源:i黑馬  作者:佚名 人氣: 次閱讀 152 條評論

  半個月前的錘子手機發(fā)布會讓全國人民(包括我媽)知道了一家叫科大訊飛的公司,以及語音智能這件事?! ∥覜]有在現(xiàn)場。據(jù)說老羅向觀眾們介紹了錘子的主要合作伙伴科...

  半個月前的錘子手機發(fā)布會讓全國人民(包括我媽)知道了一家叫科大訊飛的公司,以及語音智能這件事。

  我沒有在現(xiàn)場。據(jù)說老羅向觀眾們介紹了錘子的主要合作伙伴科大訊飛的一款產(chǎn)品——訊飛輸入法。老羅用很快的語速說出一大段長文字,訊飛做到了無時差翻出文字版本,并且識別結(jié)果幾乎沒有任何偏差,堪稱完美,現(xiàn)場一片歡呼。

  訊飛輸入法支持 19 種方言輸入,相比蘋果的 Siri,以及微軟的 Cortana, 訊飛輸入法顯然在本土化上占盡優(yōu)勢。

  訊飛輸入法背后的公司叫科大訊飛,是目前國內(nèi)最大的智能語音技術(shù)提供商。第二天,科大訊飛的股價在開盤點迎來了新高。鑒于從 2008 年科大訊飛上市開始股價表現(xiàn)平平,不少人表示終于熬到了可以套現(xiàn)的時刻。

  除了訊飛,國內(nèi)在近幾年內(nèi)崛起了一連串致力于智能語音的創(chuàng)新公司,典型代表有思必馳、聲智科技,以及云知聲。

  人工智能時代來臨,語音技術(shù)公司的春天又來了。圍繞 AI 的創(chuàng)業(yè)團隊如雨后春筍,智能語音技術(shù)的應用成為它們打開市場的首要選擇,幾乎每個月都會有數(shù)款語音交互機器人發(fā)布。除了硬件,語音服務平臺也迅速被建立。鍵盤作為輸入系統(tǒng)即將被停留在上個時代,人類將用語言和機器進行交互。智能家居和車載成為語音產(chǎn)業(yè)最集中的領(lǐng)地,也即將誕生出先的爆發(fā)市場。

  然而,高新技術(shù)怎么賺錢、做什么賺錢,是一個永恒的話題。事實上,熱炒的訊飛輸入法、訊飛語點以及訊飛語音云,僅占訊飛的總營收 3% 左右,收入不足千萬。道聽途說的還有一件事,科大訊飛每年 20 多億的收入,其中絕大多數(shù)來源于鋪網(wǎng)線和做教育工程的集成,并非是高精尖的智能語音技術(shù)。

  上個月,在深圳舉辦的一場小型內(nèi)部智能語音研討會上,思必馳副總裁、聲智科技創(chuàng)始人,以及來自峰瑞資本、祥峰投資的兩位關(guān)注人工智能的早期投資人進行了關(guān)于“語音技術(shù)如何賺錢”的話題討論。恰好我在現(xiàn)場,覺得說得非常不錯,有些段落簡直堪稱精彩。于是要來了錄音記錄和版權(quán),分享給大家。這里也許有你想要聽的實話、真話。

  —— 深藍DeeperBlue 季星

  2016.11.11

  研討嘉賓

  

1

  

2

  2012 年智能手機出現(xiàn)后,短短幾年內(nèi),國內(nèi)就涌現(xiàn)了一大批語音相關(guān)的公司,像云知聲、思必馳、科大訊飛,發(fā)展都非常迅速,很快進入了公眾的視野。這也得益于手機這個智能終端的發(fā)展,使得語音成為手機上的一個重要應用。

  而在 2015 年,我們依然認為語音是一個非常好的投資機會。原因有以下兩點:首先,雖然在過去的兩到三年里,人工智能的發(fā)展使得語音技術(shù)取得了很大進步,但我們發(fā)現(xiàn)實際準確率仍然不夠高——雖然大家根據(jù)實驗數(shù)據(jù)進行宣傳,說準確率達到了 95% 以上或者更高,但實際情況是,在實際使用時并沒有那么高。

  拋開算法和技術(shù)方面不談,前端的很多問題我們還沒有解決。我打個最簡單的比方:過去我們討論的語音識別技術(shù),有點像人類的大腦——在聽到聲音之后,我們?nèi)绾芜M行翻譯,或是怎樣把它變成大腦可以理解的信息。但實際上,關(guān)于耳朵的問題我們還沒有解決——如何排除噪聲干擾?如何在多人講話的時候會聽清想聽的內(nèi)容?如何在距離較遠時分別聲音的方位?前端的語音/聲學交互的很多問題如果得不到解決,整體的體驗始終不夠好。

  第二點,從數(shù)據(jù)上看,蘋果上語音搜索的使用率其實并沒有那么高,原因在于,手機雖然不是鍵盤的,但觸屏的體驗還是很好的。發(fā)展的前景在于智能硬件:在手機之后,大量智能終端的爆發(fā),包括家居、車載、可穿戴設備、機器人等,這些智能終端上的鍵盤——或者說手指就變得更加不重要以及不友好,而語音則變得更加友好和重要。

  

3

  思必馳語音智能后視鏡,駕駛員在跟機器交流的時候,可以隨時打斷機器的說話,讓他去執(zhí)行其他任務,讓機器做你臨時想做的事情。可以解放雙手,讓駕駛更安全。

  基于以上兩點,我們認為,語音技術(shù)還會有更多發(fā)展和進步。

  關(guān)于語音技術(shù),大家其實一直都面臨一個問題,就是怎么賺錢?科大訊飛 20 多億的收入,其中絕大多數(shù)是鋪網(wǎng)線和做項目工程,前沿科技類的東西其實是沒有賺到錢的。

  在線上,我們本來可以提供 API 賺錢,但后來百度免費了,那其他人也只能免費了。做 APP 去對接服務,大家會覺得手機上的用戶習慣、行為習慣還沒建立起來。所以我想問就這個很實際的問題聽聽大家怎么看。

  

4

  這個問題很好,也很難回答。對思必馳來說,我們現(xiàn)在是在考慮怎樣把錢燒掉,并沒有考慮怎么賺錢這件事,這件事情確實是比較難。

  現(xiàn)在其實大家能夠看到,從 PC 和互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)、再到其他,語音很可能是一個方向。語音作為一個便捷的交互方式之一,隨著智能硬件設備的迭代更新,它有可能會成為替代觸屏的交互模式。這也是為什么資本和技術(shù)都聚焦在這一塊,使得人工智能的一個小春天在寒冬中誕生。

  賺錢這件事情,目前我們確實看不清。

  但是圍繞著這個方向,我們可以看到一些大方向:一個是核心技術(shù)以及產(chǎn)品體驗的提升,這是必須要做的。第二個則是,我相信大部分公司,在未來肯定會有一筆相對不多也不少的技術(shù)授權(quán)費之類,雖然這部分不足以滿足資本需求。

  然而我仍舊相信,未來無論是 2C 也好、2B 也好,在這個環(huán)節(jié)上大家都在探索。這條路徑是曲折的,但方向一定是正確的。

  

5

  我先簡單介紹一下祥峰投資,我們是新加坡淡馬錫旗下的 VC,主要關(guān)注消費和技術(shù)領(lǐng)域的中早期投資,在人工智能方向投資了地平線、Maxent 等。下面我從投資方的角度簡單談一些看法。

  要看怎么賺錢,最主要的是找到需求在哪。在看了這么多創(chuàng)業(yè)項目后,我們會思考在中國的消費生態(tài)下,那些賺錢的公司是怎么來的?其實核心是抓住用戶的真正的需求點,從需求點出發(fā),考慮怎么樣去做產(chǎn)品,然后追溯到你的上游,再到頂層甚至是芯片,找到哪里有機會。

  首先,在手機端,語音作為輸入方式是有需求的,但剛才大家都說,現(xiàn)在如今只是在手機上做一個語音識別的技術(shù),提供一個輸入的方式,希望通過輸入法建立 APP 來收費,顯然這在今天已經(jīng)是不太可能的事情了——現(xiàn)在,沒有一個類似百度輸入法這樣鍵盤輸入的 APP 還是收費的。

  即便語音是不一樣的輸入方式,但想要收費還是很困難的,特別是當大佬們都已經(jīng)在做的時候了。這個時候,就要找到一個需求場景,并且上面沒有其他方案可以和你競爭——一個語音可以扮演重要角色的場景。

  比如智能家居中的音箱,就是一個很好的例子:你不可能在音箱上去觸摸,也很難用其他鍵盤去輸入。因此,如果你找到一個和音箱產(chǎn)生交互的方式,那么顯而易見你就是最好的,因為沒有其他強有力的替代者。

  再說汽車。其實汽車里面,多年來大家使用的旋鈕、按鍵,本身是一個非常好的人機交互方式——它未必比語音輸入的效率低,反而效果很好,因為你可以做到盲操作。設想一下,在車里面我要換電臺的時候,我不用看中控,就可以摸到旋鈕去操作,或者在方向牌上有一個旋轉(zhuǎn)的輪子,可以讓我調(diào)整音量之類,這已經(jīng)是最好的人機交互方式了,而通過語音增大音量或是切換頻率,則未必能更加直接和準確。

  但是,在車中還有很多旋鈕無法解決的其他需求。比如。后排的一客需要和車發(fā)生交互——現(xiàn)在很多車都有后排獨立的空調(diào)系統(tǒng),當乘客覺得后排的溫度太低了,希望空調(diào)調(diào)高一點的時候,現(xiàn)在的情況是只能讓駕駛者把后排的空調(diào)調(diào)一調(diào),或者后排有自己調(diào)整的方式,但它未必是自動的方式。

  如果能夠做到,通過一個很好的語音識別的陣列工具,很好的分辨出不同乘客的方位,到底是在主駕、副駕,還是后排的左邊或右邊,根據(jù)他們發(fā)出的語音指令滿足不同人的需求,就能產(chǎn)生一種新的交互方式。除了空調(diào),還有的需求比如切換一個電臺、換一首歌,等等。

  那么從產(chǎn)業(yè)鏈上游來看,這么多年,芯片一直都是一個可以賺錢的事情。在語音識別這一塊,做語音的處理芯片,比如 iPhone 使用的 Cirrus Logic,在語音處理這一塊的算法做得非常好,它解決了語音降噪、方位識別上的關(guān)鍵問題。有了芯片作為載體,就可以基于傳統(tǒng)芯片的商業(yè)模式去掙錢。

  

6

  

7

  圖為 Echo Dot, 它的場景就不是用來聽歌的,而是一個語音助理。

  比如說機器人,雖然現(xiàn)在大家還沒有普遍使用機器人,但是它一定是一個趨勢性、未來性的東西。在家庭場景中,使用最為廣泛的其實是掃地機器人。很多人買了一段時間就未必再用掃地機器人了,其中有各種各樣的原因,可能掃得不夠干凈,也有它不夠智能的原因——它是在完全沒有規(guī)劃路徑地在亂掃。如果現(xiàn)在我們能夠加入更多智能的東西,包括語音的交互,它就有可能成一個真正的智能機器人。你可以呼喚它:“掃地機器人,到我這里來,把這個房間打掃一下。” 而不是拿一個搖控器操作,或者走過去把它提過來。你的聲音傳遞給他,他就知道你的方位,就會自動朝你的方向走,這也是一個可以提升用戶體驗的方向。

  

8

  為什么會說語音技術(shù)賺不到錢?其實是一開始沒搭建好商業(yè)模式。剛開始提供云識別,是 to VC 的模式,強調(diào)的是公司的品牌影響力。那一旦開了免費的口子,之后就無法再收費了。

  我們現(xiàn)在希望能先把 “蛋糕做大了” ,之后怎么分蛋糕大家再商量。但現(xiàn)在整個市場還沒有起來,所有做語音技術(shù)的都在燒錢。

  聲智科技的起步有點特殊:它一開始就做硬件,大家看到很多的展示的產(chǎn)品,有我們授權(quán)的,也有我們自己的,都可以讓我們從硬件中直接得到收入,相對來說,我們最初的商業(yè)模式是非常簡單的。

  

9

  

10

  電影《 Her 》的海報,電影中的主角愛上了他的智能設備——一個來自語音識別系統(tǒng)中的聲音。電影預言:在未來,人們都離不開基于語音識別技術(shù)的智能系統(tǒng)。

  我們現(xiàn)在有一些微薄的收入,但是以后我們在里面怎樣能夠產(chǎn)生更好的方式,對我們來說,就是硬件+芯片,這在以后會產(chǎn)生更好的營收。移動端有很多 AP、很多的巨頭,但是這到底能產(chǎn)生一種什么樣的新的商業(yè)模式,可能還都是在探討和摸索中。

  現(xiàn)在很多巨頭,不用考慮營收,所以它們會盡量去做。對我們來說,只能先有硬件,然后下一步加輕量的方式,維持公司正常的商業(yè)運轉(zhuǎn),然后下一步,看看會不會像我們預想的一樣,語音能夠下一代的搜索入口、甚至發(fā)生入口大戰(zhàn),然后形成新的商業(yè)模式,能夠改變我們很多的行為習慣。這就需要各方面去探討和摸索,甚至還會掉進很多坑。

  我相信第一波會有很多家公司做進去,因為大家經(jīng)常說,第二波公司會做得很好,每個時代的發(fā)展都經(jīng)常出現(xiàn)這樣的情況。關(guān)于定位,我們也不敢說什么,只是先給大家提供完整的解決方案,不管是機器人、智能音響、車載,我們都更希望,大家共同開拓這個市場。同時,我們本身也是非常開放合作的。