百度展現(xiàn)多終端一體“音入口”布局能力
2016年6月23日,百度語音技術媒體溝通會在北京百度大廈召開,百度語音技術部總監(jiān)高亮、高級經(jīng)理劉洋、技術架構(gòu)師謝延,及百度語音開放平臺高級產(chǎn)品經(jīng)理何蕩向與...
2016年6月23日,百度語音技術媒體溝通會在北京百度大廈召開,百度語音技術部總監(jiān)高亮、高級經(jīng)理劉洋、技術架構(gòu)師謝延,及百度語音開放平臺高級產(chǎn)品經(jīng)理何蕩向與會媒體及專家講解和演示了百度語音技術的最新進展。與此同時,小度機器人和搭載百度車聯(lián)網(wǎng)CarLife的2016款途勝亮相現(xiàn)場,展現(xiàn)了百度語音技術多終端一體“音入口”的未來布局。未來的人機交互將更多通過聲音進行,任何終端都“一音進入”。

百度語音技術:識別準確率達97%,請求量每天過億
在語音技術最為核心的語音識別、語義解析、語音合成三種技術之中,百度語音不但在技術上處于業(yè)界領先地位,同時也是業(yè)界最為開放的免費語音技術服務供應商。目前,百度安靜環(huán)境下普通話語音識別準確率已達到97%,超過正常人的聽力水平;百度語音合成技術亦引入了深度學習技術,可根據(jù)大數(shù)據(jù)情感合成明星個性音;百度語義理解技術支持超過56個領域自定義適配。

目前,使用百度語音的App數(shù)量8萬+,每天語音識別請求量1億+,每天語音合成請求量2.5億+。重量級行業(yè)用戶包括智能手機領域的聯(lián)想、中興、魅族等;智能家居領域的聯(lián)想、康佳、SONY等;汽車行業(yè)的特斯拉、比亞迪等;智能設備領域的惠普、三諾、艾米通訊等。
超越蘋果與谷歌:百度語音技術國際領先
會上,百度語音向眾多媒體代表展示了技術實力。在語音識別領域,不論是童聲發(fā)音或者是方言,百度語音均能準確識別,令人印象深刻;在語音合成領域,情感小說合成、明星語音、名人聲音均惟妙惟肖,令人嘖嘖稱奇。
據(jù)了解,這些令人拍案叫絕的效果,源于百度語音的技術積累。2014年12月,百度稱語音識別技術取得重大突破,語音識別效果超過谷歌和蘋果。在嘈雜的背景中進行測試的結(jié)果顯示,百度的DeepSpeech語音識別技術DeepSpeech的錯誤率比谷歌語音API、wit.ai、微軟必應語音和蘋果Dictation低了10%。2015年11月,百度硅谷實驗室推出新一代深度語音識別系統(tǒng)(Deep Speech 2),被美國權威雜志《麻省理工評論》列為2016年十大突破技術之一,也是唯一來自中國科技公司的科技成果。
在語音合成技術上,百度已實現(xiàn)了業(yè)界領先的拼接合成和參數(shù)合成兩項技術的研發(fā)。拼接式合成,基于海量文本語料的自然語言理解技術和深度加工的專業(yè)發(fā)音庫,經(jīng)過多層次的建模讓韻律表現(xiàn)更穩(wěn)健又有表現(xiàn)力。而其智能的彈性單元挑選策略,能從大規(guī)模錄音語料庫中找到所求。由于拼接合成所需資源較多,所以通過在線合成的方式提供服務。參數(shù)合成則來源于高質(zhì)量聲學建模和模型壓縮技術,以及音質(zhì)優(yōu)良的聲碼器技術,在大大降低資源的同時,可以離線生成接近真人發(fā)聲的合成效果。
開放兩項重要語音技術:未來任何終端將“一音進入”
會上,百度語音宣布進一步對外開放兩項重要語音技術,即喚醒技術與自定義語義技術。通過小度機器人和搭載百度車聯(lián)網(wǎng)CarLife系統(tǒng)的2016款途勝演示,與會者見證了百度語音合成和基于自然語言理解的強大交互能力。
百度喚醒技術喚醒率達95%,支持自定義喚醒詞和連續(xù)表達,輕量級、易集成。不論用戶是通過語音說出“小度你好,請播放一首古典音樂”的指令,或者“小度你好,帶我去附近的加油站”的請求,都能得到迅速響應,除了應用于車聯(lián)網(wǎng)外,還可以廣泛應用于手機、電視等不同終端。而自定義語義功能,則開放了語義和語音的映射能力,能幫助眾多開發(fā)者和第三方廠商更快更準地提升識別率。
提及百度免費開放兩項語音技術的意義,百度負責人表示,這些能力背后是百度的人工智能和大數(shù)據(jù)能力支撐,是百度“智能+”戰(zhàn)略的落地。正如李彥宏在2014年百度大會上預言的那樣,未來五年語音圖像搜索會超過文字。自2014年第二季度起,百度語音輸入增長4倍以上,輸出增長26倍以上。無論是Carlife、還是小度機器人,乃至應用到搜索、外賣等領域的語音技術,都極大優(yōu)化了產(chǎn)品體驗并方便了人們生活??梢韵嘈?,未來的人機交互將更多通過聲音這種人類最自然的交流形式進行。
百度語音的愿景是通過智能語音讓萬物互聯(lián)。百度在業(yè)界首創(chuàng)完全永久免費新形式,為開發(fā)者提供基于百度大腦的業(yè)界頂級聲學模型和語音模型?;A服務免費,永久使用。在百度開放喚醒和自定義語義技術后,百度將進一步推動語音互動的普及。在未來,任何終端都將“一音進入”。