谷歌大腦負(fù)責(zé)人談人工智能：科幻變現(xiàn)實

2016-11-28 08:37:39 來源：互聯(lián)網(wǎng)作者：佚名人氣：次閱讀 202 條評論

11月26日消息，據(jù)財富》網(wǎng)站報道，GoogleBrain團(tuán)隊的聯(lián)合創(chuàng)始人杰夫?迪恩在接受財富》雜志的采訪時談到，研究者在推動人工智能時面臨著的挑戰(zhàn)是如何把監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)結(jié)合起來，他還解釋了強(qiáng)化學(xué)習(xí)這一AI技...

11月26日消息，據(jù)《財富》網(wǎng)站報道，Google Brain團(tuán)隊的聯(lián)合創(chuàng)始人杰夫?迪恩在接受《財富》雜志的采訪時談到，研究者在推動人工智能時面臨著的挑戰(zhàn)是如何把監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)結(jié)合起來，他還解釋了強(qiáng)化學(xué)習(xí)這一AI技術(shù)的概念、應(yīng)用范疇以及一些有趣的具體研究實例，例如，強(qiáng)化學(xué)習(xí)在棋盤游戲、設(shè)置空調(diào)旋鈕、讀取街景圖中的所有商業(yè)名稱和標(biāo)志、分析衛(wèi)星圖像和醫(yī)療成像中的應(yīng)用。

當(dāng)我們使用谷歌搜索引擎或用谷歌地圖查詢路線時，幕后實際上有個“大腦”正在運(yùn)行，它負(fù)責(zé)提供相關(guān)的搜索結(jié)果，或確保谷歌地圖的用戶在駕駛時不會迷路。

不過，它不是人腦，而是Google Brain（谷歌大腦）研究團(tuán)隊。該團(tuán)隊已創(chuàng)立了1000多個深度學(xué)習(xí)項目，在過去數(shù)年中，這些項目讓YouTube、翻譯和Photos等許多谷歌產(chǎn)品的性能得到了大幅提升。利用深度學(xué)習(xí)技術(shù)，研究者可將大量數(shù)據(jù)輸入到名為神經(jīng)網(wǎng)絡(luò)的軟件系統(tǒng)中，這些神經(jīng)網(wǎng)絡(luò)能夠比人類更快地識別出海量信息中的模式。

在接受《財富》雜志采訪時，Google Brain的聯(lián)合創(chuàng)始人兼領(lǐng)導(dǎo)人之一杰夫?迪恩（Jeff Dean）談到了最前沿的AI研究、其中涉及的挑戰(zhàn)以及AI在產(chǎn)品中的應(yīng)用。

以下為訪談主要內(nèi)容：

研究者在推動人工智能時面臨著什么挑戰(zhàn)？

人類學(xué)習(xí)大多源自無監(jiān)督學(xué)習(xí)，人們只是觀察著周圍的世界，并理解著周邊事物的表現(xiàn)。而機(jī)器學(xué)習(xí)十分活躍主動，但一些相關(guān)的問題還未徹底解決，因此還不屬于監(jiān)督學(xué)習(xí)的范疇。

無監(jiān)督學(xué)習(xí)是指通過觀察和感知學(xué)習(xí)，如果計算機(jī)可以自己觀察和感知，那么能否有助于解決更復(fù)雜的問題？

人類視覺主要以無監(jiān)督學(xué)習(xí)的方式得到訓(xùn)練。一個小孩在觀察世界時偶爾會得到一個監(jiān)督式信號，別人會說，“這是一只長頸鹿”或“這是一輛車”。而孩子的內(nèi)心世界自然會對他獲得的少量監(jiān)督式數(shù)據(jù)做出響應(yīng)。

我們需要對監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)展開更多組合操作。但就目前大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)的工作狀況來看，我們還未真正實現(xiàn)那個階段。

能否解釋一下強(qiáng)化學(xué)習(xí)（reinforcement learning）這種AI技術(shù)？

強(qiáng)化學(xué)習(xí)背后的理論是，在不知道下一步采取什么行動時，可先采取一種你認(rèn)為可行的行動，再觀察結(jié)果如何，進(jìn)而摸索一系列行動可能產(chǎn)生的結(jié)果。例如，在棋盤游戲中，對對方的棋法做出回應(yīng)后，最終經(jīng)過一系列訓(xùn)練，你就可以獲得某種獎勵信號。

加強(qiáng)學(xué)習(xí)是，把獎勵或責(zé)備與你所采取的所有行動相關(guān)聯(lián)，并逐步獲得獎勵信號。目前在某些領(lǐng)域這一技術(shù)確實很有效。

強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)是，可能采取的行為范疇相當(dāng)寬泛。在現(xiàn)實生活中，人類會采取各種各樣的行動。而在棋盤游戲中，可下的棋步是有限的，游戲規(guī)則會起到一定的約束作用，獎勵信號也十分明朗——贏或輸。

如果目標(biāo)是研磨一杯咖啡，那么可采取的行動有很多可能性，獎勵信號就沒有那么明確了。

但我們?nèi)钥梢园巡襟E分解清楚。例如，在研磨咖啡時，我們可能學(xué)到，在沖泡之前，咖啡豆若沒有完全磨碎，泡出的咖啡味道就會很糟糕。

增強(qiáng)學(xué)習(xí)往往需要探索。因此在物理環(huán)境中應(yīng)用這一技術(shù)有點困難。我們開始嘗試在機(jī)器人中應(yīng)用這一技術(shù)。當(dāng)機(jī)器人必須采取某種行動時，它會受到行為種類的限制。在計算機(jī)模擬中，我們可利用大量計算機(jī)、獲得數(shù)百萬個范例，應(yīng)用起來就變得容易多了。

谷歌是否會在核心搜索產(chǎn)品中融入強(qiáng)化學(xué)習(xí)技術(shù)？

谷歌在核心產(chǎn)品中應(yīng)用強(qiáng)化學(xué)習(xí)主要是通過DeepMind（谷歌在2014年收購的AI初創(chuàng)公司）與數(shù)據(jù)中心操作人員之間的協(xié)作來實現(xiàn)的。他們利用強(qiáng)化學(xué)習(xí)來設(shè)置數(shù)據(jù)中心的空調(diào)旋鈕，同時極大地節(jié)約了消耗的功率。強(qiáng)化學(xué)習(xí)技術(shù)能夠探索怎么有效地設(shè)置旋鈕，以及以不同方式旋轉(zhuǎn)旋鈕時需如何響應(yīng)。

通過強(qiáng)化學(xué)習(xí)，工作人員發(fā)現(xiàn)原來這18個旋鈕可以這樣設(shè)置，此前他們根本不會這么考慮。而且，事實證明，雖然這種設(shè)置看起來很奇怪，但運(yùn)行得相當(dāng)不錯。

強(qiáng)化學(xué)習(xí)應(yīng)用于哪類任務(wù)更為適合？

上述例子中，強(qiáng)化學(xué)習(xí)技術(shù)的旋鈕設(shè)置方案運(yùn)行得不錯，因為每次可執(zhí)行的操作并不多。只有18個旋鈕，我們把旋鈕調(diào)高調(diào)低就行了。結(jié)果很容易觀察到。在適當(dāng)?shù)臏囟确秶鷥?nèi)，如果功率使用率得到改善，就可獲得獎勵信號。從這個角度來看，這幾乎可稱得上是一個理想的強(qiáng)化學(xué)習(xí)案例。

更為棘手的例子或許是它在搜索結(jié)果中的應(yīng)用。對于不同的查詢請求，可呈現(xiàn)的搜索結(jié)果比旋鈕設(shè)置要寬泛得多，而且獎勵信號有點難辦——用戶對搜索結(jié)果是否滿意，這不好判斷。

如果用戶對搜索結(jié)果不滿意，你要怎么提供獎勵信號？

這有點棘手。這說明了，強(qiáng)化學(xué)習(xí)還不夠成熟，還不足以在無約束的、獎勵信號不那么明顯的環(huán)境中實現(xiàn)真正的運(yùn)作。

把研究成果應(yīng)用于人們每天使用的實際產(chǎn)品時，你們面臨哪些最嚴(yán)峻的挑戰(zhàn)？

很多機(jī)器學(xué)習(xí)解決方案以及對這些解決方案的研究可在不同的領(lǐng)域中重復(fù)使用。例如，我們與地圖團(tuán)隊合作展開了一些研究。他們想要讀取出現(xiàn)在街景中的所有商業(yè)名稱和標(biāo)志，以便更好地了解街道的具體環(huán)境，例如，這條街上開了比薩店還是其他什么店。

事實證明，為了在街景圖中識別文本，我們可以提供一些已經(jīng)圈出文本的示例數(shù)據(jù)，訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)形成一種檢測出圖像文本像素的行為模式。

這是一個通用的功能，地圖團(tuán)隊可使用這個功能來分析衛(wèi)星圖像，例如，用來識別美國或世界各地的屋頂來估計太陽能電池板的安裝位置。

同樣的模型也可用于醫(yī)學(xué)成像分析上。例如，分析醫(yī)療圖像，找到圖像中與臨床相關(guān)的信息。（靈越）