文/劉環(huán)宇
百度公司成功應用自動識別技術(shù)和人工智能技術(shù)推出多款產(chǎn)品,倍受網(wǎng)友青睞,這些產(chǎn)品在互聯(lián)網(wǎng)領域的廣泛應用將會把自動識別技術(shù)推向新的應用高峰。
自動識別技術(shù)是將信息數(shù)據(jù)自動識讀、自動輸入計算機的重要方法和手段,它是以計算機技術(shù)和通信技術(shù)為基礎的綜合性科學技術(shù)。近幾十年自動識別技術(shù)在全球范圍內(nèi)得到了迅猛發(fā)展,目前已形成了一個包括條碼、磁識別、光學字符識別、射頻識別、生物識別及圖像識別等集計算機、光、機電、通信技術(shù)為一體的高新技術(shù)學科。在互聯(lián)網(wǎng)高速發(fā)展的今天,自動識別技術(shù)和互聯(lián)網(wǎng)深度結(jié)合發(fā)展將是自動識別技術(shù)未來的發(fā)展趨勢之一,在互聯(lián)網(wǎng)領域的廣泛應用將會把自動識別技術(shù)推向新的應用高峰。
自動識別與深度學習協(xié)同發(fā)展
傳統(tǒng)行業(yè)自動識別的輸出結(jié)果主要用來取代人工輸入數(shù)據(jù)和支持人工決策?;ヂ?lián)網(wǎng)領域?qū)ο到y(tǒng)智能水平的要求越來越高,僅僅依靠自動識別技術(shù)已經(jīng)不能全面地滿足互聯(lián)網(wǎng)的需要,所以自動識別技術(shù)與人工智能技術(shù)緊密結(jié)合的需求在互聯(lián)網(wǎng)開始顯現(xiàn)出來。目前,自動識別技術(shù)還只是初步具有處理語法信息的能力,并不能理解已識別出的信息的意義。要真正實現(xiàn)具有較高思維能力的需求,就必須使得自動識別技術(shù)結(jié)合人工智能技術(shù),具備處理語義信息和理解信息的能力,這是自動識別技術(shù)在互聯(lián)網(wǎng)蓬勃發(fā)展的一個重要方向。
深度學習(DeepLearning)是人工智能領域的一個分支,是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),例如圖像、聲音和文本。深度學習是無監(jiān)督學習的一種,許多科學家在這里看到了硅谷科技企業(yè)的未來,因此,很多頂尖的人工智能領域?qū)<叶荚谘芯咳绾螌⑸疃葘W習應用到具體的不同領域,以使之產(chǎn)品化、商業(yè)化。
深度學習將推動自動識別進一步發(fā)展
目前在互聯(lián)網(wǎng)領域,深度學習的主要研究集中在人臉、聲音等生物識別和一些數(shù)據(jù)識別領域,這些領域的研究主要是推動傳統(tǒng)自動識別技術(shù)從識別信息的簡單層次,進化到理解信息的高級層次。去年國慶節(jié)期間,一個美國的研究團隊設計出了一套自動識別軟件,這套軟件能夠從一大堆分子中學習發(fā)現(xiàn)那些可能成為藥物的分子。當該系統(tǒng)的高識別率公布時,即使很多慣于挑剔的科學家也對實驗結(jié)果表示震驚。業(yè)內(nèi)稱這是深度學習領域的一次重大進步。同期,加拿大的一隊科學家設計出來的識別軟件,在一次交通標注識別挑戰(zhàn)賽上戰(zhàn)勝了其他專家。
硅谷的科技企業(yè)和百度公司早幾年前就開始在產(chǎn)品中使用人工智能技術(shù),深度學習被應用到語音識別、計算機視覺等領域時產(chǎn)生了很多新成果。當深度學習的技術(shù)配合上大數(shù)據(jù)的儲備,語音搜索、圖像搜索等新興技術(shù),就不再僅僅是技術(shù)的噱頭,而是將搜索用戶從數(shù)億拓展到數(shù)十億,這也是Google、蘋果和百度紛紛在語音搜索上推出新產(chǎn)品的原因。
令人震驚的是,美國科學家吳恩達領導Google的專家們,用16000臺電腦模擬了一個人腦神經(jīng)網(wǎng)絡,他們向這個網(wǎng)絡展示了1000萬段隨機從Youtube上選取的視頻,看看它能學會什么。結(jié)果在完全沒有外界干涉的條件下,它自己識別出了貓臉。
百度在深度學習和自動識別領域的發(fā)展
百度語音助手、百度語音輸入法都是聲音識別領域的典型產(chǎn)品,百度魔圖、百度尋人、百度明星臉等產(chǎn)品都是人臉識別的典型應用。
百度人臉識別的目標是做互聯(lián)網(wǎng)娛樂最好的產(chǎn)品,當然和以安全監(jiān)控為目的的人臉識別是有區(qū)別的?;ヂ?lián)網(wǎng)上的應用和監(jiān)控中的技術(shù)難點不同、技術(shù)路線也不同,不是以準確率為第一衡量目標。百度2013年和中國物品編碼中心合作,推出了商品條碼掃描功能,在物品編碼中心商品條碼數(shù)據(jù)的支持下,結(jié)合百度龐大的數(shù)據(jù)支持,為用戶提供良好的搜索體驗。
隨著移動互聯(lián)網(wǎng)的發(fā)展,用戶使用智能設備上網(wǎng)的越來越多,而手機的小屏幕決定,用戶不可能像在PC上一樣順暢高速輸入,手機的麥克風和攝像頭是比鍵盤普及得多的輸入方式。
2012年,百度語音和圖像產(chǎn)品快速崛起,在語音識別準確率方面,全年的進展超過了業(yè)界過去多年進展的總和。在圖像處理方面,百度僅用一個多月的時間就上線了世界首個全網(wǎng)人臉搜索產(chǎn)品,這些重大突破都得益于深度學習技術(shù)的突破與應用。今年年初,百度宣布成立百度深度學習研究院(Instituteof DeepLearning,IDL),這是百度歷史上首個正式成立的前瞻性研究機構(gòu),致力于“讓計算機像人腦一樣智能”的科學研究。
深度學習技術(shù)是百度深度學習研究院最重要的主攻方向。百度是業(yè)界最早把深度學習技術(shù)成功應用于語音和圖像等生物識別產(chǎn)品的公司之一,百度語音搜索、語音輸入法、語音助手、全網(wǎng)人臉搜索以及自然場景字符識別等越來越多的產(chǎn)品已經(jīng)創(chuàng)新性應用到了深度學習技術(shù)。深度學習技術(shù)究竟有多大的威力?以語音產(chǎn)品為例,它能夠使得語音解碼速度提升,并顯著降低識別錯誤率,更容易讓普通人理解的典型例子是最近非常流行的百度魔圖“PK大咖”功能,其背后的關(guān)鍵技術(shù)就是基于的人臉識別模型。百度魔圖已連續(xù)占據(jù)蘋果APPStore免費排行總榜榜首。
不難看出,深度學習技術(shù)已經(jīng)成為科技領域,工程推動科研的典型案例。除了百度,像Google、微軟、IBM這樣傳統(tǒng)大公司,一方面算法模型積累深厚,另一方面擁有豐富計算集群資源,加上商業(yè)需求驅(qū)動,讓深度學習技術(shù)在近兩年快速地應用到商業(yè)領域。唯一不同的是,在互聯(lián)網(wǎng)行業(yè)最尖端的領域中,出現(xiàn)了中國企業(yè)的身影,而且還是處于領跑狀態(tài)。
以往中國在科技領域的發(fā)展,一直處于“跟進”的狀態(tài),而在更為細分的互聯(lián)網(wǎng)領域,在以百度為代表的高科技公司不僅取得了一系列的研究成果,更是已經(jīng)開始規(guī)模化地應用在產(chǎn)品身上,成為了“中國創(chuàng)造”的核心力量。百度已經(jīng)在學術(shù)理論、工程實現(xiàn)、產(chǎn)品應用等多方面取得了深度學習領域顯著的進展,已經(jīng)成為業(yè)界推動“大數(shù)據(jù)驅(qū)動人工智能”的重要參與者之一。