2012/3/24 10:05:24 作者:sc001 來源:1

3月22日下午,科大訊飛在北京國家會議中心發布新一代“語音云”平臺,“捎帶”發布了“中文版Siri”應用訊飛語點。
這里用“捎帶”形容現場的情況是最恰當的:科大訊飛CEO劉慶峰作完演講后,邀請大家共同開啟“語音云”時代,掌聲落畢,他馬上補充說“抱歉,忘了一個環節”,然后由工作人員從臺下拿上來一部智能手機,開始演示“訊飛語點”的Demo。這個橋段讓人不由得想起喬幫主“Onemorething…”的遺風。
科大訊飛的“語音云”平臺是面向開發者和合作伙伴的,今天不是第一次發布,早在2010年10月就已經發布了第一版(當時股價大漲)。但今天的大會無疑是訊飛“開發者大會”歷史上最火爆的一場,根據訊飛副總江濤(活動現場總指揮)的估算,現場“來了2000多人”。我下午2點半進場,那時工作人員還在不斷地添加凳子,訊飛的人員在跟國家會議中心工作人員溝通:“實在出乎意料,來的人太多了”。
“語音云”發布會
發布會很精彩,我已經聯系了江濤,請他提供劉慶峰在現場演講用的PPT(更新:PPT全文或前往微盤下載)。在現場我也拍了一些PPT照片,與大家分享。
首先來看一張發布會之前的觀眾席照片,微博上有評論說“比騰訊的場子都大”。國家會議中心的四層大會堂B大廳座無虛席,甚至開放了第二層。江濤在微博上的評論是“感謝蘋果對市場的教育”。不過與現場的熱度不同,資本市場反應冷淡,甚至股價還下跌了0.2元人民幣,跌幅0.53%,報收37.7元。
這是一些采用訊飛“語音云”技術的應用,包括新浪微博、搜狐微博、365日歷等等。我們采訪過的蟲洞也是采用訊飛語音云技術,但蟲洞在其上面進行了優化。根據劉慶峰現場的介紹,科大訊飛開發伙伴達到3100家,終端用戶超過3000萬,日請求量超過700萬次。
科大訊飛現在支持多國語種識別,也支持國內的方言識別,在美國國家標準技術研究院(NIST)的語種識別9項評測中7個排名第一。而語音合成系統方面,也支持了中、英、法、俄等語言。
現場劉慶峰播放了一段合成后的《新聞聯播》開場片頭,當時發布會時間是3月22日15時19分,視頻中出現的聲音是“歡迎收看3月22日新聞聯播”,如果不仔細聽的話,還真的以為是李瑞英、康輝的聲音。我聽到3月22日的時候,特意看了手機上的時間——15時19分,離新聞聯播開始還有3個多小時嘛;不過后來康輝說的話多一些的時候,就聽出破綻來了。
發布會現場劉慶峰毫不避諱地與競品進行了多項參數對比(用字母來隱晦表示公司名稱),科大訊飛在多項比賽和測試結果中排名第一。當然,發布會開始前宣傳短片中,“中文語音識別該由中國人來做”的口號更能挑起人們的興奮神經。大家猜一下下圖中N、G、Q分別是哪個公司?我猜N、G一個是為Siri提供技術的Nuance,另一個是Google。
柳傳志寄語創業者
3月22日發布會結束之后,安排了一個高峰論壇,邀請到柳傳志、李開復和雷軍(南赴珠海領取“榮譽市民”未能到場)來談“語音時代”。主持人是《商業價值》的主編張鵬。
柳傳志是科大訊飛尋找投資的“貴人”,柳傳志看著科大訊飛長大。而科大訊飛是聯想投資成立后“按照正規流程”投資的第一家企業,2001年的簽約儀式也是當時柳傳志唯一出席過的一個。
科大訊飛是一家安徽公司,前身是“安徽硅谷天音信息科技有限公司”,創始人劉慶峰原來是“中國科技大學人機語音智能多媒體實驗室”的主任,1999年6月響應團中央“關于大學生創業”號召,率領實驗室團隊創辦“硅谷天音”,注冊資金300萬元人民幣。1999年12月30日“硅谷天音”更名為“科大訊飛”,重新注冊后,加上3000萬元風險投資,公司注冊資金變為5000萬。2007年完成股份制改造,一年后2008年5月12日在深圳中小板上市。
2001年6月6日聯想向訊飛投資800萬元,實際投入2533萬元。2008年5月12日上市時,聯想持有科大訊飛880股股票,占比8.21%,在上海廣信13.24%之后;當時劉慶峰本人持股761萬股,占7.10%;科大訊飛管理層共持股約20%。
2011年蘋果iPhone4S發布后,借Siri的東風,科大訊飛開始慢慢走入普通人視野。在受到大眾關注之前,訊飛已經做出了“訊飛語音輸入法”這樣面向普通用戶的app產品,但其風頭顯然不及Siri教育大眾后,今天下午發布的“中文版Siri”訊飛語點。
柳傳志講自己投資的理念是“事為主,人為重”,他夸贊劉慶峰,說他“有理想、有胸懷、有能力,有強烈的把科技成果轉化為產品的意愿”。不過在講臺上,柳傳志并未一味夸贊,也提了新要求,比如增加語音識別的復雜度,“我現在出去跟別人演示,只敢選擇簡單常規的問題進行示例,比如‘明天什么天氣’,但生活更加口語和隨意,這一點是訊飛應該加強的方面”。
主持人問到柳傳志對互聯網創業者的寄語,他的回答是“用做實業的態度做互聯網”。“創業之前,問題要想清楚,要想盈利模式,僅靠人氣勁兒、燒錢是不對的。而拿了投資后,也要算準錢能燒到什么時候。如果你創業籌來的錢太不容易,‘錢太重’,就要謹慎選擇創業。其實創業失敗并不是什么,我投的200多家企業中,不少是經歷失敗,吸取經驗再創業的;即使后來你不再創業,創業過程中積淀的經驗,對于你以后在公司工作也是很大的提升。”
柳傳志也以自己的經歷,勉勵創業者保持“專注”:
身邊很多朋友賺了很多錢,我也可以賺很多錢。當年96、97年民生銀行投資的時候,我被認為最有可能第一個投資的,但我沒投。據別人替我估算,如果當時投了那1億多,現在的回報是2000多億,我覺得我不必后悔,身邊不斷有這樣的事兒出現,你說它是好事,它是壞事?這還真不好說,因為我投資賺了這筆錢以后,我也許會想去投房地產、去做別的更多的事,電腦這條路可能做不成,也許到最后什么都可能做不成。
李開復談語音識別技術
李開復是第二名上場的嘉賓。眾所周知,李開復是著名語音識別技術專家,談到語音識別,當然少不了由他來現身說法。
事實上,在訊飛發布會之前,李開復曾在微博上對市面上存在的眾多“中國Siri”提出四個疑問:
1)智能手機主界面是手觸,語音助手解決了什么真正用戶需求和痛處?2)如何克服后臺海量數據學習技術門檻?全球只有一個公司有這個技術。3)應用誰開發?自己開難擴張,用別人的應用整合不佳影響體驗,4)語音服務器和帶寬成本較大,如何克服?
今天發布會結束后,李開復更新微博:“訊飛語點推出后,2、4由訊飛解決了”。
事實上,在之前科大訊飛向愛范兒提供的獨家稿件中,訊飛一一回答了四個問題,3月22日發布會用實際產品進行了回應。詳細內容見文末引用部分。
李開復的“爐邊談話”提供了很多“專家式”的內容。簡單整理成問答形式如下。
問:我們看到訊飛語音識別的技術已經非常成熟,那么你認為“應用”的空間在哪里,未來語音識別技術還有什么挑戰?
李開復:云端識別技術,訊飛已經解決了。“應用”在哪里?這并不是一些專家在實驗室里拍腦袋就能想到的。大家可以來試,可以在訊飛的云平臺上試一試,可能成功的會比較少,但能夠摸索到成功的應用的概率也會增加。
語音技術方面,主要挑戰還有三方面:
一、語音識別相對容易,但語義理解相對困難。讓軟件聽懂容易,但理解會比較難。
二、如果能在一定程度上做到語義理解,那么怎么樣讓開發者介入不用太花時間?
三、用戶體驗的期望值。語音是人類最自然交流的方式——與多點觸摸不同,一旦人們開始使用語音交互,會有比較大的心理預期:我愛怎么說就怎么說,你應該能理解,這是一個比較長久的挑戰。這中間,應該有巧妙方式來降低這種感受。
問:語音技術里面,是不是使用的人越多,語音技術也會愈加成熟?
李開復:當然了,更多人參與,獲得更多自動回饋,可以實現一個良性的正向循環方。一個人能力有限,一億用戶,每人使用3秒鐘,就是3億秒,這個數據量是龐大的。實際應用中,正確的輸入可以被視作是“一次正確訓練和學習”,吸收改進;一個錯誤的結果,比如訂餐時識別錯誤取消訂單,可以視作“不正確的學習”,同樣吸收改進。
但這個比“聽寫”更困難:錯了,是語音錯了還是語義錯了,或者其中一個正確、一個錯誤;對了,是語音對了語義對了,或者其中一個正確、一個錯誤。當回饋量大于累計量和使用量,可以讓我們邁出一大步。
問:什么樣的語音應用是用戶期待和接受的?
李開復:我認為有三個方向。1,相對是語音識別,而非深度語義理解的應用,或者說“淺語義,深語音”。比如聽寫(Demo中有提到教育領域的聽寫測試、KTV評分、發短信、日程提醒),——輸入法也很重要,這個比較保險。
2,娛樂性應用,比如Siri這樣的調侃調戲類應用。這種識別錯了也無傷大雅,很愛使用。蘋果很聰明,用調侃Siri錄了很多語音,然后慢慢把真正的應用做好。
3,在一些“眼忙手忙”的場景,這個時候語音需求就會很大,比如駕車的時候,這時候是不能多點觸控的,這算一個“剛性需求”的場所。
在這里我建議開發者:想把語音放進來的時候,不是那么容易,因為語音的API和語音的用戶體驗,比一般的API要難很多,比如百科全書類、地圖、本地商家,O2O,線上模式拉來線下消費,因為有語義部分在里面,要花很多時間去把它調好,不能用簡單的API隨便聯接起來。
附:科大訊飛對李開復“中國Siri路在何方”的回應稿件
第一,語音助手能夠解決什么真正的用戶需求?
大多數人提到Siri,第一印象就是調戲Siri,但如果一個產品只是用來“調戲”,那這個產品充其量只能算是玩具,而不是人們所必須使用的語音助手。所以,Siri的定位應該是解決用戶的真正需求和痛處。
可惜,目前Siri的模仿者大多視這個需求而不見,而是關注如何才能更好的“調戲”用戶。相信只有真正做到解決用戶需求的產品,才能夠獲得用戶長久的喜愛,希望國內的開發者能夠注意這個問題。
Siri想要實用,就必須調用開放數據的平臺,而中國卻沒有WolframAlpha這種引擎,所以中文Siri想要真正解決用戶需求,只能一家一家去談,比如找大眾點評、百科等。這是創業公司做不來的,而大公司(百度、騰訊等)來做,可能又存在利益沖突。
第二,如何克服后臺海量數據學習技術門檻?
雖然李開復老師說全球只有一個公司有這個技術,而我們也不知道這個公司具體是指哪一個。但據我了解,在語音識別方面,科大訊飛是做的不錯的,訊飛語音輸入法的識別率已經達到85%以上。而且他們的語音識別是基于云計算實現的,應該是具備數據學習能力的。
除了語音識別,還有一個難題是語義理解,這也是中文Siri的核心難題。讓機器真正理解人的語言,這是一件很困難的事。就目前來看,蘋果在英文方面都沒有很好解決,不然也不會有用戶要告蘋果虛假宣傳了。但蘋果可以依靠“調戲”用戶獲得大量語料,然后學習后提升可用度。
可見,語義理解是一個需要不斷優化的過程,每一個用戶的參與都將對智能語義理解的完善做出奉獻。
第三,應用誰開發?
Siri的前提是要有語音識別功能,這個功能的門檻之高,已經讓很多開發者望而卻步。幸好,國內有科大訊飛的語音云開放平臺,為普通開發者提供了語音識別和語音合成的功能,讓中文Siri的開發有了基礎,智能360和Airi等產品就是基于訊飛語音云平臺實現的。
作為普通開發者,使用語音云平臺研發產品是很正常的。但如果真的想做成Siri這種大眾性應用,核心技術卻掌握在別人手里,這是致命的問題。所以,真正能夠做出中文Siri應用的,應該還是科大訊飛這種掌握核心技術的公司。
第四,語音服務器的成本太大?
語音服務器的成本問題對于創業公司來說,確實是個大問題。但事實情況是,需要承受這個壓力的,可能只有科大訊飛和谷歌,因為一般公司目前連語音技術都沒有。
科大訊飛在2010年推出了開放的語音云平臺,目前用戶規模已經達到2500萬。3月22日,科大訊飛還將發布新一代的語音云,可見科大訊飛對于語音云開放平臺的投入力度很大。作為一家上市公司,相信科大訊飛還是有實力克服用戶擴張帶來的服務器成本和帶寬壓力的。