文/陳鋒
編輯/子夜
想象一下,如果你置身于嘈雜的環(huán)境中,身邊的朋友誰說了什么話,你能聽得一清二楚嗎?
答案很可能是否定的。
但這個普通人難以做到的事情,AI可以。
上個月,科大訊飛的訊飛星火大模型V4.0發(fā)布會上,三位訊飛研究院的研究員現(xiàn)場實測,在噪音環(huán)境下同時混疊說話時,正常人難以聽清,但訊飛星火憑借其多模態(tài)能力,不但實現(xiàn)了三人重疊語音的角色分離,而且成功進行了實時轉(zhuǎn)寫。
這對應的是,針對強干擾場景下的語音識別難題,科大訊飛突破了多人混疊場景下的極復雜場景語音轉(zhuǎn)寫技術(shù),即使在三人混疊說話場景下,也能實現(xiàn)86%的語音識別準確率。
科大訊飛的探索和技術(shù)成果,不止于此。
稍早一些的6月24日,2023年度國家科學技術(shù)獎勵大會上,科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目,獲得國家科學技術(shù)進步一等獎。
這是深度學習引發(fā)全球人工智能浪潮以來,過去十年里,人工智能領(lǐng)域首個國家科學技術(shù)進步獎一等獎,也是科大訊飛繼2002年、2011年分別獲得國家科學技術(shù)進步獎二等獎之后,首次獲得國家科學技術(shù)進步獎一等獎。
科大訊飛的上述技術(shù)突破,既是它過去多年技術(shù)實力的一次彰顯,某種程度上,在大模型帶來的戰(zhàn)略機遇面前,其也在加速推動萬物互聯(lián)時代的到來——從產(chǎn)業(yè)視角來看,語音識別等智能語音技術(shù)的進階,將進一步成為萬物互聯(lián)時代的核心推動力,持續(xù)向各類終端賦能,實現(xiàn)不同生活場景下的語音交互。
今年6月,科大訊飛董事長劉慶峰指出,科大訊飛正經(jīng)歷著創(chuàng)業(yè)以來最充滿挑戰(zhàn)、最扣人心弦、最激動人心的歷史時刻,他認為,科大訊飛迎來了語音和大模型的全新戰(zhàn)略機遇。
不難發(fā)現(xiàn),在當下大模型帶動的通用人工智能浪潮下,科大訊飛已經(jīng)成了最具代表性的公司之一,在核心的智能語音技術(shù)上、大模型技術(shù)上,都已經(jīng)走在了行業(yè)前列。
1、語音交互火熱十年,什么是最大的痛點?
2016年初,《麻省理工科技評論》公布了2016年年度十大突破技術(shù),其中,語音接口技術(shù)被排在第三位,其認為,語音識別和自然語言理解相結(jié)合,能為世界上最大的互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。
同時期里,語音賽道成為全球互聯(lián)網(wǎng)領(lǐng)域一個新的風口,從互聯(lián)網(wǎng)大廠到初創(chuàng)企業(yè),都在試圖通過互聯(lián)網(wǎng)硬件、軟件搶占這一領(lǐng)域。
其中的一個重要視角,是智能音箱成了全球科技巨頭的一個角逐中心。
2014年以來,從國外到國內(nèi),從亞馬遜的Echo到谷歌的Google Home,到蘋果的HomePod,到科大訊飛的訊飛智能音箱X1,到百度的小度智能音箱,再到阿里巴巴的天貓精靈,一眾科技巨頭都在加速布局。
不僅是大公司,聚焦到中國市場,當時的這股潮流同樣傳導到了數(shù)量龐大的中小企業(yè)群體。
科技公司顯然不是只想做語音智能硬件,他們的目標,是面向未來切入人工智能市場。而硬件背后的語音平臺,有機會成為物聯(lián)網(wǎng)時代的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài)。
人工智能助手的大規(guī)模出現(xiàn),也是基于這一邏輯。微軟人工智能與研究事業(yè)部負責人沈向洋此前曾表示,語音智能是人機交互方式的又一次“范式遷移”。
他將人工智能助手類比幾十年前計算機從命令行界面轉(zhuǎn)向圖形界面,當時鼠標和桌面等的出現(xiàn),讓人機交互變得友好而便利,由此帶來了個人電腦的大規(guī)模鋪開。
不難發(fā)現(xiàn),在業(yè)界設(shè)想中,語音實則成了人機交互的基礎(chǔ)工具,而智能硬件、自動駕駛汽車、消費級機器人等等,都是潛在的應用場景。
圖源德勤《未來的語音世界 中國智能語音市場分析》
不過在當時,語音交互痛點不少。
核心的難題在于,機器仍然不夠聰明。有業(yè)內(nèi)人士曾坦言,“人工智能、人工智能 ,有多少智能,就有多少人工。”
這對應的是,機器在自然語言理解、知識獲取等認知領(lǐng)域,仍然需要新的突破。
舉個例子,2016年,在Winograd Schema Challenge大賽中,科大訊飛獲得了第一名。Winograd Schema Challenge大賽有新型認知智能國際評測任務(wù),重點考察機器是否具備理解常識并實現(xiàn)認知推理的能力,被認為是圖靈測試的替代。
盡管獲得了第一名,但當時機器的語言理解能力還遠遠不夠,甚至不及6歲的孩子。
如何破局,成了語音交互產(chǎn)業(yè)邁向萬物互聯(lián)時代的最大命題。
2、突圍:深度學習帶動智能語音技術(shù)加速進化
接著上文科大訊飛在Winograd Schema Challenge大賽中獲得第一名說起。
這個故事的后續(xù)是,短短一年以后,2017年,科大訊飛和哈工大聯(lián)合實驗室又參與了斯坦福大學發(fā)起的SQuAD比賽,這次他們提交的系統(tǒng)模型再次斬獲頭名,也是中國本土研究機構(gòu)首次取得SQuAD的第一。
SQuAD比賽對機器語言理解的能力要求更高,核心在于,機器聊天一般有很多通用的答案,但在SQuAD中,機器必須真正理解問題,才能回答問題。
在接下來的幾年,雙方這一聯(lián)合團隊連續(xù)多次在這項比賽中刷新紀錄,其中2019年,聯(lián)合團隊首次在英文閱讀理解的全部兩項指標上超過人類平均水平,這在某種程度上意味著,科大訊飛已經(jīng)站在認知智能方面的國際領(lǐng)先地位。
這對應的是,在智能語音產(chǎn)業(yè)加速進化、市場競爭持續(xù)白熱化態(tài)勢下,科大訊飛此類智能語音科技企業(yè),加速走上了從單一的智能語音技術(shù)服務(wù)商、向全方位人工智能技術(shù)服務(wù)商的轉(zhuǎn)型,利用在語音技術(shù)上的核心優(yōu)勢,在萬物互聯(lián)的趨勢下,鞏固并增強競爭優(yōu)勢。
事實上,早在2015年前后,劉慶峰就對公司的發(fā)展有了新的思考。他認為,科大訊飛要從當時的語音,進一步擴展為挑戰(zhàn)更大的認知智能,也就是從能聽會說,到能理解會思考。
同一時期,科大訊飛確定了認知智能戰(zhàn)略,發(fā)布了“訊飛超腦”計劃,向認知智能發(fā)起挑戰(zhàn)。
科大訊飛希望建立起一個和人腦規(guī)模差不多大小的人工神經(jīng)網(wǎng)絡(luò),并利用這個網(wǎng)絡(luò)實現(xiàn)對人類認知、知識表達、邏輯推理等方面的模擬和學習,最終突破人類認知智能的挑戰(zhàn)。
從認知智能的實現(xiàn)路徑來看,要想讓機器能理解、會思考,首先要布局的,是機器閱讀理解和常識推理等技術(shù)。
這背后的技術(shù)背景是,自2006年深度學習技術(shù)興起以來,語音識別實現(xiàn)了重大突破,進入了DNN(深度神經(jīng)網(wǎng)絡(luò))時代;此后,語音識別技術(shù)持續(xù)進化,比如RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、CNN(卷積神經(jīng)網(wǎng)絡(luò))、DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò))等及端到端技術(shù)的發(fā)展。
圖源德勤《未來的語音世界 中國智能語音市場分析》
而在這一過程中,科大訊飛是最先布局的企業(yè)之一。
早在2012年,科大訊飛就將BN-feature和NDD-HMM兩套深度學習方案上線了訊飛輸入法和語音開放平臺,其由此成為國內(nèi)首個上線深度學習語音識別商業(yè)系統(tǒng)的機構(gòu),將實際場景中語音識別的準確率從60%提升到了88%左右。
也正是在“超腦計劃”公布后,科大訊飛加速進入AI 1.0時代,在智能語音技術(shù)的支撐下,向認知智能不斷邁進。
2022年7月,在由艾倫人工智能研究所(AI2)推出的常識推理挑戰(zhàn)賽OpenBookAQ中,科大訊飛推出的X-Reasoner模型,以94.2%的準確率奪冠,常識推理單模型首次超過了人類平均水平。
其中呈現(xiàn)出來的技術(shù)能力,一方面是機器的語言理解能力提升了;另一方面則是,機器多任務(wù)學習的能力也提升了。
科大訊飛的突破來源于,其在2019年初開始做預訓練模型,即目標任務(wù)之外,通過學習得到的模型。
這就好比人類原來的目標是學會閱讀理解,為了實現(xiàn)這個目標,會去讀很多的資料,比如文史知識、文學常識等等,在這個過程中人類既學會了閱讀理解,也學習到了很多其他的知識,獲取了其他的能力。通用人工智能的雛形已經(jīng)在內(nèi)部出現(xiàn)。
3、大模型時代,語音交互將被如何重構(gòu)?
在2018年的上海世界人工智能大會上,科大訊飛董事長劉慶峰曾表示,下一步AI發(fā)展的關(guān)鍵是算法突破,希望AI不用大量數(shù)據(jù)訓練就能自主學習,希望行業(yè)AI變成通用AI。
7年之后,他當年希望突破的技術(shù)已經(jīng)實現(xiàn),他希望看到的通用AI也已經(jīng)成為現(xiàn)實。
通用人工智能的快速發(fā)展和落地背后,語音交互產(chǎn)業(yè)也正發(fā)生著新一輪變革。
邏輯在于,原來的語音合成、語音識別、機器翻譯等單點技術(shù)的突破,實現(xiàn)了語音交互的系統(tǒng)性創(chuàng)新,但是通過大模型的自然語言理解、文本生成、指令跟隨、多輪對話、情緒感知、超擬人合成等,真正使得語音交互質(zhì)量得到提升。
從這一刻起,語音交互從可用、實用,走向更加好用——從我們熟知并經(jīng)常使用的語音輸入法、語音助手、智能音箱,到深入各個行業(yè)的智能客服、智慧座艙、語音病歷等場景,智能語音技術(shù)的進一步落地,某種程度上將帶來新的人機交互變革。自此,“懂你的AI助手”借助軟硬件一體化等方式,全球開花。
在大模型浪潮下,語音領(lǐng)域的幾乎所有應用,都值得用新方式重構(gòu)一遍。
今年6月27日,其發(fā)布了訊飛星火大模型V4.0及相關(guān)落地應用,在底座能力上全面對標Open AI的GPT-4 Turbo。
訊飛星火V4.0在8個國際主流測試集中排名第一,并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力等方面,實現(xiàn)了對GPT-4 Turbo的超越。
值得注意的是,除了這一通用大模型之外,今年1月30日,在訊飛星火大模型V3.5的升級發(fā)布會上,科大訊飛正式發(fā)布了星火語音大模型。
當時劉慶峰強調(diào),讓機器具備學習、推理和決策的能力,就是認知大模型要干的工作,“簡單來說,借助大模型,我們讓一段語音具備更加豐富的屬性,有語種、有內(nèi)容、有韻律、有音色,還有情緒?!?/p>
上個月的發(fā)布會上,星火語音大模型也迎來了升級。其發(fā)布了多語種多方言免切換語音識別能力,可支持37個語種、37種方言“自由對話”,其中,37個語種識別效果領(lǐng)先了OpenAI whisper-V3,37個方言識別效果平均提升了30%。
從更長遠的視角來看,在語音技術(shù)和大模型的戰(zhàn)略機遇期面前,科大訊飛實質(zhì)上正加速推動人機交互的新一輪變革。
比如在汽車領(lǐng)域,在大模型加持下,星火汽車智能座艙全新升級,不但具備了多語種多方言的“自由交互”,還具備多情感多模態(tài)的超擬人交互,讓人車交互更有溫度。
回顧過去25年,科大訊飛跨越了三座高山:
起初,一群對語音技術(shù)抱有熱忱、懷著將技術(shù)產(chǎn)業(yè)化理想的年輕人創(chuàng)辦了這家公司,隨后用了將近十年甚至更久的時間,將中國語音技術(shù)從“跟隨者”改寫成了“引領(lǐng)者”;
再到大約十年前,科大訊飛開始了新的航向,在人工智能戰(zhàn)略的牽引下,其將公司的業(yè)務(wù)和技術(shù)布局,從感知智能拓展到了認知智能;
再到如今大模型浪潮襲來時,科大訊飛又快速反應,憑借著深厚的技術(shù)積累,推動萬物互聯(lián)時代的加速到來。
不難發(fā)現(xiàn),科大訊飛過去的每一次技術(shù)突破,實質(zhì)上都見證了中國智能語音產(chǎn)業(yè)從跟隨到引領(lǐng)的過程。而可以預見,在即將來臨的萬物互聯(lián)時代,擁有技術(shù)積累的玩家,將抓住機遇實現(xiàn)再一次飛躍。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/cgo/market/120831.html