成年app软件你懂的,国产精品手机免费

文/陳鋒

編輯/子夜

想象一下，如果你置身于嘈雜的環(huán)境中，身邊的朋友誰說了什么話，你能聽得一清二楚嗎？

答案很可能是否定的。

但這個普通人難以做到的事情，AI可以。

上個月，科大訊飛的訊飛星火大模型V4.0發(fā)布會上，三位訊飛研究院的研究員現(xiàn)場實測，在噪音環(huán)境下同時混疊說話時，正常人難以聽清，但訊飛星火憑借其多模態(tài)能力，不但實現(xiàn)了三人重疊語音的角色分離，而且成功進行了實時轉(zhuǎn)寫。

這對應的是，針對強干擾場景下的語音識別難題，科大訊飛突破了多人混疊場景下的極復雜場景語音轉(zhuǎn)寫技術(shù)，即使在三人混疊說話場景下，也能實現(xiàn)86%的語音識別準確率。

科大訊飛的探索和技術(shù)成果，不止于此。

稍早一些的6月24日，2023年度國家科學技術(shù)獎勵大會上，科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目，獲得國家科學技術(shù)進步一等獎。

這是深度學習引發(fā)全球人工智能浪潮以來，過去十年里，人工智能領(lǐng)域首個國家科學技術(shù)進步獎一等獎，也是科大訊飛繼2002年、2011年分別獲得國家科學技術(shù)進步獎二等獎之后，首次獲得國家科學技術(shù)進步獎一等獎。

科大訊飛的上述技術(shù)突破，既是它過去多年技術(shù)實力的一次彰顯，某種程度上，在大模型帶來的戰(zhàn)略機遇面前，其也在加速推動萬物互聯(lián)時代的到來——從產(chǎn)業(yè)視角來看，語音識別等智能語音技術(shù)的進階，將進一步成為萬物互聯(lián)時代的核心推動力，持續(xù)向各類終端賦能，實現(xiàn)不同生活場景下的語音交互。

今年6月，科大訊飛董事長劉慶峰指出，科大訊飛正經(jīng)歷著創(chuàng)業(yè)以來最充滿挑戰(zhàn)、最扣人心弦、最激動人心的歷史時刻，他認為，科大訊飛迎來了語音和大模型的全新戰(zhàn)略機遇。

不難發(fā)現(xiàn)，在當下大模型帶動的通用人工智能浪潮下，科大訊飛已經(jīng)成了最具代表性的公司之一，在核心的智能語音技術(shù)上、大模型技術(shù)上，都已經(jīng)走在了行業(yè)前列。

1、語音交互火熱十年，什么是最大的痛點？

2016年初，《麻省理工科技評論》公布了2016年年度十大突破技術(shù)，其中，語音接口技術(shù)被排在第三位，其認為，語音識別和自然語言理解相結(jié)合，能為世界上最大的互聯(lián)網(wǎng)市場創(chuàng)造切實可用的語音接口。

同時期里，語音賽道成為全球互聯(lián)網(wǎng)領(lǐng)域一個新的風口，從互聯(lián)網(wǎng)大廠到初創(chuàng)企業(yè)，都在試圖通過互聯(lián)網(wǎng)硬件、軟件搶占這一領(lǐng)域。

其中的一個重要視角，是智能音箱成了全球科技巨頭的一個角逐中心。

2014年以來，從國外到國內(nèi)，從亞馬遜的Echo到谷歌的Google Home，到蘋果的HomePod，到科大訊飛的訊飛智能音箱X1，到百度的小度智能音箱，再到阿里巴巴的天貓精靈，一眾科技巨頭都在加速布局。

不僅是大公司，聚焦到中國市場，當時的這股潮流同樣傳導到了數(shù)量龐大的中小企業(yè)群體。

科技公司顯然不是只想做語音智能硬件，他們的目標，是面向未來切入人工智能市場。而硬件背后的語音平臺，有機會成為物聯(lián)網(wǎng)時代的“操作系統(tǒng)”，連接全新的產(chǎn)業(yè)生態(tài)。

人工智能助手的大規(guī)模出現(xiàn)，也是基于這一邏輯。微軟人工智能與研究事業(yè)部負責人沈向洋此前曾表示，語音智能是人機交互方式的又一次“范式遷移”。

他將人工智能助手類比幾十年前計算機從命令行界面轉(zhuǎn)向圖形界面，當時鼠標和桌面等的出現(xiàn)，讓人機交互變得友好而便利，由此帶來了個人電腦的大規(guī)模鋪開。

不難發(fā)現(xiàn)，在業(yè)界設(shè)想中，語音實則成了人機交互的基礎(chǔ)工具，而智能硬件、自動駕駛汽車、消費級機器人等等，都是潛在的應用場景。

圖源德勤《未來的語音世界中國智能語音市場分析》

不過在當時，語音交互痛點不少。

核心的難題在于，機器仍然不夠聰明。有業(yè)內(nèi)人士曾坦言，“人工智能、人工智能，有多少智能，就有多少人工。”

這對應的是，機器在自然語言理解、知識獲取等認知領(lǐng)域，仍然需要新的突破。

舉個例子，2016年，在Winograd Schema Challenge大賽中，科大訊飛獲得了第一名。Winograd Schema Challenge大賽有新型認知智能國際評測任務(wù)，重點考察機器是否具備理解常識并實現(xiàn)認知推理的能力，被認為是圖靈測試的替代。

盡管獲得了第一名，但當時機器的語言理解能力還遠遠不夠，甚至不及6歲的孩子。

如何破局，成了語音交互產(chǎn)業(yè)邁向萬物互聯(lián)時代的最大命題。

2、突圍：深度學習帶動智能語音技術(shù)加速進化

接著上文科大訊飛在Winograd Schema Challenge大賽中獲得第一名說起。

這個故事的后續(xù)是，短短一年以后，2017年，科大訊飛和哈工大聯(lián)合實驗室又參與了斯坦福大學發(fā)起的SQuAD比賽，這次他們提交的系統(tǒng)模型再次斬獲頭名，也是中國本土研究機構(gòu)首次取得SQuAD的第一。

SQuAD比賽對機器語言理解的能力要求更高，核心在于，機器聊天一般有很多通用的答案，但在SQuAD中，機器必須真正理解問題，才能回答問題。

在接下來的幾年，雙方這一聯(lián)合團隊連續(xù)多次在這項比賽中刷新紀錄，其中2019年，聯(lián)合團隊首次在英文閱讀理解的全部兩項指標上超過人類平均水平，這在某種程度上意味著，科大訊飛已經(jīng)站在認知智能方面的國際領(lǐng)先地位。

這對應的是，在智能語音產(chǎn)業(yè)加速進化、市場競爭持續(xù)白熱化態(tài)勢下，科大訊飛此類智能語音科技企業(yè)，加速走上了從單一的智能語音技術(shù)服務(wù)商、向全方位人工智能技術(shù)服務(wù)商的轉(zhuǎn)型，利用在語音技術(shù)上的核心優(yōu)勢，在萬物互聯(lián)的趨勢下，鞏固并增強競爭優(yōu)勢。

事實上，早在2015年前后，劉慶峰就對公司的發(fā)展有了新的思考。他認為，科大訊飛要從當時的語音，進一步擴展為挑戰(zhàn)更大的認知智能，也就是從能聽會說，到能理解會思考。

同一時期，科大訊飛確定了認知智能戰(zhàn)略，發(fā)布了“訊飛超腦”計劃，向認知智能發(fā)起挑戰(zhàn)。

科大訊飛希望建立起一個和人腦規(guī)模差不多大小的人工神經(jīng)網(wǎng)絡(luò)，并利用這個網(wǎng)絡(luò)實現(xiàn)對人類認知、知識表達、邏輯推理等方面的模擬和學習，最終突破人類認知智能的挑戰(zhàn)。

從認知智能的實現(xiàn)路徑來看，要想讓機器能理解、會思考，首先要布局的，是機器閱讀理解和常識推理等技術(shù)。

這背后的技術(shù)背景是，自2006年深度學習技術(shù)興起以來，語音識別實現(xiàn)了重大突破，進入了DNN（深度神經(jīng)網(wǎng)絡(luò)）時代；此后，語音識別技術(shù)持續(xù)進化，比如RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）、CNN（卷積神經(jīng)網(wǎng)絡(luò)）、DFCNN（深度全序列卷積神經(jīng)網(wǎng)絡(luò)）等及端到端技術(shù)的發(fā)展。

圖源德勤《未來的語音世界中國智能語音市場分析》

而在這一過程中，科大訊飛是最先布局的企業(yè)之一。

早在2012年，科大訊飛就將BN-feature和NDD-HMM兩套深度學習方案上線了訊飛輸入法和語音開放平臺，其由此成為國內(nèi)首個上線深度學習語音識別商業(yè)系統(tǒng)的機構(gòu)，將實際場景中語音識別的準確率從60%提升到了88%左右。

也正是在“超腦計劃”公布后，科大訊飛加速進入AI 1.0時代，在智能語音技術(shù)的支撐下，向認知智能不斷邁進。

2022年7月，在由艾倫人工智能研究所（AI2）推出的常識推理挑戰(zhàn)賽OpenBookAQ中，科大訊飛推出的X-Reasoner模型，以94.2%的準確率奪冠，常識推理單模型首次超過了人類平均水平。

其中呈現(xiàn)出來的技術(shù)能力，一方面是機器的語言理解能力提升了；另一方面則是，機器多任務(wù)學習的能力也提升了。

科大訊飛的突破來源于，其在2019年初開始做預訓練模型，即目標任務(wù)之外，通過學習得到的模型。

這就好比人類原來的目標是學會閱讀理解，為了實現(xiàn)這個目標，會去讀很多的資料，比如文史知識、文學常識等等，在這個過程中人類既學會了閱讀理解，也學習到了很多其他的知識，獲取了其他的能力。通用人工智能的雛形已經(jīng)在內(nèi)部出現(xiàn)。

3、大模型時代，語音交互將被如何重構(gòu)？

在2018年的上海世界人工智能大會上，科大訊飛董事長劉慶峰曾表示，下一步AI發(fā)展的關(guān)鍵是算法突破，希望AI不用大量數(shù)據(jù)訓練就能自主學習，希望行業(yè)AI變成通用AI。

7年之后，他當年希望突破的技術(shù)已經(jīng)實現(xiàn)，他希望看到的通用AI也已經(jīng)成為現(xiàn)實。

通用人工智能的快速發(fā)展和落地背后，語音交互產(chǎn)業(yè)也正發(fā)生著新一輪變革。

邏輯在于，原來的語音合成、語音識別、機器翻譯等單點技術(shù)的突破，實現(xiàn)了語音交互的系統(tǒng)性創(chuàng)新，但是通過大模型的自然語言理解、文本生成、指令跟隨、多輪對話、情緒感知、超擬人合成等，真正使得語音交互質(zhì)量得到提升。

從這一刻起，語音交互從可用、實用，走向更加好用——從我們熟知并經(jīng)常使用的語音輸入法、語音助手、智能音箱，到深入各個行業(yè)的智能客服、智慧座艙、語音病歷等場景，智能語音技術(shù)的進一步落地，某種程度上將帶來新的人機交互變革。自此，“懂你的AI助手”借助軟硬件一體化等方式，全球開花。

在大模型浪潮下，語音領(lǐng)域的幾乎所有應用，都值得用新方式重構(gòu)一遍。

今年6月27日，其發(fā)布了訊飛星火大模型V4.0及相關(guān)落地應用，在底座能力上全面對標Open AI的GPT-4 Turbo。

訊飛星火V4.0在8個國際主流測試集中排名第一，并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力等方面，實現(xiàn)了對GPT-4 Turbo的超越。

值得注意的是，除了這一通用大模型之外，今年1月30日，在訊飛星火大模型V3.5的升級發(fā)布會上，科大訊飛正式發(fā)布了星火語音大模型。

當時劉慶峰強調(diào)，讓機器具備學習、推理和決策的能力，就是認知大模型要干的工作，“簡單來說，借助大模型，我們讓一段語音具備更加豐富的屬性，有語種、有內(nèi)容、有韻律、有音色，還有情緒?！?/p>

上個月的發(fā)布會上，星火語音大模型也迎來了升級。其發(fā)布了多語種多方言免切換語音識別能力，可支持37個語種、37種方言“自由對話”，其中，37個語種識別效果領(lǐng)先了OpenAI whisper-V3，37個方言識別效果平均提升了30%。

從更長遠的視角來看，在語音技術(shù)和大模型的戰(zhàn)略機遇期面前，科大訊飛實質(zhì)上正加速推動人機交互的新一輪變革。

比如在汽車領(lǐng)域，在大模型加持下，星火汽車智能座艙全新升級，不但具備了多語種多方言的“自由交互”，還具備多情感多模態(tài)的超擬人交互，讓人車交互更有溫度。

回顧過去25年，科大訊飛跨越了三座高山：

起初，一群對語音技術(shù)抱有熱忱、懷著將技術(shù)產(chǎn)業(yè)化理想的年輕人創(chuàng)辦了這家公司，隨后用了將近十年甚至更久的時間，將中國語音技術(shù)從“跟隨者”改寫成了“引領(lǐng)者”；

再到大約十年前，科大訊飛開始了新的航向，在人工智能戰(zhàn)略的牽引下，其將公司的業(yè)務(wù)和技術(shù)布局，從感知智能拓展到了認知智能；

再到如今大模型浪潮襲來時，科大訊飛又快速反應，憑借著深厚的技術(shù)積累，推動萬物互聯(lián)時代的加速到來。

不難發(fā)現(xiàn)，科大訊飛過去的每一次技術(shù)突破，實質(zhì)上都見證了中國智能語音產(chǎn)業(yè)從跟隨到引領(lǐng)的過程。而可以預見，在即將來臨的萬物互聯(lián)時代，擁有技術(shù)積累的玩家，將抓住機遇實現(xiàn)再一次飛躍。

本文來自投稿，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://gptmaths.com/cgo/market/120831.html

從跟隨到引領(lǐng)，中國AI企業(yè)打響語音交互突圍戰(zhàn)

1、語音交互火熱十年，什么是最大的痛點？

2、突圍：深度學習帶動智能語音技術(shù)加速進化

3、大模型時代，語音交互將被如何重構(gòu)？

關(guān)于作者

連線Insight優(yōu)創(chuàng)媒體

發(fā)表回復

從跟隨到引領(lǐng)，中國AI企業(yè)打響語音交互突圍戰(zhàn)

1、語音交互火熱十年，什么是最大的痛點？

2、突圍：深度學習帶動智能語音技術(shù)加速進化

3、大模型時代，語音交互將被如何重構(gòu)？

關(guān)于作者

連線Insight優(yōu)創(chuàng)媒體

增長黑客Growthhk.cn薦讀更多>>

楊不壞：定制化市場解決方案的重復與迭代

目的營銷比重增長，品牌的體育贊助投資更趨于開放｜禹唐體育

美圖AIGC布局再進一步，大模型3.0讓用戶掌握主動權(quán)

一場看得見可落地的AI營銷盛會！第八屆社交媒體風向大會來啦~

黃海鈞：To B企業(yè)要不要投品牌廣告

2024年“貴族”酸奶集體“跳水”，怎么破局？

發(fā)表回復

從跟隨到引領(lǐng)，中國AI企業(yè)打響語音交互突圍戰(zhàn)

1、語音交互火熱十年，什么是最大的痛點？

2、突圍：深度學習帶動智能語音技術(shù)加速進化

3、大模型時代，語音交互將被如何重構(gòu)？

目的營銷比重增長，品牌的體育贊助投資更趨于開放｜禹唐體育

美圖AIGC布局再進一步，大模型3.0讓用戶掌握主動權(quán)

2024年“貴族”酸奶集體“跳水”，怎么破局？