文|郝 ?? 鑫
編|劉雨琦
ChatGPT火爆之前,水面下,也有中國(guó)公司也在朝著智能助手的方向努力??淇吮闶瞧渲兄?。在GPT風(fēng)靡科技圈后,國(guó)內(nèi)就開始陸續(xù)冒出一些大模型廠商。對(duì)當(dāng)時(shí)夸克而言,做大模型毋庸置疑,但做什么樣的大模型還需要結(jié)合自身優(yōu)勢(shì)去制定詳細(xì)方案。本質(zhì)上,這是一個(gè)技術(shù)性和實(shí)用性誰(shuí)是第一性的問(wèn)題。同樣是做大模型,有的廠商選擇先攻克技術(shù),大模型研發(fā)出來(lái)后再找業(yè)務(wù)場(chǎng)景;而有的廠商,則是從已有的確定性場(chǎng)景出發(fā),匹配滿足業(yè)務(wù)需求的大模型。夸克顯然屬于后者,從搜、存、用三個(gè)主要核心場(chǎng)景出發(fā),打造知識(shí)準(zhǔn)確性高、邏輯理解能力強(qiáng)的大模型底座。事實(shí)上,大模型問(wèn)世之后,落地速度并沒有想象中那么快,核心原因便在于找不到場(chǎng)景,拿著錘子滿世界找釘子,效率自然不高。而夸克則從原有的場(chǎng)景出發(fā),產(chǎn)生價(jià)值是關(guān)鍵。正是源于這樣的思考,夸克大模型的誕生貫穿著實(shí)用性的思考,也自我定位為:面向搜索、生產(chǎn)力工具和資產(chǎn)管理助手的應(yīng)用型大模型。更準(zhǔn)確的說(shuō),夸克借著大模型的技術(shù)東風(fēng),將原有產(chǎn)品功能進(jìn)行智能化升級(jí),也再次明確了打造集工作、生活、學(xué)習(xí)一體的AI助手的初心。
“學(xué)霸”是怎樣煉成的?
什么樣的土壤,結(jié)出什么樣的果實(shí),夸克大模型從出生起就自帶著搜索引擎的基因。搜索的本質(zhì)是將用戶的搜索意圖和信息進(jìn)行匹配,而這也正是幫助大模型形成邏輯的過(guò)程。用戶的每次查詢、點(diǎn)擊,都會(huì)建立、強(qiáng)化和拓展匹配的關(guān)聯(lián)性,比如在瀏覽頁(yè)面的過(guò)程中,就能自然地建立起“ChatGPT-OpenAI-奧特曼”之間的關(guān)系。循環(huán)往復(fù),通過(guò)搜索就積累起了龐大的數(shù)據(jù),建立起了涵蓋文字、圖片、視頻的多模態(tài)知識(shí)圖譜,正是在這些錯(cuò)綜復(fù)雜的知識(shí)圖譜中構(gòu)建起了邏輯關(guān)系。可以說(shuō),用戶的每一次搜索行為,都是在輔助大模型訓(xùn)練?;诖?,以Transformer為架構(gòu),從搜索引擎中長(zhǎng)出來(lái)的夸克大模型,天然就擅于理解和邏輯。得益于在理解和邏輯上的天賦,讓夸克大模型確定了最核心的能力——知識(shí)正確性能力。“要開發(fā)大模型應(yīng)用,首先就要解決知識(shí)正確性的問(wèn)題?,F(xiàn)在內(nèi)容生成,主要靠大模型的創(chuàng)意能力,而不是知識(shí)能力,這可能擁有一部分市場(chǎng)。但更進(jìn)一步,我認(rèn)為,好用的大模型產(chǎn)品和創(chuàng)新產(chǎn)品,應(yīng)該是知識(shí)和創(chuàng)意能力的結(jié)合”,夸克技術(shù)負(fù)責(zé)人蔣冠軍表示。但從發(fā)現(xiàn)到構(gòu)建,這中間還需要解決兩個(gè)核心問(wèn)題,一是如何降低幻覺,提高大模型輸出的準(zhǔn)確率?二是如何讓大模型真的去理解和學(xué)會(huì),不止是學(xué)會(huì),更要做“學(xué)霸”。因此,“學(xué)霸計(jì)劃”正式確定成立,夸克打出了一套組合拳。首先是參數(shù)要大,夸克大模型參數(shù)達(dá)到了千億級(jí)。更大的參數(shù)量,意味著模型的知識(shí)容量更大,可學(xué)習(xí)語(yǔ)言的模式也更豐富,有利于大模型的分析和推理。其次是從數(shù)據(jù)價(jià)值上下功夫。從數(shù)量上做到全,據(jù)悉,夸克大模型幾乎涵蓋了所有的中文知識(shí),以及豐富的英語(yǔ)和其他語(yǔ)言知識(shí);從數(shù)據(jù)質(zhì)量上做到優(yōu)質(zhì),基于搜索引擎經(jīng)驗(yàn),夸克團(tuán)隊(duì)有一套科學(xué)的知識(shí)評(píng)估、對(duì)齊和校驗(yàn)體系,可以篩選出哪些數(shù)據(jù)是有價(jià)值的,同時(shí)過(guò)濾出無(wú)用、有害的數(shù)據(jù);從數(shù)據(jù)與數(shù)據(jù)關(guān)系層面,采用大量知識(shí)圖譜、文檔和網(wǎng)頁(yè)知識(shí)去做知識(shí)增強(qiáng)。最后是靠專業(yè)團(tuán)隊(duì)來(lái)生產(chǎn)和審核知識(shí)。在醫(yī)療、教育、文檔行業(yè),夸克不僅沉淀了大量的數(shù)據(jù),還引進(jìn)了專業(yè)的醫(yī)生、老師等角色,一邊生產(chǎn)出專業(yè)優(yōu)質(zhì)的知識(shí)喂給大模型,一邊也為最后結(jié)果生成的準(zhǔn)確性加筑了一道防線。蔣冠軍告訴光錐智能,靠專業(yè)團(tuán)隊(duì)供給大模型訓(xùn)練,才讓其走到了現(xiàn)在,“最初我們做一個(gè)版本,但是效果不太好。于是,我們立馬組建起專業(yè)團(tuán)隊(duì),不僅有正式員工、行業(yè)資深從業(yè)者,也建設(shè)了專門的第三方團(tuán)隊(duì)”。不過(guò),真學(xué)霸還是假學(xué)霸,還得拿成績(jī)說(shuō)話。在提升準(zhǔn)確率方面,夸克大模型在健康等高精專行業(yè),知識(shí)錯(cuò)誤率降到了5%以下,基本上達(dá)到較高可用性。在國(guó)內(nèi)最權(quán)威的兩個(gè)大語(yǔ)言模型測(cè)試榜單中,夸克大模型經(jīng)過(guò)了上萬(wàn)道專業(yè)考題的檢驗(yàn),覆蓋幾十個(gè)學(xué)科和不同學(xué)段,無(wú)論是常識(shí)問(wèn)題還是社會(huì)科學(xué)知識(shí),夸克大模型都展現(xiàn)出了處理復(fù)雜、多層次問(wèn)題的能力。在C-Eval榜單中,夸克大模型平均分達(dá)到89分,位居榜單第一,同時(shí)在社會(huì)科學(xué)、人文科學(xué)和其他三個(gè)類目中位列榜首。在CMMLU榜單評(píng)測(cè)中,夸克大模型以平均77.08分的成績(jī)位列總成績(jī)第一,并占據(jù)社會(huì)科學(xué)和其他兩個(gè)類目的首位。臨床執(zhí)業(yè)醫(yī)師資格考試、計(jì)算機(jī)等級(jí)考試、公務(wù)員考試、教師資格證考試,夸克大模型搖身一變,成了各領(lǐng)域的“專業(yè)人才”。
重要的是,夸克是什么
一個(gè)以知識(shí)能力為核心,兼具對(duì)話、創(chuàng)作、安全的錘子打造好后,下一步就要考慮楔釘子的順序以及怎么用大模型的底座把夸克的產(chǎn)品功能挨個(gè)智能化改造一遍。蔣冠軍介紹,他們對(duì)夸克的最新定位是一款集搜、用、存的智能信息產(chǎn)品。該定位來(lái)自于夸克團(tuán)隊(duì)對(duì)其主要用戶群體,即25歲以下的年輕用戶長(zhǎng)期使用場(chǎng)景的分析,蔣冠軍表示,“在大家工作、學(xué)習(xí)和生活的過(guò)程中,無(wú)外乎是找資料、存資料,并且最好還能在云端進(jìn)行編輯和加工”。梳理后發(fā)現(xiàn),“搜”的功能中包含了通用搜索、文檔、圖片、視頻、醫(yī)療、教育等場(chǎng)景;“用”的功能具體指所提供的工具,其中有掃描王、高考填報(bào)、網(wǎng)頁(yè)、資料生成等工具;“存”則指向個(gè)人云盤系列功能,內(nèi)含了資產(chǎn)管理、資產(chǎn)搜索、資產(chǎn)編輯等功能。搜索一向是夸克的“靈魂”,自然也成為了落下的第一顆“釘子”。對(duì)夸克來(lái)說(shuō),“搜索”是引擎,牽一發(fā)而動(dòng)全身。因此,對(duì)搜索的改造,絕不能淺嘗輒止。具體來(lái)看,目前有三個(gè)主要方向的升級(jí):對(duì)通用搜索結(jié)果的優(yōu)化,對(duì)生成內(nèi)容的增加以及對(duì)健康、教育和法律等核心場(chǎng)景的再產(chǎn)品化。過(guò)去,用戶在搜索引擎中的查詢、點(diǎn)擊和結(jié)果返回的行為,本身就是一種交互方式,只不過(guò)在這種情況下搜索不具備針對(duì)性,搜索結(jié)果呈現(xiàn)也是散狀的。而有了大模型以后,搜索的行為更像是對(duì)話,既可以展現(xiàn)通用的答案,也可以針對(duì)用戶個(gè)性化提問(wèn)、追問(wèn)進(jìn)行補(bǔ)充。搜索結(jié)果可以聚合和整合,不用再同時(shí)打開十幾個(gè)網(wǎng)頁(yè),并且結(jié)果正確性可追溯。夸克認(rèn)為搜索本身就是一個(gè)以內(nèi)容為驅(qū)動(dòng)的產(chǎn)品,AIGC技術(shù)趨漸成熟催化了搜索內(nèi)容的進(jìn)一步爆發(fā)。現(xiàn)階段,夸克在搜索上推出了大量的AIGC內(nèi)容,比如支持消息祝福、語(yǔ)文作文、合同、規(guī)章制度、新聞稿等短、中、長(zhǎng)的文案創(chuàng)作。健康、教育和法律行業(yè)都是對(duì)知識(shí)性要求極高的行業(yè)。首先是有進(jìn)入門檻,如果沒有長(zhǎng)時(shí)間的行業(yè)積累,很難把行業(yè)摸透,做到深、精和專。再者,用戶對(duì)這些行業(yè)的知識(shí)需求,量要足夠大,知識(shí)的難易程度要有階梯性的區(qū)分。更為關(guān)鍵的是,用戶搜即用,從學(xué)術(shù)寫作、實(shí)驗(yàn)室到手術(shù)臺(tái)、法院,對(duì)準(zhǔn)確性都有極高的要求。上述要求或許對(duì)其他玩家存在挑戰(zhàn),但對(duì)夸克而言,從行業(yè)經(jīng)驗(yàn)、數(shù)據(jù)積累到知識(shí)的準(zhǔn)確性,本該水到渠成。“在健康場(chǎng)景上,我們做了很多行業(yè)數(shù)據(jù)建設(shè)和知識(shí)建設(shè),具備完整的健康知識(shí)圖譜,儲(chǔ)備了大量醫(yī)典百科、醫(yī)典問(wèn)答的C端用戶數(shù)據(jù),還整理了大量的指南、標(biāo)準(zhǔn)和書籍等一系列數(shù)據(jù)”,蔣冠軍說(shuō)道。此外,夸克的優(yōu)勢(shì)還在于有成熟的場(chǎng)景和用戶。大模型對(duì)健康和法律行業(yè)的改造,早在年初就在國(guó)外興起,也被視為具有潛力的市場(chǎng)。幾乎同時(shí)期,國(guó)內(nèi)就出現(xiàn)了一批“Copy to China”的追隨者,但卻忽略了本質(zhì)邏輯,國(guó)外能火是因?yàn)榘寻嘿F的勞動(dòng)力價(jià)格打了下來(lái),卻不符合國(guó)內(nèi)實(shí)際情況。所以直到現(xiàn)在,仍有很多創(chuàng)業(yè)者在做2C還是2B場(chǎng)景中徘徊。然而,對(duì)夸克來(lái)說(shuō),做健康、法律、教育不是選擇,而是發(fā)揮之所長(zhǎng)。蔣冠軍告訴光錐智能:“為什么我們要重點(diǎn)建設(shè)健康行業(yè)?原因在于搜索引擎的核心群體就涵蓋了對(duì)健康信息的強(qiáng)需求,在搜索引擎上,用戶可以獲得更好的信息服務(wù)?!笨淇舜竽P椭诮】抵R(shí)查詢、獲取,最大的變化在于,不僅能做健康科普問(wèn)答,還具備比較好的推理能力。以一個(gè)咨詢咳嗽癥狀的場(chǎng)景為例,以前在搜索引擎的操作流程如下:在搜索框輸入“咳嗽了三天越來(lái)越嚴(yán)重了怎么回事兒?”,然后網(wǎng)頁(yè)出現(xiàn)了一堆五花八門的答案,有的說(shuō)是感冒,有的說(shuō)是肺炎,有的說(shuō)是支氣管炎,問(wèn)題是一點(diǎn)沒解決,還徒增了恐慌??淇藞F(tuán)隊(duì)注意到,上述情況存在著兩個(gè)痛點(diǎn):普通用戶缺乏專業(yè)知識(shí),不知道怎么精準(zhǔn)地描述自己的癥狀;同樣一個(gè)小癥狀可能對(duì)應(yīng)著一堆疾病,怎么判斷哪個(gè)是主要癥狀?夸克給出的解決方案是,線上給每位患者建立了“醫(yī)療卡”,當(dāng)用戶簡(jiǎn)單描述了咳嗽的癥狀后,會(huì)出現(xiàn)一系列相關(guān)的可能對(duì)應(yīng)疾病癥狀。提交完后,大模型會(huì)根據(jù)當(dāng)前的癥狀信息,給出一個(gè)疾病范圍。通過(guò)交互和推理,大幅度提升了診斷的精確性。最后,大模型會(huì)輸出參考信息,給出幾個(gè)參考方案,如果是A種情況,有什么癥狀,確診需要做哪些檢查,可能會(huì)開什么藥等等。在工具、云盤功能方面,當(dāng)前夸克大模型的主要作用是提效。在云盤上,夸克網(wǎng)盤相冊(cè)可以用自然語(yǔ)言去完成檢索,背后是夸克大模型加持的多模態(tài)技術(shù)和能力;在掃描產(chǎn)品上,掃描識(shí)別、資料生成、AI智能填表等更多功能已經(jīng)在升級(jí)和開發(fā)的路上。“夸克大模型基本上完成了在當(dāng)前階段的整體迭代,具備在一部分夸克App的場(chǎng)景里提供服務(wù)的能力”,蔣冠軍總結(jié)道。
大模型是搜索引擎的未來(lái)嗎?
大模型之后,微軟、谷歌等都曾嘗試重構(gòu)搜索,但目前為止并沒有確定性的結(jié)果。這同樣是夸克的挑戰(zhàn),但也是巨大的機(jī)會(huì)。新一代的搜索引擎不單單只是一個(gè)冰冷的工具,而是由用戶來(lái)重新定義,它可以是工作伙伴、情感陪伴、老師朋友。微軟將之稱之為“Copilot”副駕,谷歌稱之為“Magi”。谷歌表示搜索不僅僅是一個(gè)工具,而是一個(gè)伙伴,一個(gè)靈感來(lái)源,一個(gè)創(chuàng)造力的催化劑,搜索體驗(yàn)將成為重點(diǎn)。搜索引擎的角色定位變了。這一本質(zhì)的改變會(huì)帶動(dòng)搜索引擎走向內(nèi)容化的道路,同時(shí)流量的分配邏輯和商業(yè)模式也會(huì)隨之改變。“現(xiàn)在是大模型輔助搜索,未來(lái)是大模型改變搜索?!?/strong>蔣冠軍表示,搜索產(chǎn)品的本質(zhì)就是“交互+內(nèi)容”,把搜索做得極致簡(jiǎn)單就是一個(gè)“框+內(nèi)容”的形式,但是搜索的局限性在于,內(nèi)容沒法個(gè)性化和深度化,別人生產(chǎn)什么,它就回答什么。大模型誕生后,搜索的內(nèi)容生成能力實(shí)現(xiàn)了指數(shù)級(jí)增長(zhǎng),交互提問(wèn)的數(shù)量和理解能力也相應(yīng)地指數(shù)級(jí)上升。下一代的搜索引擎將在內(nèi)容聯(lián)動(dòng)性方面進(jìn)一步打通,以此來(lái)增加搜索內(nèi)容的豐富性。除了現(xiàn)在能看到的文字、圖片、視頻,以后還將會(huì)有短視頻、社交媒體帖子、AI生成內(nèi)容等,內(nèi)容排序與推薦順序的決定權(quán)重新交還給用戶。同時(shí)隨著大模型的進(jìn)一步的普及,流量入口可能會(huì)從現(xiàn)在的搜索引擎轉(zhuǎn)移到大模型的對(duì)話框,這將會(huì)直接導(dǎo)致流量邏輯和規(guī)則的改變。換而言之,未來(lái),誰(shuí)掌握了大模型,誰(shuí)能吸引來(lái)更多用戶使用其大模型,就能掌握話語(yǔ)權(quán)。關(guān)于下一代搜索,夸克也有自己的思考,夸克認(rèn)為,搜索與大模型關(guān)系是隨著技術(shù)成熟度而變化。蔣冠軍判斷到:“5到10年以后,搜索會(huì)有大變化”。他認(rèn)為理論上來(lái)說(shuō),只要大模型足夠強(qiáng),會(huì)打破現(xiàn)有的很多信息獲取習(xí)慣,大模型都是可以使用的工具,打字也好、語(yǔ)音也好,跟它交互很方便。再進(jìn)一步,大模型的基礎(chǔ)能力會(huì)越來(lái)越往搜索里面去滲透。先是大模型輔助搜索,完成一些工作,慢慢變成以大模型為核心,用搜索幫它完成產(chǎn)品創(chuàng)新。搜索推薦、排序與流量入口改變以后,搜索的商業(yè)模式必然會(huì)重塑。光錐智能發(fā)現(xiàn),商業(yè)模式漸進(jìn)式的重塑已經(jīng)打響,例如谷歌在對(duì)話搜索生成的結(jié)果頁(yè),同樣呈現(xiàn)了商家廣告推薦;外媒報(bào)道,微軟、谷歌已經(jīng)嘗試在類ChatGPT對(duì)話生成結(jié)果中,增加商家投放鏈接,價(jià)高者排序也比較靠前。這讓新一代搜索充滿了想象力。也讓夸克這位主攻信息服務(wù)的新星,一躍成為阿里的創(chuàng)新代表之一。阿里三季度財(cái)報(bào)會(huì)上,新任CEO吳泳銘宣布首批戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù),夸克位列其中。從根本上看這源于阿里的“AI驅(qū)動(dòng)”戰(zhàn)略,進(jìn)一步,吳泳銘曾在公開場(chǎng)合發(fā)言表示:“在可見的未來(lái),會(huì)有更智能的下一代產(chǎn)品進(jìn)入人們的生活,AI助理會(huì)無(wú)處不在,成為每個(gè)人工作、生活、學(xué)習(xí)中的助手”。在阿里內(nèi)部“工作、生活、學(xué)習(xí)的助手”直指夸克,無(wú)論從內(nèi)部的重視程度還是行業(yè)重要性來(lái)看,如今的夸克已經(jīng)站在了下一代搜索的臨界點(diǎn)。
本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/cgo/109531.html