GPT-4震撼發(fā)布!碾壓ChatGPT,強(qiáng)大到?jīng)]對(duì)手?

今天重磅推出的ChatGPT“繼任者”——GPT-4,會(huì)否再一次改變世界?

出品 | 微果醬(ID:wjam123456)
作者?| 陳出木&zhou大紅

科技圈上一次這么“瘋狂”,還要回到2007年1月9日。蘋果聯(lián)合創(chuàng)始人兼CEO的史蒂夫·喬布斯(Steve Jobs)在舊金山Moscone中心發(fā)布第一代iPhone,標(biāo)志著智能手機(jī)時(shí)代的來臨,也加速了移動(dòng)互聯(lián)網(wǎng)時(shí)代的騰飛。

而今天,曾經(jīng)掀起科技海嘯的ChatGPT推出迭代產(chǎn)品——GPT-4,會(huì)否再一次改變世界?

“超級(jí)網(wǎng)紅”GPT-4亮相

今天凌晨一點(diǎn),OpenAI的首席執(zhí)行官Sam Altman在社交媒體上發(fā)文,官宣推出“GPT-4”(openai.com/research/gpt-4)

這里是GPT-4,它是我們迄今為止最強(qiáng)大和最一致的模型,今天在我們的API(帶有等待列表)和ChatGPT plus中可用。它仍然是有缺陷的,仍然是有限的,而且它在第一次使用時(shí)似乎比你花更多時(shí)間使用它之后更令人印象深刻。

 

一石激起千層浪。

國(guó)外,華爾街日?qǐng)?bào)、紐約時(shí)報(bào)等各大媒體聞風(fēng)而動(dòng),BBC用上的標(biāo)題是《OpenAI announces ChatGPT successor GPT-4》,直接將GPT-4稱為ChatGPT的“繼任者”。

國(guó)內(nèi)同樣大受震動(dòng),各家媒體爭(zhēng)相報(bào)道。一時(shí)之間,““未來”似乎真的已來。

這種科技應(yīng)用熱浪已經(jīng)很久沒看到過了,甚至頗有2007年喬布斯發(fā)布會(huì)的激動(dòng)既視感。

彼時(shí),喬布斯在臺(tái)上向人們講解為什么要花499美元買iPhone。盡管他語氣平靜,但臺(tái)下掌聲雷動(dòng),媒體們也像今天這般蜂擁跟進(jìn)。而直到現(xiàn)在,16年后,互聯(lián)網(wǎng)上仍然持續(xù)銘記并懷念著那場(chǎng)劃時(shí)代的發(fā)布會(huì)。

因?yàn)檎鐔滩妓顾f,“蘋果要重新定義手機(jī)。”那天之后,我們逐漸用上智能機(jī),正式步入了移動(dòng)互聯(lián)網(wǎng)時(shí)代。

當(dāng)前很難斷定GPT-4是否能像iPhone那般改變世界,畢竟連“ChatGPT之父”Sam Altman也表示,其仍有缺陷。但毋庸置疑的是,它正在加速這種改變。

以下是Open AI關(guān)于GPT-4新能力的介紹:

我們創(chuàng)建了GPT-4,這是OpenAI擴(kuò)展深度學(xué)習(xí)的最新里程碑。GPT-4是一個(gè)大型多模態(tài)模型(接受圖像和文本輸入,發(fā)出文本輸出),雖然在許多現(xiàn)實(shí)場(chǎng)景中不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平的表現(xiàn)。

GPT-4的新功能一覽

根據(jù)GPT-4的官網(wǎng)消息,相比GPT-3.5,GPT-4的能力將在任務(wù)復(fù)雜性達(dá)到足夠的閾值時(shí)顯現(xiàn)出來,會(huì)更可靠、更具創(chuàng)造力,并且能夠處理更細(xì)微的指令。

相當(dāng)于說,問題越難,GPT-4越能一展身手,而普通交談上,GPT-4和GPT-3.5差異不大。這個(gè)結(jié)論是基于,OpenAI讓兩個(gè)模型在各種為人類設(shè)計(jì)的模擬考試上進(jìn)行的實(shí)驗(yàn)。

此外,GPT-4優(yōu)于現(xiàn)有的大型語言模型及大多數(shù)SOTA模型。且在測(cè)試的 26 種語言的24種中,GPT-4優(yōu)于GPT-3.5和其他大語言模型(Chinchilla、PaLM)的英語語言性能。

根據(jù)官方技術(shù)文檔,GPT-4的新功能具體包括:

1、Visual inputs(視覺輸入)

GPT-4可以接受文本和圖像的prompt(javascript語言中的一個(gè)方法,主要用于顯示提示對(duì)話框),這與純文本設(shè)置并行,允許用戶指定任何視覺或語言任務(wù)。

具體來說,當(dāng)用戶給定由穿插的文本和圖像組成的輸入,GPT-4可以生成文本輸出,包括了自然語言、代碼等。換言之,輸入帶有文本和照片的文檔、圖表或屏幕截圖,GPT-4已經(jīng)可以表現(xiàn)出與純文本輸入類似的功能。

此外,它還可以通過為純文本語言模型開發(fā)的測(cè)試時(shí)間技術(shù)來增強(qiáng),包括少量鏡頭和思維鏈prompt。

舉個(gè)例子,當(dāng)你問GPT-4:“這張照片有什么好笑的?逐一描述?!泵鎸?duì)問題中同時(shí)出現(xiàn)了文本和圖片的情況,GPT-4識(shí)別之后,絲毫不慌地給出三個(gè)理由。

再來個(gè)圖文并茂的物理題,GPT-4不僅成功跨語種,讀懂法語題目并給出了完整解答過程。

GPT-4還能站在人類角度理解到圖片的不同尋常之處。

甚至對(duì)于更加具有主觀創(chuàng)造性的“梗圖”和漫畫,GPT-4也能說出個(gè)一二三四。

User:你能解釋一下這個(gè)迷因嗎?(圖中文字翻譯:有時(shí)我只是從太空看地球的照片,想象這一切是多么美好)

GPT-4:這是一個(gè)笑話,它結(jié)合了兩個(gè)無關(guān)的東西——來自太空的地球圖片和雞塊。其文字表明,下圖是一張來自太空的地球圖片,而這張圖片實(shí)際上是雞塊,被排列成模糊的世界地圖。其中的幽默來自于文本和圖像的意外并置。文本設(shè)定了一個(gè)宏偉的地球形象的期望,但這個(gè)形象實(shí)際上是世俗和愚蠢的。

在Open AI發(fā)布的GPT-4開發(fā)者直播視頻中,開發(fā)人員還演示了利用GPT-4,將他筆記本上的草圖圖像創(chuàng)建了一個(gè)網(wǎng)站。

盡管官方表示,圖像輸入仍然是一個(gè)研究預(yù)覽,無法公開。但無疑,這樣的人工智能程度是足以令人心驚的。

而開發(fā)者還不斷發(fā)現(xiàn)GPT-4能處理的新的任務(wù),并計(jì)劃很快發(fā)布進(jìn)一步的分析和評(píng)估數(shù)據(jù),并對(duì)測(cè)試時(shí)間技術(shù)的影響進(jìn)行徹底調(diào)查。

2、Steerability(可操縱性)

OpenAI一直致力于定義AI行為的各個(gè)方面,其中一項(xiàng)就是可操縱性。

官方表示,開發(fā)人員(以及很快的ChatGPT用戶)可以通過在“系統(tǒng)”消息中描述方向來設(shè)定他們的AI風(fēng)格和任務(wù),而不像傳統(tǒng)的ChatGPT,具有固定的冗長(zhǎng)語調(diào)和風(fēng)格。

這一個(gè)功能的意思是,系統(tǒng)消息允許API用戶在一定范圍內(nèi)自定義用戶體驗(yàn),即是用戶可以在系統(tǒng)中設(shè)定GPT-4的角色,并在這個(gè)基礎(chǔ)上進(jìn)行AI問答,而GPT-4的回答將基于這個(gè)設(shè)定展開。

在官方示例中,使用者在system(系統(tǒng))設(shè)定GPT-4是“一個(gè)總以蘇格拉底式風(fēng)格回應(yīng)的導(dǎo)師,永遠(yuǎn)不會(huì)給學(xué)生答案,但總是試著提出正確的問題……”可以看到,在隨后的對(duì)話中,GPT-4遵守著這一設(shè)定,不斷提出問題引導(dǎo)使用者。

3、將事實(shí)與錯(cuò)誤陳述的對(duì)抗性選擇區(qū)分開的能力

盡管GPT-4強(qiáng)大如斯,但其實(shí)局限性與早期GPT模型相似。最重要的是,它仍然不完全可靠(它“幻覺”了事實(shí)并犯了推理錯(cuò)誤),只是相比此前模型已經(jīng)減少了“幻覺”,在內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4的得分比GPT-3.5高40%。

GPT-4在TruthfulQA等外部基準(zhǔn)上取得進(jìn)展。比如在測(cè)試模型將事實(shí)與一組錯(cuò)誤陳述區(qū)分開來的能力,GPT-4僅略優(yōu)于GPT-3.5。但經(jīng)過RLHF(reinforcement learning from human feedback,強(qiáng)化學(xué)習(xí)人類反饋)訓(xùn)練后,差距就明顯起來了。

在官方示例中,GPT-4開始拒絕選擇常見的說法(你不能教老狗新的技巧),但它仍可能錯(cuò)過一些微妙的細(xì)節(jié)(埃爾維斯·普雷斯利不是演員的兒子)。

根據(jù)一些近期的博客文章,OpenAI的目標(biāo)是使構(gòu)建的人工智能系統(tǒng)具有合理的默認(rèn)行為,以反映廣泛的用戶價(jià)值觀。

但官方也承認(rèn),GPT-4通常缺乏對(duì)絕大多數(shù)數(shù)據(jù)中斷(2021年9月)后發(fā)生的事件的了解,也沒有從中吸取經(jīng)驗(yàn)教訓(xùn),有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤,或者輕信用戶的虛假陳述。

這便是有趣之處,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過高度校準(zhǔn)(其對(duì)答案的預(yù)測(cè)置信度通常與正確的概率相匹配),但通過OpenAI目前的后訓(xùn)練(post-training)過程,校準(zhǔn)減少了。

4、安全性能提高

GPT-4與此前的模型具有類似的風(fēng)險(xiǎn),例如生成有害建議、錯(cuò)誤代碼或不準(zhǔn)確的信息,再加上新功能帶來的新風(fēng)險(xiǎn),都有可能為其未來埋下重雷。

所以,OpenAI通過預(yù)培訓(xùn)數(shù)據(jù)的選擇和過濾、評(píng)估和專家參與、模型安全改進(jìn)以及監(jiān)控和執(zhí)行,來提高GPT-4的安全性能,并在RLHF訓(xùn)練期間加入了額外的安全獎(jiǎng)勵(lì)信號(hào)。團(tuán)隊(duì)收集了多樣化數(shù)據(jù)集,在允許和不允許的類別上應(yīng)用安全獎(jiǎng)勵(lì)信號(hào)(有正值或負(fù)值),以減少有害輸出和防止拒絕有效請(qǐng)求。

這些措施改善了GPT-4的安全性能。與GPT-3.5相比,模型對(duì)不允許內(nèi)容的請(qǐng)求響應(yīng)傾向降低82%,對(duì)敏感請(qǐng)求(如醫(yī)療建議和自我傷害)的響應(yīng)符合政策的頻率提高29%。

5、使用RLHF微調(diào)模型行為

與此前的GPT模型一樣,GPT-4基礎(chǔ)模型被訓(xùn)練為預(yù)測(cè)文檔中的下一個(gè)單詞,并使用公開可用的數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))以及我們?cè)S可的數(shù)據(jù)進(jìn)行訓(xùn)練。所以,這個(gè)數(shù)據(jù)集包括了數(shù)學(xué)問題的正確答案和錯(cuò)誤答案、弱推理和強(qiáng)推理、自相矛盾和一致的陳述等。

這就導(dǎo)致模型的響應(yīng)可能與用戶的意圖相去甚遠(yuǎn)。為了緩解這種情況,OpenAI使用RLHF來微調(diào)模型的行為。但GPT-4的能力似乎主要來自預(yù)訓(xùn)練過程。RLHF不會(huì)提高甚至降低考試成績(jī)。但模型的控制來自后訓(xùn)練過程,基礎(chǔ)模型甚至需要及時(shí)的工程設(shè)計(jì)來回答問題。

6、構(gòu)建可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)堆棧

GPT-4官方強(qiáng)調(diào)了這個(gè)新項(xiàng)目的重點(diǎn)之一,是構(gòu)建了一個(gè)可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)堆棧,因?yàn)閺V泛的特定模型調(diào)整對(duì)于GPT-4這樣的大型訓(xùn)練不可行。

研發(fā)團(tuán)隊(duì)開發(fā)的基礎(chǔ)設(shè)施和優(yōu)化在多種規(guī)模下都有可預(yù)測(cè)的行為。為了驗(yàn)證這種可擴(kuò)展性,他們通過使用相同方法但計(jì)算量少10000倍的模型中進(jìn)行外推,提前準(zhǔn)確預(yù)測(cè)GPT-4在內(nèi)部代碼庫(不是訓(xùn)練集的一部分)的最終損失。

從GPT-4更新的這六項(xiàng)能力里,我們可以在一定程度上看到人工智能的發(fā)展水平。

OpenAI表示公司內(nèi)部也在使用GPT-4,所以也關(guān)注大型語言模型在內(nèi)容生成、銷售和編程等方面的應(yīng)用效果,并將使用GPT-4輔助人們?cè)u(píng)估AI輸出,這也是OpenAI對(duì)其策略的第二階段。

GPT-4會(huì)改變世界嗎?

GPT-4這一波來勢(shì)洶洶,壓力給到了碰巧計(jì)劃明天發(fā)布文心一言的百度。

但如果細(xì)究GPT-4會(huì)否改變世界,卻很難一言以蔽之。

誠(chéng)然,GPT-4的推出可以在一定程度上標(biāo)志著人工智能水平的進(jìn)一步拔高??梢灶A(yù)見,在其完全開放之后對(duì)各個(gè)行業(yè)的沖擊,因?yàn)檫B圖文都能夠進(jìn)行解讀的AI,必然能夠輸出更加細(xì)膩的內(nèi)容。

這顯然會(huì)讓世界范圍內(nèi)追趕ChatGPT的友商再次虎軀一震,于是“站隊(duì)”也提前到來,是接入還是硬剛——

GPT-4正式官宣后,微軟也確認(rèn)新的Bing正在GPT-4上運(yùn)行,「這是我們?yōu)樗阉鞫ㄖ频摹埂?/p>

而 GPT-4的上新,距離2月8日微軟發(fā)布由ChatGPT和GPT-3.5提供支持的全新搜索引擎必應(yīng)(Bing)和Edge瀏覽器,僅僅過去了一個(gè)月多。

微果醬在此前文章也提到,ChatGPT卷起科技應(yīng)用的一場(chǎng)「大風(fēng)暴」,微軟與谷歌之間的硝煙正濃。

為了保住自己的行業(yè)老大哥地位,谷歌在AI方面也沒閑著。

2月7日,谷歌官宣其基于2021年5月推出的大語言模型LaMDA而打造的一代對(duì)話AI系統(tǒng)Bard;

谷歌正在為開發(fā)人員提供其最先進(jìn)的人工智能語言模型之一:PaLM。這家搜索巨頭正在為 PaLM 推出一個(gè) API以及一些人工智能企業(yè)工具,據(jù)稱這將幫助企業(yè)“從簡(jiǎn)單的自然語言提示中生成文本、圖像、代碼、視頻、音頻等?!?/p>

3月14日,谷歌開放AI語言模型PaLM API,企業(yè)和開發(fā)人員將能夠在該系統(tǒng)的基礎(chǔ)上構(gòu)建自定義聊天機(jī)器人等。

注:PaLM 是一種大型語言模型,即 LLM,類似于Open AI 創(chuàng)建的 GPT 系列或Meta 的 LLaMA 系列模型。

除了推出 PaLM API 外,谷歌還在其 Vertex AI 平臺(tái)中擴(kuò)大對(duì)生成 AI 的支持;并推出了一個(gè)名為Generative AI App Builder的新平臺(tái),該平臺(tái)“允許開發(fā)人員快速發(fā)布新體驗(yàn),包括機(jī)器人、聊天界面、自定義搜索引擎、數(shù)字助理等。

而在3月16日(也就是明天),百度的大模型新項(xiàng)目文心一言(ERNIE Bot),也將迎來正式揭曉的時(shí)刻。盡管還不知道它長(zhǎng)什么樣子、具備怎樣的“超能力”,鋪墊了一個(gè)多月也吊足了大家的胃口。

圖片

但話又說回來,OpenAI發(fā)布的這篇“Technical Report”,說是技術(shù)報(bào)告,不如說是產(chǎn)品廣告+免責(zé)聲明。畢竟官方無時(shí)無刻不在強(qiáng)調(diào),GPT-4仍有局限、缺陷和風(fēng)險(xiǎn)。有AI專家直言,“是一次推廣特征更為明顯的廣告行為”。

GPT-4是站在巨人的肩膀上,用此前的技術(shù)積累完成迭代,其整體技術(shù)相比此前,并沒有非常里程碑式的突破,只能說均有優(yōu)化。

更值得注意的是,OpenAI還在官宣GPT-4的內(nèi)容最后表示,正在開源OpenAI Evals,該軟件框架系用于創(chuàng)建和運(yùn)行評(píng)估GPT-4等模型的基準(zhǔn),支持編寫新的類來實(shí)現(xiàn)自定義的評(píng)估邏輯,廣邀用戶體驗(yàn)。

如此看來,GPT-4推出的最大意義或許不在于具體如何改變世界,更在于加快科技發(fā)展的進(jìn)程,向世人展示人工智能的更多可能性,以及為OpenAI打了一波成功廣告。

本文來自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://gptmaths.com/cgo/product/93343.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-03-15 17:15
下一篇 2023-03-15 19:52

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論