文丨劉雨琦,編|王一粟
“互聯(lián)網(wǎng)時代,我們是更危險,還是更安全?”
2016年,互聯(lián)網(wǎng)正值高速發(fā)展之際,電梯廣告經(jīng)常出現(xiàn)這幾個大字,兩行標語,從病毒木馬到網(wǎng)絡詐騙,對于安全的思考、安全防范技術的建立一直在與科技發(fā)展賽跑。同樣,大模型時代發(fā)展的早期,也引發(fā)了許多安全考量。
英特網(wǎng)被發(fā)明的十年后,互聯(lián)網(wǎng)防護技術和產(chǎn)業(yè)鏈才開始補齊,而參考了過去幾十年的經(jīng)驗,在大模型誕生后不到半年的時間里,圍繞著模型安全、數(shù)據(jù)安全、內(nèi)容安全的討論,就已經(jīng)不絕于耳。
最近一周,在上海外灘大會、浦江創(chuàng)新論壇、國家網(wǎng)安周等場合,產(chǎn)學研界針對于大模型應用落地所帶來的數(shù)據(jù)安全問題(包括數(shù)據(jù)投毒、信息泄露、版權風險等)、模型安全問題(模型本身的安全漏洞、惡意利用等)、內(nèi)容安全問題(生成內(nèi)容包含違規(guī)、違法、色情等敏感信息等)、AI 倫理問題等進行了一系列的討論。
如何為大模型保駕護航?
國內(nèi)一些安全廠商,如360、螞蟻、深信服、奇安信、山石科技等都在積極研發(fā)大模型安全技術。
01 大模型需要“醫(yī)生”和“保鏢”
大模型作為新物種的誕生,在訓練過程中要有安全監(jiān)控,在大模型最后推向市場的時候,也需要一次“質(zhì)檢”,質(zhì)檢后流入市場,需要可控的使用方式,這都是解決安全問題的宏觀思路。
無論是通用大模型還是面向垂直領域的行業(yè)大模型,目前來看,模型安全的保護主要分為三個部分:
二是模型本身的可控問題:模型的可靠性、穩(wěn)定性、魯棒性等都需要進行檢驗,例如此前有用戶構造針對性語句對模型進行誘導,大模型可能生產(chǎn)帶有欺詐、歧視、政治傾向等風險內(nèi)容;
三是大模型在實際場景中應用的安全問題:在實際的使用過程中,不同用戶群體的交互和應用都需要謹慎評估,尤其是金融、醫(yī)療等領域?qū)δP洼敵龅恼_性要求極高,如果應用不當,一石就容易激起千層浪。
多位業(yè)內(nèi)人士向光錐智能表示:“模型安全需要一體化的技術防護體系,單獨某一環(huán)節(jié)的把控解決不了根本問題。”
參考互聯(lián)網(wǎng)安全的發(fā)展路徑,誕生了諸多“病毒查殺”軟件公司,一般檢測、定位問題往往是第一步。
光錐智能了解到,螞蟻的“蟻天鑒”,包含了大模型安全檢測平臺“蟻鑒2.0”、大模型風險防御平臺“天鑒”,覆蓋了從檢測到治理到防御的全鏈條。蟻鑒2.0可對大模型進行多維度的安全掃描,檢查存在的數(shù)據(jù)安全隱患、內(nèi)容風險點等問題。相當于站在“黑產(chǎn)”角度,通過智能攻擊對抗技術,自動生成數(shù)百萬的誘導性問題,對生成式大模型進行誘導式問答,找出大模型的弱點和漏洞。
從技術的角度來看,蟻鑒采用了最新的“對抗智能”技術路線,使用智能對抗技術不斷向大模型“投射問題”,觀察模型生成的回答,判斷是否存在風險。通過持續(xù)“拷問”,就像醫(yī)生多次詢問病人癥狀,平臺可以盤查解析大模型的健康狀況。
通過生成對抗樣本,開發(fā)檢測對抗樣本的算法系統(tǒng),來提升大模型安全性,已經(jīng)成為一種主流技術趨勢。在行業(yè)中,已有OpenAI、谷歌、微軟、英偉達等一眾巨頭公司將對抗智能技術運用到其產(chǎn)品和服務中。
比如,在這種技術思路下,多倫多大學研發(fā)的 CleverHans 系統(tǒng),就像一個專門設計來考驗防盜系統(tǒng)的“小偷”,它會故意添加一些小干擾,來試圖欺騙 AI 安防系統(tǒng)。在正常情況下,AI 系統(tǒng)可以準確識別“小貓”的圖片,但 CleverHan 系統(tǒng)偏要在“小貓”圖片上輕微修改幾個像素點,給 AI 營造一種這是一張小狗圖片的假象。假如,AI 系統(tǒng)被愚弄過去,那就代表其存在安全漏洞。
更重要的是,數(shù)據(jù)問題是模型安全的源頭,中國信通院云計算與大數(shù)據(jù)研究所主任石霖曾在一場學術交流會上分享道:“現(xiàn)在有非常多安全廠商采取了安全舉措,包括對訓練數(shù)據(jù)做一些清洗,對輸入輸出內(nèi)容做過濾,另外還有監(jiān)測和鑒別等安全防控措施。”
這需要防御平臺作用在數(shù)據(jù)源頭,針對數(shù)據(jù)源頭有毒、模型深度黑盒不可控等問題。螞蟻集團大安全機器智能部內(nèi)容算法總監(jiān)?;奂呀榻B,目前,天鑒正在嘗試通過數(shù)據(jù)去毒、對齊訓練、可解釋性研究等手段保障模型安全。
02 用魔法打敗魔法,以AI對抗AI
數(shù)字世界里和人眼世界里的內(nèi)容特征是不一樣的。
隨著大模型時代的到來,其強大能力也為安全防護技術的變革提供了新的思路。“用 AI 的力量來對抗 AI ”已經(jīng)成為一個熱點方向。
事實上,對抗攻防思路并不是模型安全的專屬。早在上個十年,面對種種安全威脅,人工智能領域就逐步形成了“以攻測防——以攻促防——攻防一體化”的安全理念,通過模擬各類攻擊場景,不斷探索模型和系統(tǒng)的弱點,以此推動算法和工程端的防御能力加強。
只不過,以往安全防護主要依賴機器學習算法模型,這需要大量專業(yè)數(shù)據(jù)知識積累,且面臨知識盲區(qū)和小樣本冷啟動不及時的問題。利用大模型技術,可以實現(xiàn)更智能化的安全防控。
這體現(xiàn)在幾個方面。一是大模型能夠提供智能安全“參謀”?;诤A课谋具M行預訓練的大模型,可以成為優(yōu)秀的“參謀”,對癥提出適當?shù)姆治龊头烙呗?。比如,通過簡單的自然語言描述,可以快速分析安全局勢,提出應對措施建議,輔助安全團隊規(guī)劃解決方案。這類似于一個智能安全“小助手”。
從產(chǎn)業(yè)界的現(xiàn)狀來看,AI 安全與否如何評測,目前尚缺乏一套易用和標準化的評測工具和規(guī)則。
這也是大模型防御中能夠補充的另一方面,通過大模型技術學習風險知識和標準規(guī)則來提升 AI 對于風險的認知理解能力,以實現(xiàn)用大模型對抗大模型來進行極速防御和快速冷啟動的目的。
以文本安全為例,大模型可以基于安全標準規(guī)則、風險領域知識和歷史風險樣本,進行訓練,提升模型對于風險標準和內(nèi)容的理解力,從而實現(xiàn)對風險檢測能力的提升。也采用大模型生成能力結合安全知識圖譜,來構造攻擊樣本持續(xù)迭代優(yōu)化檢測模型。
一位安全專家表示:“相比人工收集的有限樣本,大模型生成的海量多樣化樣本,將使安全檢測模型’見多識廣’,更快適應新的威脅方式?!?/p>
這項技術,也被螞蟻應用在了AIGC內(nèi)容檢測中。?;奂烟峒暗溃骸癆IGC深度偽造檢測,也是采用以攻測防,以攻促防的思路,通過不同方式、不同風格、不同生成模型來進行生成,建立近千萬的深度偽造數(shù)據(jù),訓練模型快速分辨內(nèi)容是機器生成還是人工生成,從而實現(xiàn)泛化性和魯棒性更好的檢測模型?!?/strong>
針對AIGC在運用過程中引發(fā)的問題,國際上也已經(jīng)有頭部公司開始著手布局。
OpenAI此前表示,考慮在ChatGPT中添加數(shù)字水印技術,以降低模型被濫用帶來的負面影響;谷歌在今年的開發(fā)者大會中表示,將確保公司的每一張 AI 生成圖片都內(nèi)嵌水印;今年1月初,英偉達也發(fā)布了一款名為FakeCatcher的軟件,以查出視頻中的人臉是否為深度偽造。
回顧互聯(lián)網(wǎng)發(fā)展史,混亂和高速發(fā)展往往是一對“孿生兄弟”,而正是在網(wǎng)絡安全產(chǎn)業(yè)化趨于成熟后,互聯(lián)網(wǎng)才真正迎來了百花齊放的應用落地。
同樣,模型安全并不只是某一家安全廠商的任務,而是當安全科技形成了可信圍欄后,大模型技術才真的能“飛入尋常百姓家”。
“大模型是非常復雜的問題,倫理、數(shù)據(jù)、訓練等領域的復雜度都是前所未有的,是一個新領域,也是擺在所有人面前的一個命題。螞蟻’蟻天鑒’在大模型安全視角上做了一些探索,但目前還有很多問題待研究解決,比如回答的內(nèi)容真實性和準確性等難題,它還需要不斷迭代,不斷完善,需要全社會共同協(xié)作努力。”?;奂炎詈笳f道。
?
歡迎關注光錐智能,獲取更多科技前沿知識!
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/quan/105398.html