撥開互聯(lián)網(wǎng)春晚這道“屏風(fēng)”,我們可以看到中國云計(jì)算技術(shù)發(fā)展的清晰脈絡(luò)。
作為中文世界的超級IP與流量洪峰,春晚互動(dòng)自2015年起便成為大廠爭奪的流量戰(zhàn)場。在巨大流量之下,互聯(lián)網(wǎng)春晚也是一次對互聯(lián)網(wǎng)后臺技術(shù)保障的大考。
互聯(lián)網(wǎng)春晚開始的頭幾年恰是云計(jì)算方興未艾之時(shí),那是一個(gè)后臺保障全靠人力與物力堆砌,硬抗的時(shí)代。面對春晚互動(dòng)十億量級的流量沖擊,能做的無非是在服務(wù)器集群基礎(chǔ)上擴(kuò)容,拉上數(shù)百人規(guī)模的運(yùn)維團(tuán)隊(duì),時(shí)刻緊盯系統(tǒng)水位,騰挪計(jì)算資源。即便如此,宕機(jī)事故仍無法完全杜絕。
如果說,拼資源做加法是春晚保障的上半場,那么,降成本做減法就是春晚保障的下半場。隨著分布式、自動(dòng)化、高彈性云計(jì)算架構(gòu)的日益形成,中國云計(jì)算思維方式,也從升維走向降維——資源與人力的多寡不再是玩家們“亮劍”的重點(diǎn),外部經(jīng)濟(jì)環(huán)境的壓力與提高競爭力的內(nèi)驅(qū)力推動(dòng)技術(shù)降本增效成為業(yè)界主流敘事。
這對2024年央視春晚互動(dòng)合作伙伴京東來說尤為重要,其在龍年春晚既要發(fā)放30億紅包,又要派送1億好物,還要確保年貨供應(yīng)鏈服務(wù)履約。這樣聯(lián)動(dòng)旗下幾乎所有業(yè)務(wù)矩陣的打法,明顯指向京東主打的低價(jià)心智。
為了充分挖掘春晚的商業(yè)價(jià)值,從技術(shù)維度出發(fā)的基礎(chǔ)設(shè)施降本是實(shí)現(xiàn)其低價(jià)的關(guān)鍵一環(huán)。盡可能降本增效亦成為京東的必選題。
或因如此,我們看到京東今年不僅未在春晚保障中堆砌資源,還要將整體資源成本下降50%。這不僅是對技術(shù)的挑戰(zhàn),更是對團(tuán)隊(duì)智慧和創(chuàng)新能力的考驗(yàn)。
數(shù)據(jù)顯示,春晚當(dāng)天,全球華人參與京東系應(yīng)用累計(jì)互動(dòng)量達(dá)552億次。減少資源的動(dòng)作看似兵行險(xiǎn)招,實(shí)則體現(xiàn)了京東云獨(dú)有的核心技術(shù)優(yōu)勢,折射了春晚保障從“拼陣仗”到“拼效率”,從硬抗到“智抗”的數(shù)智進(jìn)化。
按圖索驥,中國云計(jì)算力量歷經(jīng)9年互聯(lián)網(wǎng)春晚的鍛打,由互聯(lián)網(wǎng)技術(shù)力量構(gòu)建的“中國式超越”也在日漸形成。在外部環(huán)境愈發(fā)復(fù)雜,逆全球化浪潮不時(shí)襲來的當(dāng)下,中國云廠商的商業(yè)理性和技術(shù)自信無疑更具現(xiàn)實(shí)意義。
技術(shù)降本的關(guān)鍵時(shí)刻
回顧歷年春晚互動(dòng)合作,讓各玩家如臨大敵的當(dāng)屬規(guī)??胺Q中文互聯(lián)網(wǎng)之最的并發(fā)流量。
例如2024年春晚互動(dòng),京東發(fā)出的紅包總額加碼至30億元,更大的互動(dòng)獎(jiǎng)池意味著更大規(guī)模的互動(dòng)流量,數(shù)以十億計(jì)的流量壓力,無疑全方位考察團(tuán)隊(duì)的技術(shù)保障能力。
另一方面,本次春晚互動(dòng)明顯有別于往年:京東云既要支撐春晚紅包與抽獎(jiǎng)互動(dòng),扛住高并發(fā)流量,又需要保障業(yè)務(wù)體系內(nèi)的電商購物和履約能力——多場景均會(huì)出現(xiàn)流量高峰,算力調(diào)度需要做到高頻甚至實(shí)時(shí)切換,技術(shù)挑戰(zhàn)極大。
對此,京東云給出的解法是業(yè)內(nèi)首個(gè)混合云操作系統(tǒng)云艦。
數(shù)年前,京東在大促時(shí)發(fā)現(xiàn)云上痛點(diǎn),催生了云艦。彼時(shí)的京東雖已打造出適配自身的公有云及同源同棧的私有云,但二者的底層架構(gòu)卻有所差別。計(jì)算資源的調(diào)度先天需要跨越架構(gòu)差異所形成的障壁,最初打通兩朵云的解決方案便是云艦系統(tǒng)的“雛形”。
而后,京東自底層向上重構(gòu)技術(shù)棧與調(diào)度系統(tǒng),云艦才真正具備實(shí)戰(zhàn)能力。廣為外部感知的第一場戰(zhàn)役便是2022年春晚互動(dòng)。彼時(shí),天生善于處理復(fù)雜場景計(jì)算資源調(diào)度的云艦“小試牛刀”。
數(shù)據(jù)顯示,2022年全球華人參與京東APP累計(jì)互動(dòng)量達(dá)691億次,京東物流的“全年不打烊寄遞服務(wù)”范圍達(dá)全國200多個(gè)城市。這背后是春晚互動(dòng)項(xiàng)目有近600個(gè)需求要被快速拆分,3000多個(gè)任務(wù)要被有效跟蹤,保證600多個(gè)上下游系統(tǒng)快速交付,數(shù)百萬核資源快速擴(kuò)縮容。
京東如何做到混合復(fù)雜場景中的算力資源調(diào)度?答案藏在云艦系統(tǒng)的自研調(diào)度算法中,通過管理虛擬機(jī)的方式管理容器化的業(yè)務(wù)集群,實(shí)時(shí)監(jiān)測服務(wù)器CPU利用率,進(jìn)行秒級分配與調(diào)度。
時(shí)間來到2024年,云艦的精細(xì)化管理與調(diào)度能力在京東云拓展的交通、零售、物流、能源等多個(gè)產(chǎn)業(yè)集群中持續(xù)迭代。不同產(chǎn)業(yè)有各自邏輯,在實(shí)踐中又產(chǎn)生了新問題,首當(dāng)其沖的是不同業(yè)務(wù)之間為算力“打架”。
要知道,即使是我們平日接觸到的PC,在面對多項(xiàng)任務(wù)同時(shí)進(jìn)行、CPU使用率過高的情況時(shí),也極易引發(fā)系統(tǒng)性能不穩(wěn)定,遑論離線混布的計(jì)算集群。
而云艦自虎年保障以來,其混部集群的規(guī)模和應(yīng)用數(shù)量增加3-4倍,云艦可調(diào)度資源隨之大幅增長。更重要的是,迭代的調(diào)度算法可以無視傳統(tǒng)模式下的CPU時(shí)間片,將服務(wù)器之間的干擾率由5%降為1%。
當(dāng)業(yè)務(wù)之間基本不用再為計(jì)算資源相互掐架,高優(yōu)先級業(yè)務(wù)自然能更迅速搶占算力。這一突破的直觀反映是GPU性能利用率的大幅提升——京東云混部計(jì)算集群的 CPU 整體利用率控制在60%左右,而業(yè)界的 CPU 整體利用率卻大多在40%和50%之間徘徊。
自京東自身業(yè)務(wù)來看,以云艦為代表的云上創(chuàng)新逐漸向體系內(nèi)其他業(yè)務(wù)遷移,圍繞降本增效主題的“擠水分”革命讓供應(yīng)鏈的成本效率得以持續(xù)優(yōu)化,為京東體系內(nèi)如零售、物流、金融等板塊擠出更多利潤空間,為“低價(jià)”的發(fā)展戰(zhàn)略積蓄勢能。
將視域放寬至整個(gè)行業(yè),云艦這樣的混合多云部署與調(diào)度能力的重要性亦在凸顯。過去一年我們見過不少因云計(jì)算IaaS層的種種故障帶來的宕機(jī)事故,業(yè)內(nèi)對下云自建與多云部署的呼聲愈發(fā)高漲。何況單一云架構(gòu)還將面臨議價(jià)能力低、業(yè)務(wù)依賴性高等次生問題。
需要肯定的是,多云混合的技術(shù)基底一定程度上展現(xiàn)了京東云內(nèi)生的前瞻性。另一方面,我們也可由此一窺京東在本次春晚保障中,減少服務(wù)器的“自虐”式行為的底氣所在。
“臨摹”流量:從被動(dòng)應(yīng)戰(zhàn)到主動(dòng)挑戰(zhàn)
“在我們一貫對用戶極致體驗(yàn)的追求和海內(nèi)外用戶的大規(guī)模互動(dòng)下,我們二次籌備春晚保障的挑戰(zhàn)不能說不大”,京東零售技術(shù)負(fù)責(zé)人表示,“但相比虎年,龍年的我們明顯更從容了”。
當(dāng)我們進(jìn)一步問及京東從容在哪,他首先提到的是龍年春晚的流量預(yù)估,“我們從原來的半自動(dòng)化方式演變成現(xiàn)在的全自動(dòng)化,相比虎年的時(shí)候更精準(zhǔn)、更靈活了”。
應(yīng)對大流量并發(fā)場景的解決方案往往一體兩面,除了算力調(diào)配外,更重要的是對不同時(shí)刻的流量峰值預(yù)估。如果說購物大促的流量峰值往往出現(xiàn)在用戶集中結(jié)算自己購物車的開門紅時(shí)刻,那么歷屆春晚紅包互動(dòng)的流量峰值便出現(xiàn)在主持人每一輪紅包口令口播時(shí)。
屆時(shí),全球各地的互動(dòng)流量將瞬間飆至數(shù)億級別,系統(tǒng)壓力陡增。即使服務(wù)器緊急擴(kuò)容數(shù)倍,這種高頻的脈沖式洪峰也極難僅憑人力來疏導(dǎo),互聯(lián)網(wǎng)春晚早期所遭遇的宕機(jī)事故大多源自于此。
就像外科醫(yī)生做手術(shù)前,需要精準(zhǔn)臨摹病情,擬定方案,以便實(shí)施手術(shù)。業(yè)內(nèi)并非不知道流量預(yù)測的重要性,往年參與者都會(huì)根據(jù)口播紅包口令的時(shí)間節(jié)點(diǎn)繪制流量地圖。
只是過去的流量地圖的繪制缺乏精度,不僅難以cover多輪洪峰的全局,而且容易在首輪峰值預(yù)測錯(cuò)誤的情況下“滿盤皆輸”,給保障帶來的幫助有限。比如2018年,淘寶春晚項(xiàng)目組就曾慨嘆,“我們對春晚的力量一無所知”。
反觀京東保障的龍年春晚,AI大模型以一個(gè)新的歷史性變量的身份參與其中。
春晚保障流量預(yù)測的兩大痛點(diǎn)在于精度與敏捷響應(yīng)。我們了解到,京東通過分析歷史數(shù)據(jù)和虎年春晚保障經(jīng)驗(yàn),從數(shù)千個(gè)數(shù)據(jù)維度預(yù)測并繪制流量地圖,預(yù)測準(zhǔn)確率達(dá)到了95%。應(yīng)對流量沖擊時(shí),大模型能自動(dòng)調(diào)整了后續(xù)幾輪的紅包策略,確保流量平穩(wěn)分配,更高效地服務(wù)零售、物流與整體供應(yīng)鏈的運(yùn)營。
此外,AI大模型還可以依據(jù)流量大小、用戶訪問輪次分布,以無代碼形式生成用戶權(quán)益策略,如春晚互動(dòng)中的1億好物的用戶權(quán)益策略。運(yùn)營人員基于交互式策略畫布,在5分鐘內(nèi)無代碼生成大型晚會(huì)的用戶權(quán)益并上線,這相當(dāng)于5個(gè)工程師用寫代碼的形式,連續(xù)工作100個(gè)小時(shí),靈活性和策略的上線效率大幅度提升。
歸根結(jié)底,AI大模型的出現(xiàn)已經(jīng)開始深入改變我們所熟知的業(yè)務(wù)范式,而模型化的預(yù)測功能僅是大模型與AI能力深入千行百業(yè)的一隅。在大模型尋找合適“落腳點(diǎn)”的當(dāng)下,行業(yè)仍在等待有足夠深度與新意的AI應(yīng)用方式的出現(xiàn)。
大模型:舉重若輕的操盤手
2023年,大模型激起千層浪,為云計(jì)算打開了一片新天地。自去年初至今,云廠商們接連入局,紛紛交出屬于自己的大模型答卷。
云與大模型的耦合并不令人意外。
云計(jì)算中占比最重的IaaS板塊已經(jīng)實(shí)現(xiàn)規(guī)?;显票旧硪巡痪邆湎∪毙裕@意味著同質(zhì)化、內(nèi)卷、價(jià)格戰(zhàn)的時(shí)代到來。而剛需算力、存儲能力與分布式計(jì)算環(huán)境的大模型不僅提供了新的算力需求,更是為云廠商的服務(wù)提供了新的載體。
然而就落地情況來看,國內(nèi)的模型底座的能力競爭尚不明朗,能率先構(gòu)建競爭力甚至護(hù)城河的,是各家應(yīng)用AI大模型的產(chǎn)業(yè)深度。針對這一點(diǎn),我們在京東云前后兩次春晚保障的對比中窺得一二。
據(jù)悉,京東云為備戰(zhàn)春晚保障,推出了春晚保障Agent“AI指揮官”。它通過大模型等新一代人工智能技術(shù),連接多個(gè)系統(tǒng)數(shù)據(jù),拆分出若干關(guān)鍵環(huán)節(jié),將春晚保障工作及相應(yīng)系統(tǒng)統(tǒng)籌起來并跟進(jìn)進(jìn)度,使春晚保障效率提升30%,成本降低50%。
作為一個(gè)去年下半年才逐漸進(jìn)入主流語境的應(yīng)用范式,Agent于云廠商而言像是一塊商業(yè)化“無人區(qū)”。以AI指揮官為例,京東打開始起就給指揮官布置了“以己之矛攻己之盾”,通過自我對抗而持續(xù)迭代的能力。
如此便不得不提京東本次在春晚互動(dòng)上的創(chuàng)新玩法——不登錄搶紅包。
眾所周知,不登錄即可參與活動(dòng)為用戶提供了匿名性和便利性,同時(shí)也讓系統(tǒng)難以區(qū)分正常用戶和惡意攻擊者,使系統(tǒng)遭受攻擊的可能大大提高。而DDos這樣的自動(dòng)化攻擊可以迅速消耗服務(wù)器資源,導(dǎo)致正常用戶無法訪問服務(wù)。
AI指揮官的第一戰(zhàn)是在安全大模型模擬匿名環(huán)境下對系統(tǒng)發(fā)起DDos攻擊。防守端,京東云安全大模型在分辨攻擊者與用戶的同時(shí),為安全運(yùn)營提供輔助決策核心信息,包括告警涉及的攻擊手法、預(yù)測攻擊鏈路、以及防護(hù)策略等,最后根據(jù)系統(tǒng)個(gè)性化防御組件能力,一鍵生成防護(hù)意見。
模擬攻防演練、預(yù)測攻擊與給出策略等功能分別對應(yīng)了Agent對某個(gè)任務(wù)目標(biāo)的拆解、執(zhí)行與自我學(xué)習(xí)。從京東在龍年春晚的戰(zhàn)果來看,其對Agent的應(yīng)用無疑是成功的。深入云計(jì)算技術(shù)棧肌理的AI能力不僅為春晚互動(dòng)保障了新玩法,同時(shí)推動(dòng)了云計(jì)算解決方案的迭代。
當(dāng)然,安全大模型也僅是京東云技術(shù)棧中的一環(huán),面對春晚保障的宏大目標(biāo),Agent的能力更多地體現(xiàn)在玩家們必須經(jīng)歷的春晚全鏈路壓測上,考題也自DDos攻擊延伸至更寬泛的云算力層面。
京東云為此研發(fā)了集成ForceBot全鏈路軍演機(jī)器人和故障分析大模型的泰山平臺,將Agent的能力引入傳統(tǒng)的系統(tǒng)壓測中。
京東方面提到,“如果說ForceBot像是制造問題的高手,那么故障分析大模型就是解決問題的高手?!痹趬簻y中,F(xiàn)orceBot可以輕松模擬千萬量級的流量,對壓測系統(tǒng)形成高并發(fā)壓力。而壓測過程中發(fā)現(xiàn)的問題則通過故障分析大模型解決。
故障分析大模型在壓測期間承擔(dān)故障診斷、故障分析、故障記錄等工作。借助故障大模型的支持,壓測平臺的監(jiān)控工具實(shí)時(shí)收集系統(tǒng)性能指標(biāo)以確定故障的具體位置;分析日志文件,找出異常行為或錯(cuò)誤信息,快速定位并解決問題。
與此前的DDos攻擊相比,全鏈路壓測雖然同樣采用內(nèi)部攻防模式,但涉及的技術(shù)棧與信息數(shù)據(jù)則不可同日而語。這背后是云計(jì)算行業(yè)因循的規(guī)模化邏輯,正如IaaS層能力的規(guī)模化推動(dòng)云計(jì)算行業(yè)走上盈利正軌,Agent能力應(yīng)用的規(guī)模化亦昭示京東云的大模型能力邁出商業(yè)化腳步。
據(jù)悉,2022年京東內(nèi)部足足進(jìn)行7次壓測方有把握做好春晚保障,而今年的京東卻只需要2-3次即可,這也自側(cè)面佐證了京東的AI技術(shù)能力。AI指揮官像一個(gè)舉重若輕的操盤手,助推京東云的計(jì)算資源調(diào)度與分布進(jìn)入自動(dòng)化時(shí)代。
春晚背后的“中國式”超越
一年一度的春晚是承載著中國乃至華人的文化記憶的載體,那么互聯(lián)網(wǎng)春晚亦是技術(shù)記憶的載體。
即使“搖一搖”與“集五?!焙?,業(yè)內(nèi)外對互聯(lián)網(wǎng)春晚的關(guān)注往往集中于互動(dòng)操盤手是否曾打破陳規(guī)并建立新路徑,但更具現(xiàn)實(shí)意義的是中國云計(jì)算行業(yè)在保障中文世界流量洪峰時(shí)的技術(shù)演變。我們從龍年春晚保障可以看到,巨頭面對春晚這個(gè)“名利場”的求變之心正在從表層的玩法,過渡到深層的技術(shù)創(chuàng)新上。
打破陳規(guī)往往需要 “中國式超越”。
所謂的“中國式超越”,體現(xiàn)在技術(shù)應(yīng)用的廣泛范圍和深入程度上的雙維擴(kuò)展,這種“坐標(biāo)軸”的全方位發(fā)展展現(xiàn)了一種極致的工程化水平。京東云在春晚這一“高并發(fā)+超復(fù)雜場景”的挑戰(zhàn)中,兩次成功驗(yàn)證了自己標(biāo)準(zhǔn)化保障方法論的有效性,其技術(shù)應(yīng)用的普適性和可復(fù)制性顯然很高,能夠迅速適用于更多場景,實(shí)現(xiàn)質(zhì)量提升、成本降低和效率增強(qiáng)。
工程化之下的暗線是中國企業(yè)過去十年的數(shù)字化向數(shù)智化過渡。單從保障這一維度看,京東云的行業(yè)創(chuàng)新在于從拼資源堆人力到搞架構(gòu)寫算法,計(jì)算資源在智能化的保障架構(gòu)下得以被解放。
保障維度之外,京東在春晚互動(dòng)的APP“新春爆品樓層”中引入專屬模型,個(gè)性化推薦從過去的“千人千面”升級為“千人千?!?,京東長期秉承的“用戶極致體驗(yàn)”得以更進(jìn)一步。另一方面,玲瓏、領(lǐng)航者、京小智、言犀數(shù)字人等多款A(yù)I經(jīng)營工具的出現(xiàn)也將智能化的輕風(fēng)吹向商家側(cè)。
正如埃弗雷特·羅杰斯曾提出創(chuàng)新擴(kuò)散理論,智能化的普及推廣也是由點(diǎn)至面的過程。而“中國式超越”的出現(xiàn)與成熟意味著云計(jì)算行業(yè)乃至AI賽道的創(chuàng)新已行至一道關(guān)鍵分水嶺,身后是單點(diǎn)突破,身前則是全面智能化的序幕。
9年互聯(lián)網(wǎng)春晚,10年中國云計(jì)算。時(shí)至今日,云計(jì)算終于有底氣與高鐵、5G網(wǎng)絡(luò)、供應(yīng)鏈等并行,共同上演一個(gè)個(gè)從追隨到并行再到超越的中國故事。
本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://gptmaths.com/cgo/113719.html