六月丁香婷婷色狠狠久久,av免费在线观看

比較貼切的表述是，豆包的視頻模型這次的升級，已然將國內(nèi)AI視頻的美學(xué)境界拔高了一個檔次，讓AI視頻也開始變得更加實(shí)用了。

作者|斗斗

出品|產(chǎn)業(yè)家

國內(nèi)的文生視頻領(lǐng)域，也是吃上“細(xì)糠”了。

最近，火山引擎宣布豆包大模型正式發(fā)布視頻生成模型。至此，兩大短視頻平臺在文生視頻領(lǐng)域的較量正式開啟。

產(chǎn)業(yè)家也是在第一時間提前感受了一把。先來幾個demo，給你們一個小小的震撼。

很明顯，這生成效果并不亞于Sora。

要知道，Sora在初期的宣傳和報(bào)道中被賦予了很高的期望。然而，至今為止，Sora尚未真正面向普通人群應(yīng)用，可以說是實(shí)實(shí)在在的期貨。

為了更加客觀的展示豆包文生視頻模型的真實(shí)能力，產(chǎn)業(yè)家申請到即夢AI內(nèi)測版的豆包視頻生成-Seaweed模型測試機(jī)會，將其與國內(nèi)幾家主流文生視頻模型，進(jìn)行了同一提示詞下的生成效果對比，意外看到了豆包文生視頻模型的一些新亮點(diǎn)。

一、復(fù)雜指令下，足夠聽話

眾所周知，拍攝電影時，導(dǎo)演會指導(dǎo)演員進(jìn)行多個鏡頭的拍攝，然后剪輯成連貫的故事。如果一場戲的角色比較多，導(dǎo)演則需要統(tǒng)籌演員的站位、進(jìn)場時間以及他們之間的對話、動作等。

只有這樣，拍攝出來的畫面，才會更加流暢。然而，對于當(dāng)下的文生視頻模型而言，大部分只能完成簡單指令單一動作。比如只能生成單一的鏡頭，無法切換，人物動作也較為單一。

這樣生成出來的效果，其實(shí)和照片差不多。但是在豆包視頻生成模型的平臺上，有了新的突破。

提示詞：一群朋友在餐廳里聚餐，然后其中一人突然提出一個驚喜的計(jì)劃。

豆包-Seaweed生成的視頻中，涉及諸多人物的動作處理。可以發(fā)現(xiàn)每個人物的動作表達(dá)、面部表情都較為和諧，雖然一些細(xì)節(jié)有待優(yōu)化，但整體上已經(jīng)十分優(yōu)異。可以實(shí)現(xiàn)多主體多動作的畫面生成。

海螺AI在整體畫面構(gòu)圖、和光的運(yùn)用方面一如既往的出色。不過畫面中的人物幾乎都出現(xiàn)了或多或少的畸變。

可靈AI生成視頻，總體來看人的動作較為簡單，畫面也缺乏一些真實(shí)性。

能看到，通義萬相人物動作較為簡單，真實(shí)性、自然流暢性相對較弱。

總體來看，豆包視頻生成模型還是十分“聽話”的，可以遵從復(fù)雜的復(fù)雜prompt，解鎖時序性多拍動作指令與多個主體間的交互能力，指哪兒打哪兒，打開想象力的大門。

二、推拉搖移跟

畫面依舊穩(wěn)定、一致

豆包文生視頻模型，還有一個比較特殊的點(diǎn)，即它生成的視頻畫面整體的故事性很強(qiáng)。

提示詞：男子從明亮的室外走進(jìn)昏暗的室內(nèi)，鏡頭切換要自然，光線變化要平滑。

可以發(fā)現(xiàn)，在提示詞描述的文本之外，其對于周圍環(huán)境以及畫面的細(xì)節(jié)銜接和過渡很自然。這本身對應(yīng)的是模型強(qiáng)力的泛化能力。

例如從下面這組提示詞生成的畫面來看，豆包生成的視頻相對更有畫面感、更連貫。

提示詞：一名女子奔跑在陰暗潮濕的街道上

畫面中地面的石板路，路邊的房屋，以及奔跑的女人，在運(yùn)動邏輯、燈光、流暢度上，都表現(xiàn)的十分優(yōu)異。

可靈生成畫面中的女子的肢體發(fā)生了不規(guī)則的扭曲。

通義萬相生成的視頻，整體很不錯，但在像地面這種細(xì)節(jié)的效果處理上，還需要進(jìn)一步強(qiáng)化。

海螺AI有著通義萬相一樣的問題，仔細(xì)發(fā)現(xiàn)人物在奔跑時，路面的生成效果并不穩(wěn)定，且人物和畫面之間的銜接度并不自然。

從幾組生成的視頻不難看出，豆包文生視頻模型，在運(yùn)用鏡頭語言時，畫面較為穩(wěn)定，可以保證人物、氛圍、環(huán)境的一致性，以及鏡頭的自然切換和運(yùn)鏡的自然。

比如基于豆包-Seaweed，我們可以身臨其境的感受肌肉男選美現(xiàn)場。

還可以穿越森林，看到遠(yuǎn)處壯觀的雪山。

可以發(fā)現(xiàn)，無論鏡頭怎么推進(jìn)和切換，視頻中的畫面風(fēng)格、人物、燈光、服飾等都依舊有著一致性。

另外一個更加炸裂的點(diǎn)，在于豆包視頻生成模型還能實(shí)現(xiàn)主體動作和鏡頭的切換。這么說可能有點(diǎn)難懂，簡而言之就是當(dāng)畫面中的人物在運(yùn)動過程中，可以實(shí)現(xiàn)鏡頭自然切換。

正如下方豆包文生視頻模型生成的視頻，先是出現(xiàn)一個跟鏡頭，繼而切換到以人為畫面主體的跟鏡頭。

提示詞：生成一段視頻，要求鏡頭跟隨主角在森林中探險(xiǎn)，包括跳躍過溪流和攀爬巖石。

具體來看，生成的視頻中，一個空境交代背景環(huán)境，切換到另一個以人物為畫面主體的推鏡頭。這種鏡頭切換手法，也叫“鏡頭匹配剪輯”。利用了兩個鏡頭中相似的動作或運(yùn)動方向來平滑地過渡，從而減少視覺上的跳躍感。

這種技巧需要精心的拍攝和編輯，以確保動作的匹配和視覺的連貫性。

但是豆包的視頻生成模型，做到了。

對比可靈AI的生成結(jié)果來看，畫面中并未出現(xiàn)運(yùn)鏡和鏡頭切換的痕跡。

海螺AI基于這個提示詞的生成效果其實(shí)各方面效果著實(shí)不錯，但是在場景切換時，可以發(fā)現(xiàn)，其第一個鏡頭切換的同時，畫面左方出現(xiàn)了一個分身，走出了畫面，可見場景切換上還需要優(yōu)化。

通義萬相生成的效果，其實(shí)較為充分展現(xiàn)了其在語意理解上的優(yōu)勢，尤其是“跳躍過溪流和攀爬巖石”實(shí)現(xiàn)了語義一致性，但未實(shí)現(xiàn)多個場景、鏡頭上的切換，且人物流暢度和自然度也有可以優(yōu)化的空間。

不得不承認(rèn)的是，豆包視頻生成模型確實(shí)是有兩把刷子。

據(jù)官方介紹，這是因?yàn)槎拱曨l生成模型基于 DiT 架構(gòu)，通過高效的DiT融合計(jì)算單元，讓視頻在大動態(tài)與運(yùn)鏡中自由切換，擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。其全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法攻克了多鏡頭切換的一致性難題，在鏡頭切換時可同時保持主體、風(fēng)格、氛圍的一致性。

這是豆包視頻生成模型獨(dú)樹一幟的技術(shù)創(chuàng)新。

三、大場景描繪

光影、鏡頭、構(gòu)圖美學(xué)拉滿

在文生視頻領(lǐng)域，大場景的生成，由于涉及的元素過度，往往是最容易出現(xiàn)問題的。而經(jīng)過我們測試，豆包的文生視頻模型，也非常不錯。

從下面豆包、可靈AI、通義萬相以及海螺AI（MiniMax文生視頻平臺)生成效果對比來看。豆包生成的視頻，不僅畫面構(gòu)圖、色調(diào)十分優(yōu)異，甚至把清晨湖面的霧氣也刻畫了出來。

不知道的，還以為是在看《動物世界》。

提示詞：清晨，第一縷陽光穿透薄霧，照亮了寧靜的森林。一只小鹿在溪邊飲水，水波蕩漾，反射出金色的光輝。

可靈AI在色調(diào)和構(gòu)圖上也可圈可點(diǎn)，但細(xì)看鹿的動作連貫性和真實(shí)性，就顯得有些不足。

通義萬相整體觀感也不錯，語義理解能力較強(qiáng)，例如“反射出金色的光輝”這細(xì)節(jié)，通義萬相刻畫的最好，但有點(diǎn)缺乏真實(shí)性，更像是動畫。

海螺AI的畫面，在寫實(shí)能力上較強(qiáng)。但由于角度和構(gòu)圖的問題，整體來看，主體的靈活性較差，對文本的理解力不足，此外也缺乏一些美感。

其實(shí)，豆包視頻生成模型，經(jīng)過剪映、即夢AI等業(yè)務(wù)場景打磨和持續(xù)迭代，在專業(yè)級光影布局和色彩調(diào)和積累了大量的數(shù)據(jù)和技術(shù)經(jīng)驗(yàn)，畫面視覺呈現(xiàn)上面，可謂是實(shí)現(xiàn)了延續(xù)，使得豆包處理這種大場景時，既能刻畫細(xì)節(jié)，又極具美感和真實(shí)感。

圖示：各家視頻生成效果表現(xiàn)匯總

四、各種風(fēng)格、尺寸，都Hold的住

根據(jù)介紹能看到，豆包視頻生成模型采用的是Transformer深度學(xué)習(xí)模型的架構(gòu)，并且進(jìn)行了優(yōu)化。這種架構(gòu)，可以使模型更加強(qiáng)大，泛化能力也會更強(qiáng)。從風(fēng)格來看，其可以生成3D動畫、2D動畫、國畫、黑白、厚涂等多種不同的藝術(shù)風(fēng)格的視頻。

此外，生成的視頻可以適應(yīng)不同設(shè)備的屏幕尺寸，包含1:1，3:4，4:3，16:9，9:16，21:9五個比例。無論是電影大屏幕、電視、電腦還是手機(jī)，都能觀看。

這些視頻目前可以被用于電商營銷（如產(chǎn)品展示視頻）、動畫教育（如教學(xué)動畫）、城市文旅（如旅游宣傳視頻）、微劇本（如短視頻故事）等多種商業(yè)用途。

除了商業(yè)用途，豆包還能幫助專業(yè)的視頻創(chuàng)作者和藝術(shù)家們在創(chuàng)作過程中節(jié)省時間，提供靈感，或者完成一些復(fù)雜的視頻制作任務(wù)。

寫在最后?

最后對豆包的文生視頻進(jìn)行一個總結(jié)。

首先它是一個語義大師。它不僅聽得懂你的指令，還能理解背后的深層含義，讓視頻里的每個動作都恰到好處。

還是一個鏡頭切換高手。在切換鏡頭時，它能保證故事的流暢和一致性，就像一個無縫連接的敘事大師。

更是一個動態(tài)捕捉專家。無論是快速的動作還是炫酷的鏡頭移動，它都能捕捉得生動活潑，讓你仿佛置身于真實(shí)世界。

也可以是一個視覺藝術(shù)家：它創(chuàng)造的視頻不僅清晰逼真，還具有專業(yè)的色彩和光影，支持多種風(fēng)格和尺寸，讓你的視覺體驗(yàn)豐富多彩。

比較貼切的表述是，豆包的視頻模型這次的升級，已然將國內(nèi)AI視頻的美學(xué)境界拔高了一個檔次，讓AI視頻也開始變得更加實(shí)用了。

在文章的最后，想要強(qiáng)調(diào)的一點(diǎn)是，文中所提到的生成的視頻都是基于豆包視頻生成模型S 2.0的非會員版本。目前，具備更強(qiáng)多主體互動、多鏡頭切換一致性能力的豆包視頻生成模型-PixelDance，正在緊鑼密鼓的內(nèi)測上線中，或許能給大家?guī)砀囿@喜。

豆包，多少是有點(diǎn)不露鋒芒，悶聲干大事了。

本文來自投稿，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://gptmaths.com/cgo/coo/124457.html

視頻生成模型哪家強(qiáng)？豆包可靈通義海螺全面評測【AI評測】

關(guān)于作者

產(chǎn)業(yè)家優(yōu)創(chuàng)媒體

發(fā)表回復(fù)

視頻生成模型哪家強(qiáng)？豆包可靈通義海螺全面評測【AI評測】

關(guān)于作者

產(chǎn)業(yè)家優(yōu)創(chuàng)媒體

增長黑客Growthhk.cn薦讀更多>>

大模型，中東土豪的新「時尚單品」

資本相信人形機(jī)器人

逆周期引領(lǐng)行業(yè)回暖 2023年vivo坐穩(wěn)國產(chǎn)第一

廚電，被AI重構(gòu)的下一個十年｜產(chǎn)業(yè)特稿

諾獎花落AI領(lǐng)軍者：產(chǎn)業(yè)AI變革時代來了？

六小虎下半場戰(zhàn)事：大模型的商業(yè)化開荒

發(fā)表回復(fù)

視頻生成模型哪家強(qiáng)？豆包可靈通義海螺全面評測【AI評測】

大模型，中東土豪的新「時尚單品」

諾獎花落AI領(lǐng)軍者：產(chǎn)業(yè)AI變革時代來了？