国产91精品在线播放,9久9久热精品视频在线观看,啪啪毛片,九九热在线免费视频,91av毛片,国产91小视频,国产福利区一区二在线观看

休閑

開(kāi)源版Genie 3世界模型來(lái)了:實(shí)時(shí)+長(cháng)時(shí)間交互,單卡可跑,國內公司出品

字號+作者:四海皆兄弟網(wǎng)來(lái)源:知識2025-12-01 06:23:11我要評論(0)

Genie 3 實(shí)現的效果。AI 領(lǐng)域里,技術(shù)發(fā)展的速度總是很快,沒(méi)過(guò)兩個(gè)星期,開(kāi)源的實(shí)時(shí)世界模型就已經(jīng)出現。這款國產(chǎn)開(kāi)源的新模型能把復雜的建筑和地形,玻璃的反光都模擬出真實(shí)感,符合物理邏輯?;蚴悄M

  Genie 3 實(shí)現的開(kāi)源效果。

  AI 領(lǐng)域里,世界實(shí)時(shí)司出技術(shù)發(fā)展的模型速度總是很快,沒(méi)過(guò)兩個(gè)星期,間交開(kāi)源的互單實(shí)時(shí)世界模型就已經(jīng)出現。

  這款國產(chǎn)開(kāi)源的跑?chē)沸履P湍馨褟碗s的建筑和地形,玻璃的開(kāi)源反光都模擬出真實(shí)感,符合物理邏輯。世界實(shí)時(shí)司出

  或是模型模擬出《俠盜獵車(chē)手》(GTA)的大地圖,讓你可以在其中自由探索。間交

  如果你上傳一個(gè)神廟逃亡游戲的互單截圖,就可以在這個(gè)世界模型里面開(kāi)一局,跑?chē)稟I 腦補出來(lái)的開(kāi)源畫(huà)面會(huì )無(wú)限地向前延伸。

  它就是世界實(shí)時(shí)司出昆侖萬(wàn)維發(fā)布的交互世界模型‘Matrix-Game 2.0’,它的模型參數量?jì)H有 1.8B,能跑在單塊 GPU 上,生成的虛擬環(huán)境幀率能達到 25FPS,我們在其中可以用鍵盤(pán) WASD 按鍵進(jìn)行實(shí)時(shí)的自由移動(dòng)和視角控制,實(shí)現持續時(shí)長(cháng)達分鐘級的互動(dòng)。

  最重要的是,它還是完全開(kāi)源的(有權重 + 代碼庫),任何人都可以免費使用和修改,還可以自己上傳圖片進(jìn)行體驗。

  • 項目鏈接:https://matrix-game-v2.github.io/

  • GitHub 鏈接:https://github.com/SkyworkAI/Matrix-Game

  • HuggingFace:https://huggingface.co/Skywork/Matrix-Game-2.0

  Matrix-Game 2.0 成為了業(yè)內首個(gè)在通用場(chǎng)景上實(shí)現實(shí)時(shí)長(cháng)序列、交互式生成的世界模型開(kāi)源方案,相比過(guò)去的開(kāi)源模型有了質(zhì)的飛躍。它也成為了在外網(wǎng)引發(fā)關(guān)注的又一個(gè)國內開(kāi)源模型。

  有人已經(jīng)在說(shuō)‘這是開(kāi)源版本的 Genie 3’了。它的效果究竟如何,我們第一時(shí)間進(jìn)行了實(shí)測。

  一手實(shí)測

  丟張圖即可走進(jìn)實(shí)時(shí)生成的虛擬世界

  世界模型一直面臨諸多挑戰,尤其是在處理復雜環(huán)境、實(shí)時(shí)交互和高度動(dòng)態(tài)變化的情況下。傳統的世界模型通常依賴(lài)大量高質(zhì)量數據,且在缺乏預設情境時(shí)難以進(jìn)行準確推理和反應。同時(shí),這類(lèi)模型在生成和更新時(shí)需要消耗龐大的計算資源,導致實(shí)時(shí)反饋效率受限,從而難以真正落地應用。

  昆侖萬(wàn)維推出的 Matrix-Game 2.0 為這一領(lǐng)域帶來(lái)了新突破。這款交互式世界模型結合了高度自由的操作與實(shí)時(shí)生成的特點(diǎn),提供了一種獨特的玩法體驗。

  我們只需上傳一張靜態(tài)圖片,模型便會(huì )基于該圖像加載并生成一個(gè)虛擬世界。玩家可以通過(guò)方向鍵或 WASD 鍵控制人物在虛擬世界中的移動(dòng),且每一次人物的移動(dòng)都會(huì )實(shí)時(shí)影響環(huán)境,并生成新的視頻內容。

  例如,我們丟給它一張 3A 大作《荒野大鏢客》的游戲畫(huà)面,并控制方向和視角切換,模型最終生成的視頻展示了非常細膩的自然景觀(guān)。

  從山上俯瞰,一條清澈的河流蜿蜒流淌,看起來(lái),Matrix-Game 2.0 不僅能夠理解海拔的高度差異,還能夠模擬出流水的動(dòng)態(tài)效果,這種精細的渲染無(wú)疑增加了虛擬世界的真實(shí)感與沉浸感。

  再以經(jīng)典的《CS:GO》地圖 De_Dust2 為例,模型不僅加載了現有場(chǎng)景,還展現出強大的推理和補充能力。它能夠基于圖像信息自然拓展額外視角和細節,確保生成視頻在場(chǎng)景一致性和時(shí)序連貫性上的高度可靠。

  對于《我的世界》這種像素畫(huà)風(fēng)的游戲場(chǎng)景,Matrix-Game 2.0 同樣表現出了極高的創(chuàng )造力。通過(guò)將靜態(tài)元素轉化為動(dòng)態(tài)場(chǎng)景,模型生成了一段如同無(wú)人機航拍的視角視頻,展現了兩側山脈的輪廓、梯田的層次、高大的樹(shù)木,以及河流中的倒影。

  最近,《戰地 6》在全球范圍內引起了廣泛關(guān)注,預購開(kāi)啟后短時(shí)間內登上 PS5 及 Steam 多個(gè)國家的暢銷(xiāo)榜,并在 Beta 公測期間以 52 萬(wàn) Steam 同時(shí)在線(xiàn)人數打破記錄。

  我們利用 Matrix-Game 2.0 復刻了這款尚未發(fā)售的 3A 游戲精細地圖,每次角色移動(dòng)和視角切換都會(huì )實(shí)時(shí)觸發(fā)新的畫(huà)面生成。高幀率和物理一致性保證了操作與畫(huà)面的緊密結合,充分展現了其在高復雜度交互場(chǎng)景中的潛力。

  Matrix-Game 2.0 的能力不僅局限于游戲場(chǎng)景,在現實(shí)世界模擬中,它能快速響應用戶(hù)的視角與移動(dòng)變化,生成符合物理規律的自然畫(huà)面。

  例如,它成功復現了自行車(chē)騎行的第一視角:柏油馬路筆直延伸,兩旁的行道樹(shù)不斷后撤,畫(huà)面細節豐富、動(dòng)態(tài)感強,每一幀都精準模擬了現實(shí)騎行的空間感與真實(shí)感。

  前段時(shí)間,Google DeepMind 研究科學(xué)家 Aleksander Holynski 使用谷歌 Genie3,‘走’進(jìn) 1978 年的名畫(huà)《蘇格拉底之死》,吸引了不少網(wǎng)友圍觀(guān)。

  這次我們也來(lái)個(gè)‘名畫(huà)漫游’,讓 Matrix-Game 2.0 生成一段梵高《星空》的視頻,可以自定義不同角度觀(guān)察畫(huà)作,感受其構圖、色彩與氛圍的變化。

  同樣,我們還通過(guò)模型生成了宮崎駿風(fēng)格的鄉間小道場(chǎng)景,隨著(zhù)方向鍵的切換,生成的畫(huà)面景色也隨之變化,腦補出的畫(huà)面毫無(wú)違和感,甚至連樹(shù)影都模擬出來(lái)了。

  經(jīng)過(guò)一系列測試,我們認為 Matrix-Game 2.0 的技術(shù)確實(shí)具備巨大的潛力。作為一個(gè)開(kāi)源項目,它已經(jīng)能夠實(shí)現高度真實(shí)的虛擬世界生成和實(shí)時(shí)交互,為游戲開(kāi)發(fā)者和玩家提供全新的可能性。當然,它也有不少可以提升的空間,比如視覺(jué)保真度并不總是能與主流游戲工作室的水平相媲美,而且復雜的交互有時(shí)對 AI 來(lái)說(shuō)也難以完美處理。

  不過(guò)這是一個(gè)好的開(kāi)始,Matrix-Game 2.0 讓我們看到,虛擬世界與現實(shí)交互的邊界正在被逐步打破,下一代游戲和智能體或許就將以此為基石。

  從數據生成到模型架構

  核心技術(shù)全面突破

  在上周開(kāi)源模型的同時(shí),昆侖萬(wàn)維同時(shí)放出了 Matrix-Game 2.0 的技術(shù)報告,我們可以在其中看到不少技術(shù)細節。

  • 技術(shù)報告鏈接:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

  最近一段時(shí)間,基于擴散模型的方法讓我們看到了交互式視頻生成的潛力。但是,現有的交互式世界模型依賴(lài)于雙向注意力機制和冗長(cháng)的推理步驟,嚴重限制了實(shí)時(shí)性能,難以模擬現實(shí)世界的動(dòng)態(tài)。

  為解決這個(gè)問(wèn)題,昆侖萬(wàn)維提出了一種全新的視覺(jué)驅動(dòng)交互世界建模方案,徹底擺脫了此前依賴(lài)語(yǔ)言提示的生成模式,專(zhuān)注于通過(guò)視覺(jué)理解和物理規律學(xué)習來(lái)構建虛擬世界。

  在 Matrix-Game 2.0 上,研究人員通過(guò)少步驟自回歸擴散算法實(shí)時(shí)生成長(cháng)視頻,引入了一個(gè)專(zhuān)為實(shí)時(shí)模擬和交互設計的高效框架,同時(shí)應對解決了效率和可控性的挑戰。

  Matrix-Game 2.0 模型由三個(gè)關(guān)鍵組件組成:

  • 適用于虛幻引擎和 GTA5 環(huán)境的可擴展數據生產(chǎn)流水線(xiàn),可有效生成海量(約 1200 小時(shí))交互式視頻數據;

  • 動(dòng)作注入模塊,支持幀級鼠標和鍵盤(pán)輸入交互;

  • 基于自回歸擴散模型的少步驟蒸餾,用于實(shí)時(shí)流式視頻生成。

  基于以上架構和訓練機制,Matrix -Game 2.0 能夠在單塊英偉達 H100 GPU 上以 25 FPS 的速度跨不同場(chǎng)景生成高質(zhì)量的分鐘級視頻。

  在模型的構建過(guò)程中,首先昆侖萬(wàn)維設計并實(shí)現了全面的數據生產(chǎn)管線(xiàn),以支持交互式視頻生成模型的大規模訓練,克服精準匹配鍵盤(pán)控制與畫(huà)面、完善動(dòng)態(tài)交互這兩大挑戰。其開(kāi)發(fā)的多樣化數據集生產(chǎn)流程包含從著(zhù)名游戲引擎虛幻引擎和游戲 GTA5 的模擬環(huán)境中獲取靜態(tài)與動(dòng)態(tài)場(chǎng)景。

  虛幻引擎的數據生產(chǎn)管線(xiàn)如下所示:

  為了獲取更多交互式動(dòng)態(tài)場(chǎng)景,工程人員在 GTA5 環(huán)境中開(kāi)發(fā)了一個(gè)綜合記錄系統,使用 Script Hook V 擴展工具,使視覺(jué)內容與相應的用戶(hù)動(dòng)作同步捕捉。這個(gè)數據整理流程收集了超過(guò) 120 萬(wàn)個(gè)視頻片段,它們的整體準確率超過(guò) 99%。

  GTA5 采集數據的軌跡。

  在 Matrix-Game 2.0 的基礎模型框架上,昆侖萬(wàn)維也進(jìn)行了一系列獨特的設計。模型源自 WanX,通過(guò)移除文本分支并添加動(dòng)作模塊,該模型僅根據視覺(jué)內容和對應的動(dòng)作來(lái)預測下一幀的畫(huà)面。

  該系統首先對原始視頻數據進(jìn)行時(shí)空壓縮,圖像輸入通過(guò) 3D Causal VAE 和 CLIP 圖像編碼器作為條件輸入進(jìn)行處理。在用戶(hù)提供的輸入動(dòng)作的引導下,DiT 模型(Diffusion Transformer)生成一個(gè)視覺(jué)隱空間序列,隨后通過(guò) 3D VAE 解碼器將其解碼為視頻。

  簡(jiǎn)單來(lái)說(shuō),這種機制避免了語(yǔ)言先驗可能帶來(lái)的語(yǔ)義偏置,轉而專(zhuān)注于圖像的空間結構和動(dòng)態(tài)模式,可以更準確地理解和生成虛擬世界。

  為了讓人們可以與生成內容互動(dòng),Matrix-Game 2.0 系統集成了動(dòng)作條件控制模塊,支持幀級鍵盤(pán)與鼠標交互輸入。在其中,連續的鼠標操作會(huì )直接與輸入的潛在表征相連接,經(jīng)多層感知機(MLP)層處理后,再通過(guò)時(shí)序自注意力層進(jìn)行動(dòng)態(tài)調整。此外,鍵盤(pán)操作通過(guò)交叉注意力層對融合特征進(jìn)行查詢(xún),從而實(shí)現交互操作的精準可控性。

  Matrix-Game 2.0 基礎模型框架。

  最后,為了生成更長(cháng)的視頻,減少內容上出現的偏差,昆侖萬(wàn)維開(kāi)發(fā)了一種用于實(shí)時(shí)長(cháng)視頻合成的自回歸擴散生成機制,通過(guò) Self-Forcing 把雙向基礎模型轉化為高效的自回歸變體,讓每個(gè)幀基于先前自生成的輸出而非真實(shí)值進(jìn)行條件化處理,從而解決了暴露偏差,顯著(zhù)減少了此前世界模型中常見(jiàn)的誤差累積問(wèn)題。

  自驅動(dòng)因果擴散模型訓練流程示意圖。通過(guò)自條件生成機制,蒸餾過(guò)程將學(xué)生模型的分布與教師模型進(jìn)行對齊。該方法在保持生成質(zhì)量的同時(shí)有效抑制了誤差累積。

  實(shí)驗效果如何?在與 Oasis 世界模型的對比上,Matrix-Game 2.0 在長(cháng)時(shí)間互動(dòng)視頻生成方面效果更好:Oasis 會(huì )在生成幾十幀之后效果明顯下降,Matrix-Game 2.0 則能夠一直保持穩定。

  Matrix-Game 2.0 和 Oasis 生成畫(huà)面效果的對比。

  定量比較的話(huà),Matrix-Game 2.0 在圖像質(zhì)量、時(shí)間一致性、控制準確性等方面保持領(lǐng)先,同時(shí)也保證了靈活性和效率不降低。

  可見(jiàn),昆侖萬(wàn)維的新方法可以有效減少當初 Oasis 模型‘轉一圈畫(huà)風(fēng)完全變了’的尷尬情況,這對于面向實(shí)際落地的應用來(lái)說(shuō)非常重要。

  昆侖萬(wàn)維

  持續發(fā)力開(kāi)源社區

  Matrix-Game 2.0 并不是昆侖萬(wàn)維第一次展示實(shí)力。在開(kāi)源領(lǐng)域,最近這家公司的名字越來(lái)越頻繁地出現。

  僅在今年,昆侖萬(wàn)維就開(kāi)源獎勵模型 Skywork-Reward-V2,無(wú)限時(shí)長(cháng)電影生成模型 SkyReels-V2,多模態(tài)推理模型 Skywork-R1V,面向數學(xué)、代碼等領(lǐng)域的文本推理模型 Skywork-OR1,以及軟件工程自主代碼智能體基座模型 Skywork-SWE 等等多款模型。

  在 HuggingFace 上,昆侖萬(wàn)維的模型熱度很高。

  上周連續五天的技術(shù)發(fā)布活動(dòng),昆侖萬(wàn)維還陸續發(fā)布了 SkyReels-A3 視頻生成模型、世界模型 Matrix-Game 2.0 與 Matrix-3D、Skywork UniPic 2.0 多模態(tài)訓練推理框架,Skywork Deep Research Agent v2、Mureka V7.5 等等一系列 AI 模型、工具。這一套覆蓋圖像、音頻、視頻、音樂(lè )、智能體的組合拳,向世人展示了該公司持續深耕技術(shù)的成果。

  這些 AI 領(lǐng)域的新技術(shù),有很多都實(shí)現了業(yè)界領(lǐng)先的水平,不僅讓昆侖萬(wàn)維在技術(shù)落地上不斷擴大版圖,也通過(guò)不斷的開(kāi)源反哺了研究社區。

  當然,這樣持續不懈的前沿技術(shù)研發(fā)也在引發(fā)質(zhì)變,開(kāi)啟新的方向。

  世界模型

  進(jìn)入實(shí)用階段

  在 DeepMind 的 Genie 3 發(fā)布后,很多人發(fā)現,世界模型已經(jīng)不再是個(gè)未來(lái)式,而是正在展現出很大應用潛力。DeepMind 自己就表示,希望能把世界模型生成的環(huán)境直接對齊到機械臂和具身智能的訓練上。

  在很多情況下,具身智能的基礎模型面臨著(zhù)數據匱乏、采集難、難以泛化等問(wèn)題,世界模型生成的虛擬環(huán)境,可以成為 AI 完美的訓練場(chǎng)。世界模型會(huì )在學(xué)習物理規律、事物之間交互規則等知識后進(jìn)行預測和規劃。在其中進(jìn)行探索的機器人、自動(dòng)駕駛汽車(chē)依據這些規則進(jìn)行交互,就可以訓練出更多的智能。

  可見(jiàn)不僅在游戲、虛擬人等娛樂(lè )場(chǎng)景中,在發(fā)展現實(shí)世界生產(chǎn)力的‘物理 AI’方面,世界模型也可以發(fā)揮作用。

  在 Matrix-Game 2.0 等開(kāi)源技術(shù)出現之后,世界模型實(shí)用化的腳步還會(huì )加快。

1.本站遵循行業(yè)規范,任何轉載的稿件都會(huì )明確標注作者和來(lái)源;2.本站的原創(chuàng )文章,請轉載時(shí)務(wù)必注明文章作者和來(lái)源,不尊重原創(chuàng )的行為我們將追究責任;3.作者投稿可能會(huì )經(jīng)我們編輯修改或補充。

相關(guān)文章
  • 樂(lè )弈場(chǎng)第16屆月賽如期而至 張弘弢榮獲雙冠王

    樂(lè )弈場(chǎng)第16屆月賽如期而至 張弘弢榮獲雙冠王

    2025-12-01 06:18

  • 大尺寸顯示業(yè)務(wù)助力 TCL電子上半年歸母凈利潤增長(cháng)超六成 — 新京報

    大尺寸顯示業(yè)務(wù)助力 TCL電子上半年歸母凈利潤增長(cháng)超六成 — 新京報

    2025-12-01 05:21

  • 尖扎黃河特大橋鋼索斷裂已致12人遇難4人失聯(lián):原計劃8月底合龍,遇難者家屬正在趕往事發(fā)地

    尖扎黃河特大橋鋼索斷裂已致12人遇難4人失聯(lián):原計劃8月底合龍,遇難者家屬正在趕往事發(fā)地

    2025-12-01 05:18

  • 血液變“牛奶”!浙江40歲老總一場(chǎng)酒局后躺進(jìn)ICU!醫生:易發(fā)展為重癥

    血液變“牛奶”!浙江40歲老總一場(chǎng)酒局后躺進(jìn)ICU!醫生:易發(fā)展為重癥

    2025-12-01 04:13

網(wǎng)友點(diǎn)評