Gemini 3將被整合進(jìn)Gemini應用、谷歌谷歌的最強AI搜索產(chǎn)品AI Mode和AI Overviews,以及其企業(yè)級產(chǎn)品。大A大突該模型將自周二起向部分訂閱用戶(hù)開(kāi)放,模面增并將在未來(lái)幾周更大范圍上線(xiàn)。型G現重像生 此次發(fā)布距離谷歌推出Gemini 2.5僅八個(gè)月,理能力實(shí)距離Gemini 2.0上線(xiàn)也僅11個(gè)月。破圖引爆生成式AI熱潮的成編程O(píng)penAI已于今年8月份發(fā)布GPT-5。 皮查伊寫(xiě)道:“令人驚嘆的搜索全是,僅僅兩年時(shí)間,谷歌AI已從單純處理文本和圖像,最強發(fā)展到能夠讀懂場(chǎng)景。大A大突從今天起,模面增Gemini將在谷歌全系產(chǎn)品中全面鋪開(kāi)。型G現重像生” 據谷歌披露的理能力實(shí)數據顯示,Gemini應用目前月活躍用戶(hù)已達6.5億,而AI Overviews擁有20億月活用戶(hù)。OpenAI則在8月表示,ChatGPT周活躍用戶(hù)已突破7億。 谷歌高管在新聞發(fā)布會(huì )上強調,在衡量人工智能模型性能的幾個(gè)熱門(mén)行業(yè)排行榜上,Gemini 3處于領(lǐng)先地位。Gemini 3在全球AI模型LMArena排行榜上以1501分的歷史最高分登頂,在衡量通用推理能力的Humanity‘s Last Exam基準測試中獲得37.5%的最高分,超越了此前由GPT-5 Pro保持的31.64%紀錄。該模型還在數學(xué)、多模態(tài)理解和事實(shí)準確性等多個(gè)維度刷新了行業(yè)標準。 谷歌AI研究實(shí)驗室DeepMind的CEO Demis Hassabis表示,Gemini 3是“世界上最好的多模態(tài)理解模型“,也是公司迄今最強大的智能體和代碼生成模型。谷歌CEO Sundar Pichai在博客中稱(chēng)其為”我們最智能的模型“,能夠”將任何想法變?yōu)楝F實(shí)“。 推理能力實(shí)現重大突破 Gemini 3在推理能力上取得了顯著(zhù)進(jìn)步,在多項學(xué)術(shù)級基準測試中展現出博士水平的表現。該模型在GPQA Diamond測試中獲得91.9%的高分,在數學(xué)領(lǐng)域的MathArena Apex基準測試中取得23.4%的新成績(jì),在事實(shí)準確性方面于SimpleQA Verified測試中達到72.1%的得分。 在多模態(tài)推理方面,Gemini 3同樣表現出色,在MMMU-Pro測試中獲得81%的分數,在Video-MMMU測試中達到87.6%。這意味著(zhù)該模型能夠高度可靠地處理科學(xué)和數學(xué)等廣泛領(lǐng)域的復雜問(wèn)題。 谷歌產(chǎn)品負責人Tulsee Doshi表示:“在Gemini 3身上,我們看到了推理能力的巨大飛躍。它的響應深度和細微程度是我們以前從未見(jiàn)過(guò)的?!?/p> 除標準版本外,谷歌還推出了Gemini 3 Deep Think增強推理模式,該模式在Humanity‘s Last Exam測試中達到41.0%的成績(jì),在GPQA Diamond測試中獲得93.8%的分數。在A(yíng)RC-AGI-2測試中,Deep Think模式創(chuàng )下了45.1%的前所未有成績(jì),展示了其解決新穎挑戰的能力。谷歌表示,該模式正在接受額外的安全評估,將在未來(lái)幾周內向Google AI Ultra訂閱用戶(hù)開(kāi)放。 開(kāi)發(fā)者工具全面升級 在代碼生成領(lǐng)域,Gemini 3被谷歌稱(chēng)為“迄今構建的最佳vibe coding和智能體編碼模型“。該模型在WebDev Arena排行榜上以1487分的高分登頂,在衡量模型通過(guò)終端操作計算機能力的Terminal-Bench 2.0測試中獲得54.2%的分數,在評估代碼智能體的SWE-bench Verified基準測試中達到76.2%,遠超Gemini 2.5 Pro的表現。 開(kāi)發(fā)者可以通過(guò)Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺訪(fǎng)問(wèn)Gemini 3。 谷歌同時(shí)推出了以智能體為先的全新開(kāi)發(fā)平臺Google Antigravity,該平臺利用Gemini 3的高級推理、工具使用和智能體編碼能力,將AI輔助從開(kāi)發(fā)者工具箱中的一個(gè)工具轉變?yōu)橹鲃?dòng)合作伙伴。DeepMind首席技術(shù)官Koray Kavukcuoglu表示:“智能體可以在你的編輯器、終端和瀏覽器之間工作,以最佳方式幫助你構建應用程序?!?/p> 多模態(tài)理解與智能體能力并進(jìn) Gemini 3保留了該系列模型從一開(kāi)始就具備的跨模態(tài)信息綜合能力,能夠無(wú)縫處理文本、圖像、視頻、音頻和代碼等多種模態(tài)信息,并配備100萬(wàn)token的上下文窗口。 Hassabis舉例說(shuō),如果用戶(hù)想學(xué)習傳統的烹飪,Gemini 3可以破譯并翻譯不同語(yǔ)言的手寫(xiě)食譜,制作成可分享的家庭食譜書(shū)。如果用戶(hù)想了解新主題,可以提供學(xué)術(shù)論文、長(cháng)視頻講座或教程,Gemini 3能夠生成交互式閃卡、可視化或其他格式的內容幫助用戶(hù)掌握材料。該模型甚至可以分析用戶(hù)匹克球比賽的視頻,識別改進(jìn)空間并生成整體動(dòng)作改善的訓練計劃。 在智能體能力方面,Gemini 3在測試長(cháng)期規劃能力的Vending-Bench 2排行榜上位居榜首。該模型能夠在整整一年的模擬運營(yíng)中保持一致的工具使用和決策能力,在不偏離任務(wù)的情況下實(shí)現更高回報。這意味著(zhù)Gemini 3能夠通過(guò)結合更深入的推理與改進(jìn)的工具使用,代表用戶(hù)導航更復雜的多步驟工作流程,例如預訂本地服務(wù)或整理收件箱。 發(fā)布即上線(xiàn)多個(gè)核心產(chǎn)品 谷歌此次采取了積極的產(chǎn)品策略,在Gemini 3發(fā)布首日就將其整合到多個(gè)核心產(chǎn)品中。這是谷歌首次在新模型發(fā)布當天就將其應用于搜索產(chǎn)品,標志著(zhù)公司AI商業(yè)化戰略的重要轉變。 在搜索方面,AI Mode現在使用Gemini 3來(lái)實(shí)現新的生成式用戶(hù)界面體驗,包括沉浸式視覺(jué)布局、交互式工具和模擬,所有這些都根據用戶(hù)查詢(xún)實(shí)時(shí)生成。在Gemini App中,所有用戶(hù)都可以使用Gemini 3,Google AI Pro和Ultra訂閱用戶(hù)還可以在A(yíng)I Mode搜索中使用該模型。 在安全性方面,谷歌表示Gemini 3是其迄今最安全的模型,經(jīng)歷了谷歌AI模型史上最全面的安全評估。該模型顯示出更低的諂媚性、更強的提示注入抵抗力,以及通過(guò)網(wǎng)絡(luò )攻擊濫用的更好防護。除了根據其前沿安全框架進(jìn)行的內部測試外,谷歌還與世界領(lǐng)先的領(lǐng)域專(zhuān)家合作進(jìn)行評估,向英國AISI等機構提供早期訪(fǎng)問(wèn)權限,并獲得了Apollo、Vaultis和Dreadnode等行業(yè)專(zhuān)家的獨立評估。 每日經(jīng)濟新聞綜合公開(kāi)資料
圖片來(lái)源:每經(jīng)記者 鄭雨航 攝
