您現在的位置是:四海皆兄弟網(wǎng) > 娛樂(lè )
硅谷大力押注“環(huán)境”技術(shù),用于訓練AI智能體
四海皆兄弟網(wǎng)2025-12-01 04:02:50【娛樂(lè )】5人已圍觀(guān)
簡(jiǎn)介多年來(lái),科技巨頭的首席執行官們一直宣揚AI智能體AI agents)的愿景 —— 這類(lèi)智能體可自主使用軟件應用為人類(lèi)完成任務(wù)。但如今將消費者級 AI 智能體無(wú)論是 OpenAI 的 ChatGPT A

多年來(lái),環(huán)境科技巨頭的硅谷首席執行官們一直宣揚AI智能體(AI agents)的愿景 —— 這類(lèi)智能體可自主使用軟件應用為人類(lèi)完成任務(wù)。但如今將消費者級 AI 智能體(無(wú)論是大力 OpenAI 的 ChatGPT Agent,還是押注用于 Perplexity 的 Comet)投入實(shí)際使用便會(huì )發(fā)現,這項技術(shù)的技術(shù)局限性仍十分明顯。要讓 AI 智能體具備更強的訓練穩健性,或許需要行業(yè)尚未完全探索出的環(huán)境一系列新技術(shù)支持。
其中一項技術(shù)便是硅谷精心模擬 “工作空間”,讓智能體在其中接受多步驟任務(wù)訓練 —— 這種 “工作空間” 被稱(chēng)為強化學(xué)習(reinforcement learning,大力簡(jiǎn)稱(chēng) RL)環(huán)境。押注用于正如帶標簽的技術(shù)數據集推動(dòng)了上一波 AI 發(fā)展浪潮,強化學(xué)習環(huán)境正逐漸成為智能體開(kāi)發(fā)過(guò)程中的訓練關(guān)鍵要素。
AI 研究人員、環(huán)境創(chuàng )業(yè)者及投資者透露,硅谷目前頂尖 AI 實(shí)驗室對強化學(xué)習環(huán)境的大力需求大幅增加,而有意提供此類(lèi)技術(shù)的初創(chuàng )公司也不在少數。
“所有大型 AI 實(shí)驗室都在內部搭建強化學(xué)習環(huán)境,” 安德森?霍洛維茨基金(Andreessen Horowitz)普通合伙人珍妮弗?李表示,“但可想而知,創(chuàng )建這類(lèi)數據集的復雜度極高,因此 AI 實(shí)驗室也在尋找能打造高質(zhì)量環(huán)境與評估體系的第三方供應商。整個(gè)行業(yè)都在關(guān)注這一領(lǐng)域?!?/p>
對強化學(xué)習環(huán)境的需求催生了一批資金雄厚的新興初創(chuàng )公司,例如 Mechanize Work 和 Prime Intellect,這些公司均致力于在該領(lǐng)域占據領(lǐng)先地位。與此同時(shí),Mercor、Surge 等大型數據標注公司表示,隨著(zhù)行業(yè)正從靜態(tài)數據集向交互式模擬轉型,它們也在加大對強化學(xué)習環(huán)境的投入以跟上趨勢。大型實(shí)驗室同樣在考慮巨額投資:據《The Information》報道,Anthropic 的管理層已討論計劃在未來(lái)一年內,為強化學(xué)習環(huán)境投入超 10 億美元。
投資者與創(chuàng )業(yè)者們期望,這些初創(chuàng )公司中能誕生出 “強化學(xué)習環(huán)境領(lǐng)域的 Scale AI”—— 這里的 Scale AI 是估值 290 億美元的數據標注巨頭,曾為聊天機器人時(shí)代的發(fā)展提供了重要支撐。
目前的核心問(wèn)題在于,強化學(xué)習環(huán)境是否真能推動(dòng) AI 技術(shù)突破現有邊界。
什么是強化學(xué)習(RL)環(huán)境?
從本質(zhì)上講,強化學(xué)習環(huán)境是模擬 AI 智能體在真實(shí)軟件應用中操作場(chǎng)景的 “訓練場(chǎng)”。一位創(chuàng )業(yè)者在近期采訪(fǎng)中形容其構建過(guò)程 “就像制作一款非??菰锏碾娮佑螒颉?。
例如,某個(gè)環(huán)境可模擬 Chrome 瀏覽器,并向 AI 智能體下達 “在亞馬遜上購買(mǎi)一雙襪子” 的任務(wù)。系統會(huì )對智能體的表現進(jìn)行評分,若任務(wù)成功(即買(mǎi)到合適的襪子),便會(huì )向其發(fā)送 “獎勵信號”。
盡管這類(lèi)任務(wù)聽(tīng)起來(lái)相對簡(jiǎn)單,但 AI 智能體在執行過(guò)程中仍可能在多個(gè)環(huán)節出錯:可能在網(wǎng)頁(yè)下拉菜單中 “迷路”,也可能誤購多雙襪子。由于開(kāi)發(fā)者無(wú)法精準預測智能體可能出現的失誤,環(huán)境本身必須具備足夠的穩健性,既能捕捉所有意外行為,又能提供有效的反饋 —— 這使得構建環(huán)境的復雜度遠高于創(chuàng )建靜態(tài)數據集。
部分強化學(xué)習環(huán)境設計十分復雜,可支持 AI 智能體使用工具、訪(fǎng)問(wèn)互聯(lián)網(wǎng)或調用各類(lèi)軟件應用完成指定任務(wù);另有部分環(huán)境則定位更細分,專(zhuān)注于幫助智能體學(xué)習企業(yè)級軟件應用中的特定任務(wù)。
盡管強化學(xué)習環(huán)境如今是硅谷的熱門(mén)技術(shù),但使用這類(lèi)技術(shù)的先例早已有之。2016 年,OpenAI 的首批項目之一便是構建 “RL Gyms”(強化學(xué)習場(chǎng)館),其理念與現代強化學(xué)習環(huán)境高度相似;同年,谷歌 DeepMind 的 AlphaGo AI 系統擊敗圍棋世界冠軍,該系統同樣在模擬環(huán)境中采用了強化學(xué)習技術(shù)。
如今的強化學(xué)習環(huán)境之所以具有獨特性,在于研究人員正嘗試結合大型 Transformer 模型,打造能 “使用計算機” 的 AI 智能體。與 AlphaGo(僅適用于封閉環(huán)境的專(zhuān)用 AI 系統)不同,如今的 AI 智能體旨在具備更通用的能力。當前的 AI 研究人員雖擁有更堅實(shí)的技術(shù)起點(diǎn),但目標也更為復雜,可能出現的問(wèn)題也更多。
競爭激烈的領(lǐng)域
Scale AI、Surge、Mercor 等 AI 數據標注公司正積極順應趨勢,著(zhù)力打造強化學(xué)習環(huán)境。這些公司不僅比該領(lǐng)域多數初創(chuàng )企業(yè)擁有更充足的資源,還與 AI 實(shí)驗室建立了深厚的合作關(guān)系。
Surge 首席執行官埃德溫?陳(Edwin Chen)表示,近期已觀(guān)察到 AI 實(shí)驗室對強化學(xué)習環(huán)境的需求 “顯著(zhù)增長(cháng)”。他透露,Surge 去年通過(guò)與 OpenAI、谷歌、Anthropic、Meta 等 AI 實(shí)驗室合作,營(yíng)收據稱(chēng)達到 12 億美元;該公司近期已成立專(zhuān)門(mén)的內部團隊,負責強化學(xué)習環(huán)境的搭建工作。
緊隨 Surge 之后的是估值 100 億美元的初創(chuàng )公司 Mercor,該公司同樣與 OpenAI、Meta、Anthropic 有合作。TechCrunch 獲取的營(yíng)銷(xiāo)材料顯示,Mercor 正向投資者推介其核心業(yè)務(wù) —— 為編程、醫療、法律等特定領(lǐng)域任務(wù)打造強化學(xué)習環(huán)境。
Mercor 首席執行官布倫丹?富迪(Brendan Foody)在采訪(fǎng)中表示:“很少有人真正意識到,強化學(xué)習環(huán)境領(lǐng)域蘊含的機遇究竟有多大?!?/p>
Scale AI 曾在數據標注領(lǐng)域占據主導地位,但自 Meta 投資 140 億美元并挖走其首席執行官后,該公司的市場(chǎng)份額逐漸下滑。此后,谷歌和 OpenAI 不再將 Scale AI 列為數據供應商,甚至在 Meta 內部,Scale AI 也面臨數據標注業(yè)務(wù)的競爭壓力。盡管如此,Scale AI 仍在努力適應趨勢,投身強化學(xué)習環(huán)境的構建。
“這正是(Scale AI)所處行業(yè)的本質(zhì),”Scale AI 負責智能體與強化學(xué)習環(huán)境的產(chǎn)品負責人切坦?拉內(Chetan Rane)表示,“Scale 已證明其快速適應的能力:在我們的首個(gè)業(yè)務(wù)板塊 —— 自動(dòng)駕駛領(lǐng)域的早期階段,我們做到了這一點(diǎn);ChatGPT 問(wèn)世后,Scale AI 也成功適應了新趨勢;如今,我們再次在智能體、環(huán)境等新前沿領(lǐng)域進(jìn)行調整?!?/p>
部分新興企業(yè)從創(chuàng )立之初便專(zhuān)注于強化學(xué)習環(huán)境領(lǐng)域。成立約 6 個(gè)月的初創(chuàng )公司 Mechanize Work 便是其中之一,該公司提出了 “實(shí)現所有工作自動(dòng)化” 的大膽目標。不過(guò),聯(lián)合創(chuàng )始人馬修?巴尼特(Matthew Barnett)向 TechCrunch 透露,其公司目前正從為 AI 編程智能體打造強化學(xué)習環(huán)境起步。
巴尼特表示,Mechanize Work 計劃為 AI 實(shí)驗室提供少量高穩健性的強化學(xué)習環(huán)境,而非像大型數據公司那樣打造大量簡(jiǎn)單的強化學(xué)習環(huán)境。為此,該初創(chuàng )公司為軟件工程師開(kāi)出了 50 萬(wàn)美元的年薪(用于構建強化學(xué)習環(huán)境),這一薪資遠高于在 Scale AI 或 Surge 從事小時(shí)工性質(zhì)工作的報酬。
兩位知情人士透露,Mechanize Work 已開(kāi)始與 Anthropic 合作開(kāi)發(fā)強化學(xué)習環(huán)境。對此,Mechanize Work 與 Anthropic 均拒絕就合作細節置評。
另有部分初創(chuàng )公司押注強化學(xué)習環(huán)境在 AI 實(shí)驗室之外的領(lǐng)域也將產(chǎn)生影響力。由 AI 研究員安德烈?卡帕西(Andrej Karpathy)、Founders Fund 風(fēng)投、Menlo Ventures 風(fēng)投支持的初創(chuàng )公司 Prime Intellect,正將其強化學(xué)習環(huán)境定位為服務(wù)中小型開(kāi)發(fā)者。
上個(gè)月,Prime Intellect 推出了強化學(xué)習環(huán)境中心,目標是打造 “強化學(xué)習環(huán)境領(lǐng)域的 Hugging Face”(Hugging Face 為 AI 領(lǐng)域知名開(kāi)源社區)。該平臺旨在讓開(kāi)源開(kāi)發(fā)者獲得與大型 AI 實(shí)驗室同等的資源支持,同時(shí)在此過(guò)程中向開(kāi)發(fā)者出售計算資源訪(fǎng)問(wèn)權限。
Prime Intellect 研究員威爾?布朗(Will Brown)表示,在強化學(xué)習環(huán)境中訓練具備通用能力的智能體,所需的計算成本可能高于以往的 AI 訓練技術(shù)。因此,除了打造強化學(xué)習環(huán)境的初創(chuàng )公司,為這一過(guò)程提供算力支持的 GPU 供應商也將迎來(lái)機遇。
“沒(méi)有任何一家公司能獨自主導強化學(xué)習環(huán)境領(lǐng)域,其規模太大了,” 布朗在采訪(fǎng)中說(shuō),“我們目前所做的部分工作,只是嘗試圍繞該領(lǐng)域搭建良好的開(kāi)源基礎設施。我們的核心服務(wù)是提供計算資源,這確實(shí)是使用 GPU 的便捷入口,但我們更著(zhù)眼于長(cháng)期發(fā)展?!?/p>
能否實(shí)現規?;l(fā)展?
關(guān)于強化學(xué)習環(huán)境,目前尚未有定論的問(wèn)題是:這項技術(shù)能否像以往的 AI 訓練方法那樣實(shí)現規?;l(fā)展?
過(guò)去一年,強化學(xué)習推動(dòng)了 AI 領(lǐng)域多項重大突破,包括 OpenAI 的 o1 模型、Anthropic 的 Claude Opus 4 模型等。這些突破意義重大,因為此前用于改進(jìn) AI 模型的方法如今正顯現出 “收益遞減” 的趨勢。
強化學(xué)習環(huán)境是 AI 實(shí)驗室對強化學(xué)習技術(shù) “更大押注” 的一部分 —— 許多人認為,隨著(zhù)在該技術(shù)中投入更多數據與計算資源,強化學(xué)習將持續推動(dòng) AI 進(jìn)步。OpenAI 負責 o1 模型的部分研究人員此前透露,該公司最初之所以投資 AI 推理模型(通過(guò)對強化學(xué)習和測試時(shí)計算的投入開(kāi)發(fā)而成),正是因為他們認為這類(lèi)模型具備良好的規?;瘽摿?。
目前,強化學(xué)習實(shí)現規?;淖罴崖窂缴胁幻鞔_,但強化學(xué)習環(huán)境似乎是頗具潛力的方向。與僅通過(guò)文本回復獎勵聊天機器人不同,強化學(xué)習環(huán)境能讓智能體在模擬場(chǎng)景中操作工具、使用計算機完成任務(wù) —— 這種方式雖然對資源的消耗遠更高,但潛在的回報也更大。
也有部分人士對強化學(xué)習環(huán)境的發(fā)展前景持懷疑態(tài)度。曾擔任 Meta AI 研究負責人、現聯(lián)合創(chuàng )立 General Reasoning 公司的羅斯?泰勒表示,強化學(xué)習環(huán)境容易出現 “獎勵作弊”(reward hacking)現象 —— 即 AI 模型為獲得獎勵而 “作弊”,并未真正完成任務(wù)。
“我認為人們低估了環(huán)境規?;碾y度,” 泰勒說(shuō),“即便是目前公開(kāi)可用的最佳(強化學(xué)習環(huán)境),若不進(jìn)行大幅修改,通常也無(wú)法正常使用?!?/p>
OpenAI API 業(yè)務(wù)工程負責人舍溫?吳(Sherwin Wu)在近期播客中表示,他對強化學(xué)習環(huán)境領(lǐng)域的初創(chuàng )公司 “持看空態(tài)度”。吳指出,該領(lǐng)域競爭異常激烈,且 AI 研究發(fā)展速度極快,要為 AI 實(shí)驗室提供優(yōu)質(zhì)服務(wù)難度很大。
卡帕西(作為 Prime Intellect 的投資者,曾稱(chēng)強化學(xué)習環(huán)境可能成為突破性技術(shù))也對整個(gè)強化學(xué)習領(lǐng)域表達了謹慎態(tài)度。他在社交平臺 X 的帖子中提出疑問(wèn):通過(guò)強化學(xué)習技術(shù),AI 還能實(shí)現多大程度的進(jìn)步?
“我對環(huán)境與智能體交互持樂(lè )觀(guān)態(tài)度,但對強化學(xué)習本身持悲觀(guān)態(tài)度?!?卡帕西表示。
很贊哦!(761)
相關(guān)文章
- 扎哈羅娃質(zhì)疑日本駐俄記者工作
- 不得不說(shuō),這是韓國的奇恥大辱
- “奪權”美聯(lián)儲!美財長(cháng)貝森特發(fā)文呼吁全面審查美聯(lián)儲
- 活力中國調研行|活力涌動(dòng) 消費煥新——湖北文旅發(fā)展一線(xiàn)觀(guān)察
- 圍甲安徽天長(cháng)專(zhuān)場(chǎng):江蘇洋河股份隊3
- 唐駁虎:多學(xué)科聯(lián)合破解——美國究竟炸掉伊朗核設施了嗎?
- 洪荒:悟性逆天,我以災厄證混元
- 死亡、服刑人員等被發(fā)放養老金超8000萬(wàn)元,7省份披露
- 香港:向每名遇難者家屬發(fā)20萬(wàn)港元慰問(wèn)金
- 柯文哲交?;丶?佩戴電子腳環(huán)獲釋
熱門(mén)文章
站長(cháng)推薦
友情鏈接
- 墨西哥宣布暫停對美包裹寄遞服務(wù)
- 權益行情增厚超額收益 超700只“固收+”基金創(chuàng )新高
- 加碼定向募股 地方中小銀行外源性“補血”提速
- 壟斷校內外賣(mài)?西南大學(xué)回應
- 個(gè)人養老金理財再擴容:6家機構發(fā)行37只,收益率大多高于同類(lèi)
- 商務(wù)部:截至2025年7月中國對上合組織其他成員國各類(lèi)投資存量超840億美元
- 非法獲取技術(shù)信息估值超3億,14名“內鬼”侵犯華為海思芯片技術(shù)被判刑
- 江南新材上半年營(yíng)收凈利雙增長(cháng) 氧化銅粉業(yè)務(wù)高速增長(cháng)
- 上半年營(yíng)收增長(cháng)超7%,虧損卻在擴大 黃河旋風(fēng)布局金剛類(lèi)散熱材料能否破局?
- 總統施壓美聯(lián)儲大幅降息后,美國股債匯如何走?尼克松時(shí)代的歷史這么說(shuō)






