国产91精品在线播放,9久9久热精品视频在线观看,啪啪毛片,九九热在线免费视频,91av毛片,国产91小视频,国产福利区一区二在线观看

休閑

【中原計算機】人工智能專(zhuān)題:后R1時(shí)代,DeepSeek發(fā)展的三大階段

時(shí)間:2010-12-5 17:23:32  作者:知識   來(lái)源:休閑  查看:  評論:0
內容摘要:報告正文DeepSeek在年初發(fā)布了R1以后,受到了各界普遍關(guān)注。后續來(lái)看,DeepSeek并沒(méi)有如期發(fā)布更先進(jìn)的模型R2,而是在進(jìn)行更多小版本的更新?lián)Q代。結合每個(gè)階段的發(fā)展重點(diǎn),我們將其劃分為3個(gè)主

報告正文

DeepSeek在年初發(fā)布了R1以后,中原展受到了各界普遍關(guān)注。計算機人后續來(lái)看,工智DeepSeek并沒(méi)有如期發(fā)布更先進(jìn)的題后模型R2,而是代D大階段在進(jìn)行更多小版本的更新?lián)Q代。結合每個(gè)階段的中原展發(fā)展重點(diǎn),我們將其劃分為3個(gè)主要的計算機人發(fā)展階段。

1. 階段一:性能提升

DeepSeek在3月推出的工智V3-0324和5月推出的R1-0528,還是題后以基礎模型DeepSeek-V3-Base為基座,通過(guò)后訓練實(shí)現了模型能力的代D大階段提升,彌補了和頭部模型之間的中原展差距。

2. 階段二:實(shí)現混合推理架構、計算機人Agent能力提升、工智與國產(chǎn)芯片協(xié)同優(yōu)化

從8月以后,題后DeepSeek也順應了海外混合推理架構和Agent能力提升的代D大階段大趨勢,推出了V3.1和V3.1-Terminus。這次升級中,DeepSeek的基座模型DeepSeek-V3.1-Base在DeepSeek-V3-Base基礎上做了大規模外擴訓練,Agent能力有了較大提升,思考效率也有提升。

8月21日,Deep在發(fā)布V3.1的同時(shí),也宣布了在國產(chǎn)芯片適配方面的新進(jìn)展。V3.1采用UE8M0 FP8縮放格式訓練,為對即將發(fā)布的下一代國產(chǎn)芯片設計。

此前,國內芯片企業(yè)僅有較少支持了FP8數據格式,多數芯片僅能支持FP16格式。FP8雖然可以提升計算速度和降低存儲需求,但是由于計算精度不高,容易損失數據信息,所以V3以前的大模型訓練中多會(huì )選用BF16或FP32/TF32精度進(jìn)行數據計算和存儲。DeepSeek是首個(gè)在開(kāi)源超大規模大模型中成功落地FP8混合精度訓練的公司,推動(dòng)了FP8技術(shù)的規?;瘧?,也極大地提升了市場(chǎng)對H20等支持FP8格式芯片的需求。

UE8M0 FP8是對FP8格式的深度優(yōu)化。該格式僅表示非負數(U代表Unisigned,無(wú)符號),尾數位為0(M0,尾數位為0),8個(gè)比特全部用來(lái)表示指數(E8,指數位占8位),Scale通過(guò)對數據進(jìn)行分塊縮放,保持其能夠在FP8表示的范圍內。UE8M0 FP8作為FP8格式的變體,通過(guò)減少數據存儲和傳輸的損耗,能最大限度利用硬件計算能力,彌補國產(chǎn)芯片在HBM等高速內存帶寬方面的不足,從而實(shí)現國產(chǎn)大模型和國產(chǎn)芯片協(xié)同設計的優(yōu)化,對于國產(chǎn)化芯片的應用起到積極的推動(dòng)作用。

3. 階段三:提效降價(jià),國產(chǎn)適配加速

9月發(fā)布的V3.2-Exp,基于V3.1-Terminus構建,引入了新的注意力機制DSA,在保持模型性能的穩定的同時(shí),在訓練推理效率方面有了較大的提升,帶來(lái)了模型較大幅度的降價(jià)。

對比R1來(lái)看,V3.2-Exp的輸入緩存命中時(shí)價(jià)格為R1的20%(0.2元/百萬(wàn)Tokens),輸入緩存未命中時(shí)價(jià)格為R1的50%(2元/百萬(wàn)Tokens),輸出價(jià)格為R1的19%(3元/百萬(wàn)Tokens),降幅最為明顯。

考慮到當前大模型之間能力差距在縮小,成本的下降意味著(zhù)模型具有更好的性?xún)r(jià)比和可推廣性,也將促進(jìn)應用端實(shí)現更多功能的落地。

在國產(chǎn)適配方面進(jìn)度明顯加快。在V3.2-Exp發(fā)布的當天,國產(chǎn)芯片華為昇騰和寒武紀同步宣布完成對V3.2-Exp的零日適配。這是繼V3.1采用UE8M0 FP8實(shí)現國產(chǎn)大模型和芯片協(xié)同設計的優(yōu)化以后,國產(chǎn)AI產(chǎn)業(yè)從“單點(diǎn)突破”邁向“系統協(xié)同”的又一個(gè)標志性事件。

同時(shí)值得注意的是DeepSeek還同時(shí)開(kāi)源TileLang和CUDA兩個(gè)版本的算子。TileLang是一種采用類(lèi)Python語(yǔ)法的領(lǐng)域專(zhuān)用語(yǔ)言(DSL),于2025年1月由北大計算機學(xué)院楊智團隊開(kāi)源,旨在實(shí)現硬件調度與開(kāi)發(fā)者算法邏輯的解耦,從而降低GPU編程的技術(shù)門(mén)檻,同時(shí)通過(guò)分層設計來(lái)實(shí)現不同技術(shù)背景開(kāi)發(fā)者,從簡(jiǎn)單上手到深度優(yōu)化的不同需求。由于TileLang可以實(shí)現對不同硬件平臺的支撐,極大地改善了國產(chǎn)卡目前所面對的CUDA帶來(lái)的生態(tài)壁壘問(wèn)題。

DeepSeek選用TileLang這個(gè)新興AI編程語(yǔ)言,再次體現了其強大的創(chuàng )新精神,同時(shí)為國產(chǎn)大模型軟硬件生態(tài)建立起到了極大的推動(dòng)作用。

4. 風(fēng)險提示

國際形勢變化。

證券分析師承諾:

本報告署名分析師具有中國證券業(yè)協(xié)會(huì )授予的證券分析師執業(yè)資格,本人任職符合監管機構相關(guān)合規要求。本人基于認真審慎的職業(yè)態(tài)度、專(zhuān)業(yè)嚴謹的研究方法與分析邏輯,獨立、客觀(guān)的制作本報告。本報告準確的反映了本人的研究觀(guān)點(diǎn),本人對報告內容和觀(guān)點(diǎn)負責,保證報告信息來(lái)源合法合規。

重要聲明:

copyright © 2025 powered by 四海皆兄弟網(wǎng)   sitemap