智通財經(jīng)APP獲悉,中信證券發(fā)布研報稱,近日,DeepSeek-V3的正式發(fā)版引起AI業(yè)內廣泛高度關注,其在保證了模型能力的前提下,訓練效率和推理速度大幅提升。中信證券認為,DeepSeek新一代模型的發(fā)布意味著AI大模型的應用將逐步走向普惠,助力AI應用廣泛落地;同時訓練效率大幅提升,亦將助力推理算力需求高增。中信證券持續(xù)看好AI產(chǎn)業(yè)鏈的加速落地機遇,建議重點關注AI應用、AI Infra、AI算力三大主線。
中信證券主要觀點如下:
事項:
12月26日,DeepSeek-V3(深度求索)首個版本正式發(fā)布并同步開源,已在網(wǎng)頁端和API全面上線。其在訓練效率和推理速度上相較歷史模型有了大幅提升,同時可保證領先的模型能力表現(xiàn),引起業(yè)內高度關注。
模型:數(shù)學、代碼等能力優(yōu)異,API性價比較高。
參考官方論文,DeepSeek v3為6710億參數(shù)MoE架構模型,激活37B,在14.8T token上進行了預訓練。能力上,模型暫不支持多模態(tài)輸入,但在通識和專業(yè)知識測試集上表現(xiàn)優(yōu)秀,MMLU pro正確率75.9%,GPQA-Diamond正確率59.1%,達到國內第一梯隊,接近Claude 3.5 Sonnet的水平;并且在數(shù)學和代碼領域測試表現(xiàn)突出,MATH 500正確率90.2%,SWE-bench正確率42.0%,Codeforces得分51.6,超越所有非o系列模型。模型生成速度達到60TPS,是前代模型的三倍。定價上,API定價為輸入每百萬tokens 0.5元(緩存命中)/2元(緩存未命中),輸出每百萬tokens 8元,與字節(jié)Doubao-pro-256k定價輸入每百萬tokens 5元,輸出每百萬tokens 9元的水平相當,在國產(chǎn)模型中性價比較高。
應用:國產(chǎn)模型能力提升、價格下降,支撐全領域AI應用加速。
豆包pro、DeepSeek v3等國產(chǎn)模型連續(xù)發(fā)布。模型能力上,國產(chǎn)模型在文本和知識能力上接近GPT-4、Claude、Llama等海外前沿模型水平,多模態(tài)能力逐步完備,邏輯和代碼能力在非o1技術路線下達到可用水平。價格上,國產(chǎn)模型API百萬tokens輸出普遍定價10元以內,是GPT-4o的1/3甚至更低。我們預計模型性價比持續(xù)提升下,國內AI應用依托豐富生態(tài)和成熟流量加速各領域落地。其中,Agent模式有望以更長的任務流程、更好的場景理解、更高的自主能力,成為所有互聯(lián)網(wǎng)用戶的數(shù)字助手,在企業(yè)管理、教育、辦公、金融等領域展現(xiàn)應用價值。
算力:DeepSeek訓練效率大幅提升,助力推理算力需求高增。
1)訓練效率大幅提升,GPT4的訓練成本約為DeepSeek V3的6.2倍。根據(jù)DeepSeek V3的官方技術文檔,本次DeepSeek的訓練僅使用了2048個H800 GPU,總訓練GPU卡時為2788千小時(其中預訓練為2664千小時),平均到每個GPU上,僅為1361小時,約合56.7天。與之相對比,根據(jù)英偉達CEO黃仁勛在GTC2024上的演講內容,GPT-4 MoE使用8000個H100訓練了90天,合計約為17280千卡時,相當于DeepSeek V3的6.2倍。
2)訓練效率提升歸因:我們認為DeepSeek V3訓練提效的原因主要包括低精度計算、小參數(shù)量、高質量數(shù)據(jù)等方面。精度方面,根據(jù)英偉達官方文檔,其GPU的8位精度算力通常是16位精度算力的2倍,因此數(shù)據(jù)精度從FP16降低到FP8可以貢獻一倍效率提升。參數(shù)方面,GPT-4 MoE模型總參數(shù)量達到1800B,而按照DeepSeek V3官方文檔,其總參數(shù)量只有671B,約為GPT-4 MoE的1/3,同時,DeepSeek的激活參數(shù)大約為37B,而GPT4-MoE每次推理激活的參數(shù)量約為280B,二者約為7.57倍關系;數(shù)據(jù)方面,GPT-4 MoE使用了13萬億(1300B)token,而DeepSeek V3使用的token數(shù)量約為14.8萬億(1480B),數(shù)據(jù)量相差不大,但DeepSeek V3技術文檔提及了使用模型生成訓練數(shù)據(jù)等,因此我們認為數(shù)據(jù)質量或有較大幅度提升。此外,采用負載均衡、更好的流水線策略亦是其官方提及的提升訓練效率的重要原因。
3)從推理側助推AI普惠,帶動推理算力需求倍增,打開更廣闊算力市場空間。我們認為,DeepSeek模型相比GPT4模型更小的參數(shù)量也意味著更低的推理成本,推理成本的降低,將是AI應用普及的前奏,正如4G提速降費給我國移動互聯(lián)網(wǎng)產(chǎn)業(yè)提供了助力。當前AI應用滲透率仍然較低,產(chǎn)業(yè)仍在早期,根據(jù)我們在2024年12月13日外發(fā)的報告《計算機行業(yè)“智能網(wǎng)聯(lián)”系列報告54—算力需求測算:Agent+Sora》,隨著Agent成為流量入口,滲透率達到30%左右,全球Agent的推理token數(shù)量將增長3個數(shù)量級以上,且視頻生成與實時視頻理解等形態(tài)的AI同樣有望帶來巨量需求增長,并且根據(jù)我們對視頻生成模型的測算,視頻推理算力需求將有望達到訓練算力需求的2-3個數(shù)量級以上。算力需求的指數(shù)級提升與模型訓練推理成本的下降將構成產(chǎn)業(yè)飛輪,帶動全產(chǎn)業(yè)鏈擴張,隨著AI進一步普及到日常生活與產(chǎn)業(yè)當中,我們認為推理算力需求將仍然驅動AI算力產(chǎn)業(yè)鏈持續(xù)增長。
風險因素:
AI核心技術發(fā)展不及預期,AI被不當使用造成嚴重社會影響,企業(yè)數(shù)據(jù)安全風險,信息安全風險,行業(yè)競爭加劇。
投資策略:建議關注AI全產(chǎn)業(yè)相關投資機會,綜合梳理以下投資主線:
1)AI 應用:伴隨模型能力升級,Agent等應用形式有望加速落地,帶動辦公、教育、管理、端側、具身智能等應用領域公司加速兌現(xiàn)業(yè)績彈性。
2)AI Infra:模型場景化與行業(yè)化發(fā)展催生數(shù)據(jù)服務和模型平臺需求,產(chǎn)業(yè)發(fā)展確定性高。
3)AI算力:AI應用加速落地帶動推理端算力新需求。