英偉達(dá)高級研究科學(xué)家Jim Fan在評價(jià)DeepSeek R1模型時就這樣說道:“我們生活在這樣一個時代:一個不是美國公司的AI企業(yè)卻實(shí)現(xiàn)了 OpenAI成立時的使命——做真正開放的前沿研究、為所有人賦能?!?/p>
DeepSeek 是何許人也?他有哪些特殊的背景?他為什么那么牛逼?會引起市場恐慌。
DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(隸屬量化巨頭幻方量化),成立于2023年7月17日,是一家創(chuàng)新型科技公司,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。
公司自成立以來,高效而密集的發(fā)布和升級了系列產(chǎn)品,速度令人驚嘆中國創(chuàng)業(yè)速度。
梁文鋒,男, 1985年出生于廣東省湛江市,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位。杭州幻方科技有限公司、DeepSeek創(chuàng)始人。
具體產(chǎn)品路徑如下:
- 2024年1月5日,發(fā)布DeepSeek LLM,這是深度求索的第一個大模型。?
- 2024年1月25日,發(fā)布DeepSeek-Coder。?
- 2024年2月5日,發(fā)布DeepSeekMath。?
- 2024年3月11日,發(fā)布DeepSeek-VL。?
- 2024年5月7日,發(fā)布DeepSeek-V2。?
- 2024年6月17日,發(fā)布DeepSeek-Coder-V2。?
- 2024年9月5日,DeepSeek 官方更新 API 支持文檔,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。?
- 2024年12月13日,發(fā)布用于高級多模態(tài)理解的專家混合視覺語言模型——DeepSeek-VL2。?
- 2024年12月26日晚,AI公司深度求索(DeepSeek)正式上線全新系列模型DeepSeek-V3首個版本并同步開源。
- 2024年12月30日,中信證券研報(bào)指出,DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注,其在保證了模型能力的前提下,訓(xùn)練效率和推理速度大幅提升。它以極低的訓(xùn)練成本,實(shí)現(xiàn)了與GPT-4o等頂尖模型相媲美的性能,震驚了業(yè)界。
- 2025年1月27日,推出新模型 DeepSeek-R1,Deepseek應(yīng)用登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越了ChatGPT。
- 2025年1月28日,推出多模態(tài)模型Janus-Pro,可以同時進(jìn)行多模態(tài)理解和圖像生成任務(wù)。
“只招1%的天才,去做99%中國公司做不到的事情?!泵嬖囘^ DeepSeek 的應(yīng)屆生這樣評價(jià)其招聘風(fēng)格。
DeepSeek團(tuán)隊(duì)陣容以年輕化、高學(xué)歷和頂尖學(xué)術(shù)背景為特點(diǎn),主要由來自清華、北大、北航等國內(nèi)頂尖高校的應(yīng)屆博士畢業(yè)生、在讀生和碩士生組成。
團(tuán)隊(duì)成員大多沒有海外經(jīng)歷,完全是中國本土人才,且核心崗位多由近一兩年畢業(yè)的人員擔(dān)任。
團(tuán)隊(duì)特點(diǎn):
- 平均年齡約28歲,95后占比超70%,90后占比50%以上。
- 團(tuán)隊(duì)成員大多擁有碩士及以上學(xué)位,其中40%以上擁有博士學(xué)位。
- 團(tuán)隊(duì)注重能力而非經(jīng)驗(yàn),強(qiáng)調(diào)年輕人的潛力和創(chuàng)新能力
核心成員:
- 高華佐:清華博士,參與了MLA架構(gòu)的開發(fā)。
- 邵智宏:清華博士,曾參與微軟研究院項(xiàng)目,是DeepSeek-Pro和DeepSeek-Coder等項(xiàng)目的開發(fā)者之一。
- 朱琪豪:北大博士,發(fā)表多篇頂級會議論文,主導(dǎo)開發(fā)了DeepSeek-Coder-V1。
- Peiyi Wang:北大博士,參與了DeepSeek數(shù)學(xué)建模項(xiàng)目。
- 曾旺?。罕贝蟛┦?,參與了DeepSeek V2的開發(fā)。
- 代達(dá)勱:北大博士,參與了DeepSeek V3的開發(fā)。
- 王炳宣、吳作凡、趙成鋼等其他成員也在不同領(lǐng)域有所貢獻(xiàn)。
- 實(shí)習(xí)生如辛華良(清華博士生),在深度學(xué)習(xí)領(lǐng)域有重要研究貢獻(xiàn)。
- 其他成員如孫景翔(清華博士生)、周雨楊等也參與了DeepSeek相關(guān)項(xiàng)目。
DeepSeek R1每百萬個token的查詢成本僅為0.14美元,而OpenAI的成本為7.50美元,成本降幅高達(dá)驚人的98%。DeepSeek R1的問世,宣告AI訓(xùn)練與推理成本大幅縮減。DeepSeek 證明打造出堪比o1的大模型并不需要無腦堆積“英偉達(dá)AI GPU”在不到600萬美元的極低投入成本和2048塊性能遠(yuǎn)低于H100與Blackwell的H800芯片條件下,DeepSeek團(tuán)隊(duì)打造出性能堪比OpenAI o1的開源AI模型,相比之下Anthropic與OpenAI訓(xùn)練成本高達(dá)10億美元。這也意味著未來大模型訓(xùn)練/推理比拼的不再是動輒千萬億美元的AI GPU算力戰(zhàn),這打破了人們對于AI 發(fā)展必須依賴于大量 GPU 的范式。DeepSeek R1橫空出世也重磅宣告隨著訓(xùn)練/推理步入“極致壓縮+高效強(qiáng)化訓(xùn)練+AI推理算力大幅簡化”的低成本新范式。據(jù)了解,UC伯克利、港科大、HuggingFace等頂級學(xué)術(shù)團(tuán)隊(duì)與AI科技大拿們在上周紛紛成功復(fù)現(xiàn)DeepSeek,只用強(qiáng)化學(xué)習(xí),沒有監(jiān)督微調(diào),30美元就能見證所謂的“啊哈時刻”,即Aha moment,也被稱作所訓(xùn)練的AI大模型的“頓悟時刻”。
全球AI大模型,或許正在進(jìn)入下一分水嶺。
DeepSeek 的低成本+超高效+不輸于o1的大模型綜合性能,源于對大模型訓(xùn)練流程的每個環(huán)節(jié)都施加了“極致工程”與“精細(xì)微調(diào)”,幅降低大模型訓(xùn)練/推理成本。比如,以極致工程為導(dǎo)向的高效訓(xùn)練與數(shù)據(jù)壓縮策略,通過多層注意力(MLA)——尤其對Query端進(jìn)行低秩化,從而在訓(xùn)練時減少激活內(nèi)存負(fù)擔(dān),還包括FP8 混合精度訓(xùn)練、DualPipe 并行通信、專家門控(MoE)負(fù)載均衡等手段。
讓 DeepSeek 在訓(xùn)練階段將硬件資源利用率最大化,減少“不必要的算力浪費(fèi)”,以及“強(qiáng)化學(xué)習(xí)(即RL)+蒸餾+專業(yè)數(shù)據(jù)優(yōu)化”的創(chuàng)新型AI訓(xùn)練舉措,無需依賴監(jiān)督微調(diào)(SFT)或人工標(biāo)注數(shù)據(jù)。DeepSeek 在完成主干預(yù)訓(xùn)練后,針對數(shù)學(xué)、編程、長上下文等“高價(jià)值能力”做強(qiáng)化學(xué)習(xí)或蒸餾精調(diào)。通過少量GPU小時的“深度強(qiáng)化學(xué)習(xí)”大幅提升特定任務(wù)指標(biāo),而無需對整套模型做全量高成本訓(xùn)練,尤其是“R1-Zero”完全不用預(yù)先提供思維鏈?zhǔn)纠皬?fù)雜獎勵模型,而是只用簡單的“對錯獎勵 + 格式獎勵”,便通過訓(xùn)練算法能讓AI大模型自發(fā)地在推理過程中產(chǎn)生“頓悟(Aha Moment)”式的思考。
簡而言之,DeepSeek通過“極致工程化、并行優(yōu)化以及精篩數(shù)據(jù)”為核心來不斷削減通用算力的“無效消耗”,把資源集中到最能提升模型性能的核心模塊(注意力頭、關(guān)鍵算子、RL/蒸餾微調(diào)等),展示了“極致工程化 + 后訓(xùn)練端蒸餾 + 專業(yè)數(shù)據(jù)整合+主攻強(qiáng)化訓(xùn)練”新范式如何在有限GPU 資源下逼近乃至超越行業(yè)主流大模型性能,對傳統(tǒng)“巨額燒錢”模式提出了強(qiáng)力挑戰(zhàn)。
因此DeepSeek將硬件和算法的潛能最大化挖掘——這與過去很長一段時間美國科技大廠們“粗放式燒錢”在某種程度上形成鮮明對比。DeepSeek引領(lǐng)的“低成本算力浪潮”已經(jīng)令投資者們開始懷疑美國AI大廠們支出的合理性,如果這些科技巨頭AI巨額投入仍然無法產(chǎn)生令投資者感到滿意的創(chuàng)收與盈利,以及超出市場預(yù)期的業(yè)績數(shù)據(jù),可能迎來比去年夏季時期規(guī)模更大的“科技股拋售浪潮”。
Meta員工稱公司內(nèi)部因DeepSeek模型而進(jìn)入恐慌模式,并提到DeepSeek-V3在基準(zhǔn)測試中,已經(jīng)讓(Meta推出的)Llama 4相形見絀,而更讓人難堪的是一家“僅用550萬美元訓(xùn)練預(yù)算的中國公司”就做到這一點(diǎn)。Meta生成AI小組和基礎(chǔ)設(shè)施團(tuán)隊(duì)的經(jīng)理和工程師已開設(shè)了四個作戰(zhàn)室來學(xué)習(xí)DeepSeek的工作原理。
“DeepSeek可能是個國運(yùn)級別的科技成果?!?-游戲科學(xué)創(chuàng)始人、CEO,《黑神話:悟空》制作人馮驥。
DeepSeek正在迅速破圈,成為新年的第一個爆炸性話題。
清華大學(xué)計(jì)算機(jī)系長聘副教授劉知遠(yuǎn)表示,DeepSeek 的出圈,恰恰證明了我們的競爭優(yōu)勢所在,通過有限資源的極致高效利用,實(shí)現(xiàn)以少勝多。R1的發(fā)布,正表明我們與美國的AI實(shí)力差距明顯縮小了。
《經(jīng)濟(jì)學(xué)人》也在最新一期報(bào)道中稱:“DeepSeek以其低成本的訓(xùn)練與模型設(shè)計(jì)的創(chuàng)新同步改變科技行業(yè)?!?/p>
美國總統(tǒng)特朗普表示,中國人工智能初創(chuàng)公司DeepSeek的崛起應(yīng)當(dāng)為美國企業(yè)敲響“警鐘”,美國公司“需要專注于競爭以贏得勝利?!?/p>
原文:https://mp.weixin.qq.com/s/CwiJcDwTUnqy0RvWBG1H0w