Aitrainee | 公眾號:AI進修生
幾乎每周我們都能看到人工智能領(lǐng)域的重大進步
這會兒開源模型又往上走了一步
前面發(fā)生了一些事情,Gpt4o-mini發(fā)布、Windows崩潰,這些我有所關(guān)注,但不做多講
今天我想說 DeepSeek V2 聊天模型進行了又一次的升級,進化到了DeepSeek-Chat-V2.1
你如果還是不太了解的話,我們可以補充一些前置消息:DeepSeek V2大約一兩個月前發(fā)布,在基準測試和實際使用中表現(xiàn)非常出色,主要針對各種通用用途。
不久后,他們還發(fā)布了DeepSeek Coder V2模型,專注于編程,同樣表現(xiàn)不俗?,F(xiàn)在,他們又發(fā)布了DeepSeek V2聊天模型的更新版本,比之前更出色。
模型更新
就像之前的版本一樣,這個更新版本也是一個由多個專家組成的模型,擁有 236B 參數(shù),具有 128K 上下文限制,其中 21B 是活躍參數(shù)。雖然還有一個輕量版,只有 16B 參數(shù),但這次更新不涉及它。
這次更新的版本在通用排行榜
▲ 優(yōu)于所有其他開源模型
和編程競技場排行榜上表現(xiàn)依然非常優(yōu)秀。
性能提升
如果我們看一下模型的主要改進,可以看到在人類評估基準測試中提高了3.7分,在數(shù)學基準測試中提高了17.1分,在BBH基準測試中提高了3.7分,在IAL中提高了13.8分,在競技場硬核基準測試中提高了26.7分,這是最大的提升。
他們還提到,系統(tǒng)區(qū)域的指令跟隨能力得到了顯著優(yōu)化,提升了用戶在沉浸式翻譯、RAG等任務(wù)中的體驗。
總的來說,模型在幾乎所有領(lǐng)域的性能都有所提升,這顯然很酷。
之前版本的基準測試結(jié)果已經(jīng)很不錯了,現(xiàn)在更是錦上添花。
這個模型可以在Hugging Face上找到,Ollama目前還沒有更新這個模型的版本。
DeepSeek的聊天平臺也更新了使用這個新模型。所以,讓我們來測試一下看看效果如何。
測試問題及結(jié)果:
我將測試以下九個問題:
以“Lia”結(jié)尾的國家的首都是哪座城市?
模型正確回答,標記為通過。
一個烘焙師做了240塊餅干,他每盒裝12塊,需要多少盒才能裝完所有餅干?
模型正確回答,標記為通過。
露西的糖果是邁克的兩倍,如果邁克有7塊糖果,露西有多少塊?
模型正確回答,標記為通過。
如果一個正六邊形的短對角線為64,長對角線是多少?
模型未正確回答,標記為未通過。
編碼問題及結(jié)果:
創(chuàng)建一個包含按鈕的HTML頁面,點擊按鈕時爆炸出彩紙。可以使用CSS和JS。
生成代碼正確,標記為通過。
創(chuàng)建一個Python程序,打印用戶輸入的接下來的X個閏年。
生成代碼正確,標記為通過。生成一個方形臉的SVG代碼。
生成代碼正確,標記為通過。為一家AI公司創(chuàng)建一個著陸頁面,包含四個部分:頁眉、橫幅、特色和聯(lián)系我們,頁面要看起來時尚現(xiàn)代。
生成代碼正確,標記為通過。用Python編寫一個在終端上運行的貪吃蛇游戲。
生成代碼正確,標記為通過。
最終結(jié)果顯示,除了一個問題外,模型幾乎通過了所有測試。
這款模型非常出色,堪比所有頂級模型。而且,它是開源的,使用他們的聊天平臺完全免費,無硬性限制。
此外,這個模型的API比最近推出的GPT 4o Mini更便宜,輸入僅需14美分,輸出28美分,而質(zhì)量極佳。
互聯(lián)網(wǎng)用戶一直在贊美GPT 4o Mini的成本,但實際上更好的DeepSeek模型更便宜。
總體來說,DeepSeek V2聊天模型非常優(yōu)秀,現(xiàn)在更是如此。
??希望這篇文章對你有幫助,感謝閱讀!
視頻教程
https://www.youtube.com/watch?v=8wJs1vj8e_4
參考鏈接: [1] huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat-0628