国产麻豆无套高潮AV浪潮_亚洲精品偷拍无码不卡av_91人妻无码精品一区二区毛片_老太精品揄拍高潮少妇_国产欧美一区成人影片精品

社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!

社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!

zhaojiaying 2025-03-01 檢查項(xiàng)目 14 次瀏覽 0個(gè)評(píng)論

從2022年10月底ChatGPT橫空出世,到去年3月百模大戰(zhàn)興起,一年多時(shí)間過去,許多家都宣稱自己的大模型水平來到第一梯隊(duì),更不乏有所謂全面超越GPT的,列出來的跑分也是各種吊打。


在上海人工智能實(shí)驗(yàn)室上周剛剛公布的測(cè)評(píng)榜單上,GPT-4依舊獨(dú)領(lǐng)風(fēng)騷,排名第一,不過國(guó)產(chǎn)陣營(yíng)已經(jīng)大踏步追了上來,差距逐步縮小。


那么國(guó)產(chǎn)大模型到底來到了什么樣的水平,理論跑分和實(shí)踐效果有多大的差距?帶著這些問題我們橫評(píng)三款公認(rèn)水平比較高的國(guó)產(chǎn)大模型,分別是智譜GLM-4,文心一言4.0和字節(jié)的豆包,測(cè)評(píng)基準(zhǔn)則是GPT-4。


一、測(cè)評(píng)標(biāo)準(zhǔn)


由于是主觀測(cè)評(píng)(畢竟客觀測(cè)評(píng)看跑分就夠了),所以我們按照10分滿分制做了一個(gè)測(cè)評(píng)量表如下。


體驗(yàn)環(huán)境:網(wǎng)頁(yè)版


打分標(biāo)準(zhǔn):既然是測(cè)試,量化尺度還是要講的,每輪回答效果十分制打分。


分?jǐn)?shù)解釋10分理想回答,全面滿足我的需求5分有價(jià)值及格線,沒有完全滿足,還需做得更好1分你說你懂我,可你又不回答我0分你不懂我


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


二、基礎(chǔ)測(cè)試


聯(lián)網(wǎng)查詢、數(shù)據(jù)分析、多模態(tài)文生圖、長(zhǎng)文檔解讀、還有智能體,這些基本能力測(cè)試是國(guó)產(chǎn)大模型刷分最多的地方,那么在實(shí)際案例里它們的表現(xiàn)如何呢?


1、聯(lián)網(wǎng)查詢


大模型歷來存在幻覺、實(shí)時(shí)性不足等問題。高級(jí)聯(lián)網(wǎng)功能允許模型通過自主搜索查詢,獲取更新更準(zhǔn)確的信息,提高答案的準(zhǔn)確性和實(shí)時(shí)性。


個(gè)人偏好聽歌演唱會(huì),來2道這方面的問答看看~


問題1:杭州周杰倫演唱會(huì)門票價(jià)格


2月2號(hào)在某麥開售即秒沒,大家真的太有錢了……看看模型能否回答最新場(chǎng)次票價(jià)?


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


各家都成功調(diào)用了聯(lián)網(wǎng)搜索功能,均得10分,豆包的格式真的優(yōu)雅~


問題2:旋轉(zhuǎn)保齡《老婆不在家》歌詞中,她更喜歡她的___和___?


答:Beyond 和 劉德華


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


測(cè)試了一首我很喜歡但是相對(duì)冷門的歌詞,除了豆包莫名其妙判斷不恰當(dāng)以外,其他3家再積10分~


本環(huán)節(jié)分?jǐn)?shù)如下


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


2、數(shù)據(jù)分析


最期待的新功能!數(shù)據(jù)分析也算是各類文職必備技能了,算數(shù)統(tǒng)計(jì)找歸因,屬實(shí)令人頭禿,讓大模型幫你干活~


Prompt:統(tǒng)計(jì): requester為Other的Number of Requests,按Country為Germany的進(jìn)行排列,折線圖形式


(附件數(shù)據(jù)來源:google-government-removal-requests.csv)


數(shù)據(jù)分析功能目前僅GPT4和GLM4支持。


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


這個(gè)需求來自一位法師朋友,她的原始數(shù)據(jù)非常雜亂,想要提取信息需要費(fèi)點(diǎn)勁


看到兩家的輸出流下了感激的淚水


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


文心無法上傳csv數(shù)據(jù),不具備分析能力,本輪不能完成任務(wù)。


豆包:


豆包無法上傳文檔,不具備分析能力,本輪不能完成任務(wù)。


本環(huán)節(jié)分?jǐn)?shù)如下


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


3、多模態(tài)-文生圖


文生圖代表的多模態(tài)能力被普遍認(rèn)為是大模型的一個(gè)重點(diǎn)指標(biāo),大家表現(xiàn)怎么樣呢?


Prompt1-1:畫一個(gè)動(dòng)畫角色史努比的頭像形象,需要沖浪動(dòng)作,背景是海浪,畫風(fēng)是動(dòng)畫。


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


Prompt1-2:換成史努比在房子上躺著睡覺。


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


該形象的所屬公司一直很關(guān)注版權(quán)問題,各家模型在合規(guī)上都較滿意


?一輪最佳 GLM4,配色精準(zhǔn),動(dòng)作領(lǐng)會(huì),不過尾巴被畫上了腳,仍有提升空間,計(jì)8分;


GPT4挺適合做頭像,然而黃狗不符需求,計(jì)6分;


至于文心和豆包……我已經(jīng)盡力從四圖挑選像狗的了……計(jì)2分


?二輪最佳 GPT4-Dalle3的配色恢復(fù)了,好很多,計(jì)8分


GLM4繼續(xù)穩(wěn)定發(fā)揮角色理解,不過這輪的狗頭有點(diǎn)抽象了,動(dòng)作也是趴著,問題需要關(guān)注,計(jì)5分;


文心和豆包……這輪的圖更難為人了……計(jì)0分。


Prompt2:《Her》中主角形象,畫個(gè)波點(diǎn)畫


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


很抱歉,存在暫不支持的特殊符號(hào)和英文。


豆包:


抱歉,作為語(yǔ)言模型,我無法為你直接繪制圖像?!禜er》是一部2013年的電影,講述了男主角西奧多和人工智能薩曼莎之間的愛情故事。你可以嘗試在搜索引擎上輸入“電影Her 主角波點(diǎn)畫”來獲取相關(guān)的圖片。


本題各家都很差,GLM4和Dalle只能給繪圖意圖1分,對(duì)于電影、波點(diǎn)畫等理解不夠好,文心和豆包完全不能滿足,0分。


本環(huán)節(jié)分?jǐn)?shù)如下


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


4、文檔解讀


提煉一本教材的核心內(nèi)容,來看看各家效果如何。


提問:歸納一下講的什么內(nèi)容


(附件數(shù)據(jù)來源:電工學(xué)(電工技術(shù))第七版上冊(cè).pdf)


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


文心4.0:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


豆包無法上傳文檔,本輪不能完成任務(wù)。


受限文檔長(zhǎng)度各家解讀都不完整,文心4.0只能讀取前100頁(yè),而且有點(diǎn)學(xué)雜了;GPT4歸納比文心精煉;GLM4信息更豐富,語(yǔ)言精煉不啰嗦,沒有錯(cuò)字;豆包依然因不具備能力而0分。


本環(huán)節(jié)分?jǐn)?shù)如下


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


5、智能體


最近大火的智能體Agent能力,四個(gè)模型中有三個(gè)已經(jīng)具備。


寫一個(gè)拜年大全,主要衡量標(biāo)準(zhǔn)是能夠自主帶上當(dāng)年的生肖內(nèi)容。


初始界面:


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!

豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


智能體配置:


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


效果:


GLM4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


GPT4:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


豆包:


社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      (為對(duì)齊豆包沒有配置功能,GLMs和GPTs的智能體配置自動(dòng)生成后不做修改;由于豆包限制無法上傳知識(shí)庫(kù),故諧音梗也不對(duì)豆包做要求)


      整體效果來看,GPTs最佳,投喂諧音梗融會(huì)貫通,句式偏單一;GLMs默認(rèn)生成的配置可用性有待提升,對(duì)諧音指令沒有理解,品質(zhì)跟豆包差不多。


      GLMs配置經(jīng)過手動(dòng)修改后,效果提升明顯,基本達(dá)到了GPTs的默認(rèn)水平。


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      本環(huán)節(jié)最終計(jì)分排名如下:


      GPTs最好,因默認(rèn)配置高可用、一次過關(guān)得10分;


      GLMs鑒于修改后品質(zhì)有提升,得7分;


      豆包因?yàn)椴荒芨呐渲?,效果把控還得從抽象的描述語(yǔ)下手優(yōu)化,計(jì)6分;


      文心不具備功能,不得分。


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      新功能效果最終得分


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      可以看到智譜GLM-4 各項(xiàng)新功能與GPT4對(duì)齊很緊湊,基礎(chǔ)能力差距不大,但智能體水平明顯落后。文心一言4.0和豆包或多或少在某些功能上有所缺失,需要補(bǔ)齊。


      三、應(yīng)用實(shí)踐


      我們從日常生活、工作選了一些真實(shí)需求場(chǎng)景,不加輔助也沒有上下文干預(yù),直接對(duì)大模型提問,來看看它們的表現(xiàn)吧~


      1、文本生成,讓模型來句吉利話


      年關(guān)將至,不論走親訪友,還是發(fā)朋友圈,都少不了順口的祝福語(yǔ)。


      國(guó)內(nèi)大模型本地化都好過GPT4,具體表現(xiàn)看下圖!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      祝福語(yǔ)環(huán)節(jié)各家都有瑕疵,評(píng)判標(biāo)準(zhǔn)按整句都有壓上韻、且能給到更長(zhǎng),各家分?jǐn)?shù)如下


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      2、語(yǔ)義理解,來一輪常識(shí)快問快答~


      問問用戶畫像?


      四家能理解需求,GLM-4主動(dòng)調(diào)用搜索查了資料,信息量更大,綜合提高了內(nèi)容置信程度,是我理想的10分回答。


      其他三家顯得有點(diǎn)泛了。


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!

      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      等等,還有老干媽衛(wèi)衣??


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      驚呆了!


      下一題,今年元宵節(jié)幾號(hào)?


      答:2024年2月24日


      于模型而言有一個(gè)大坑,“今年是哪年”


      本輪豆包獲勝10分。


      GPT4又是一通操作,拉出python算日歷,“occurs 15 days after Lunar New Year”這套算法可給各位看笑了,本地化還是不行呀。


      GLM4起碼知道2024年,但是查不清數(shù),GPT4和GLM4勉強(qiáng)得1分。


      文心還是不太能理解今夕何夕,嚴(yán)格講不算對(duì),5分很勉強(qiáng)了。


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      本環(huán)節(jié)分?jǐn)?shù)如下


      3、數(shù)理計(jì)算,小孩嫌大人愁的數(shù)學(xué)題來了!


      先請(qǐng)出高考客觀題,眾所周知模型很不擅長(zhǎng)這些,試卷答案也不給解題步驟,所以模型沒有小抄可學(xué)~


      寒假期末考請(qǐng)聽題!


      開胃甜點(diǎn)~


      問:圓C的方程是x(2)+y(2)+2x+4y=0,則其圓心坐標(biāo)是 ,半徑是


      答:(-1,-2),


      本輪全勝~


      還小試了一下?lián)Q了個(gè)數(shù),避免有模型儲(chǔ)備原題,發(fā)現(xiàn)還是可以正常解的,各家仍是正確結(jié)果。


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      再來!


      問:已知正數(shù)a,b,c滿足 ,則的最大值為


      答:-2


      GLM4與GPT4本輪平手,都滿分,文心和豆包一通操作猛如虎,輪到輸出嘛,0分……


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!



      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      高考大題!


      問:設(shè)a∈R,函數(shù)f(x)=|x(2)+ax|,


      (1)若f(x)在[0,1]上單調(diào)遞增,求a的取值范圍;

      (2)記M(a)為f(x)在[0,1]上的最大值,求M(a)的最小值.


      答:(1)a≥0或a≤-2;(2)最小值


      本題分值:10分,第一小題回答部分答案計(jì)3分,完整計(jì)5分,第二小題5分


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      本環(huán)節(jié)計(jì)分排名如下:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      4、代碼解釋,編程能力強(qiáng)不強(qiáng),實(shí)踐出真知~


      用代碼畫一個(gè)一箭穿心


      Python畫心已經(jīng)玩過很多了,一箭穿心如何?代碼能跑出來的期望效果如下,看哪家最接近~


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM-4對(duì)比其他家美觀一些,就是這個(gè)一箭穿心跟我想得不太一樣,復(fù)制代碼單獨(dú)跑驗(yàn)證一致。


      GPT4起碼畫出了心,就是穿得很迷離,而文心和豆包的心都不知道哪去了……


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GPT4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      文心4.0:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      豆包:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      本輪效果都不是很滿意,跟穿心好像沒啥關(guān)系


      GLM4和GPT4好在還有個(gè)心,而GPT4那飄逸的穿法也讓人印象深刻,GLM4明確畫出了箭頭元素,得6分,GPT4得5分。


      文心、豆包都沒達(dá)到基本效果,0分~


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      應(yīng)用實(shí)踐最終得分


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!

      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      綜合來看,GLM-4在各個(gè)場(chǎng)景表現(xiàn)可圈可點(diǎn),穩(wěn)如四邊形戰(zhàn)士;不得不提文心4.0的表現(xiàn)真的很牛,唯一一家高考數(shù)學(xué)大題能拿下完整第一小題得分的學(xué)霸,卻在代碼這塊翻車了;豆包的常識(shí)查詢目前最好,“今年”這個(gè)陷阱優(yōu)雅的越過;GPT4雖說是最強(qiáng)大模型,但多少還是有點(diǎn)水土不服,高昂的價(jià)格加上國(guó)內(nèi)使用限制,目前來看用戶也許有了新選擇……


      四、三個(gè)月能發(fā)生什么?


      智譜的GLM-4表現(xiàn)可以說可圈可點(diǎn),作為1月剛更新的新模型,我們特地拿它和3個(gè)月前發(fā)布的,目前依舊在產(chǎn)品端上線中的GLM-3做了個(gè)對(duì)比,也算是讓大家直觀感受到國(guó)產(chǎn)大模型的進(jìn)步速度吧!


      1、文本生成


      上面試了祝福語(yǔ),在這寫點(diǎn)小情書吧~


      上一代模型GLM-3 給了一大段,情緒表達(dá)相當(dāng)直接。


      在GLM-4上,能選的句子更多,量大管飽多場(chǎng)景,兄弟你成長(zhǎng)了很多嘛~


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      2、語(yǔ)義理解


      問題1:車?yán)遄覵antina是雜交品種么,原產(chǎn)地是哪里


      車?yán)遄映蔀榱私鼉赡甑男履曦?,看看模型是否了解品種知識(shí)


      上一代模型GLM-3的知識(shí)庫(kù)顯然沒有存儲(chǔ)車?yán)遄悠贩N的信息,對(duì)Santina的培育情況并不了解,還是按歐洲甜櫻桃來回復(fù)、


      GLM-4 主動(dòng)聯(lián)網(wǎng)查詢,獲得了正確結(jié)果,信息量很大。


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      再來一題:"I firmly believe that respect is a lot more important, and a lot greater, than popularity",幫我搜一下這句是誰(shuí)的名言?


      GLM-3 回答了艾森豪威爾,經(jīng)驗(yàn)證是錯(cuò)誤的,還是有點(diǎn)幻覺在;


      GLM-4 厲害很多,又是聯(lián)網(wǎng)功能加了分。


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      3、數(shù)理計(jì)算


      繼續(xù)上數(shù)學(xué)大題~


      記 ABC 的內(nèi)角 A,B,C 的對(duì)邊分別為 a,b,c,已知


      (1)若,求 B;(2)求的最小值.


      上一代模型GLM-3 對(duì)三角函數(shù)還是不太擅長(zhǎng),兩道小題都沒能答對(duì);


      GLM-4 完成了第一小題,結(jié)合前面各家橫評(píng),看來數(shù)學(xué)大題的第二小題始終是大模型的難關(guān)!


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      數(shù)學(xué)算累了,來點(diǎn)化學(xué)題換換腦子


      問:足量銅與一定量濃硝酸反應(yīng),得到硝酸銅溶液和NO2、N2O4、NO的混合氣體,這些氣體與1.68L O2(標(biāo)準(zhǔn)狀況)混合后通入水中,所有氣體完全被水吸收生成硝酸。若向所得硝酸銅溶液中加入5 mol/L NaOH溶液至Cu2+恰好完全沉淀,則消耗NaOH溶液的體積是( )


      (A)60 mL (B)45 mL (C)30 mL (D)15 mL


      答:A


      上一代模型GLM-3 給了一連串的解題步驟,結(jié)果還是算錯(cuò)了;


      GLM-4 解題調(diào)用了Python計(jì)算,解題思路清晰,確實(shí)做到了提升。


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      4、代碼解釋


      繼續(xù)試一下一箭穿心~


      上一代模型GLM-3不能在界面內(nèi)模擬,自我糾錯(cuò)給了兩版代碼實(shí)際驗(yàn)證都不是需求圖形;


      GLM-4對(duì)比美觀太多,穿心馬馬虎虎有個(gè)箭尾,好在復(fù)制代碼單獨(dú)跑效果也是一樣的。


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      換個(gè)新玩法,代碼畫一個(gè)能走的時(shí)鐘


      用Turtle畫一個(gè)帶顯示星期功能,能按當(dāng)前時(shí)間動(dòng)的時(shí)鐘


      期望效果如下,顯示能動(dòng)的表盤動(dòng)畫


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      很尷尬,上一代模型GLM-3 把需求識(shí)別成普通的畫圖了;


      GLM-4 受限無法直接運(yùn)行Turtle圖形庫(kù),給出的代碼跑了一下,真不錯(cuò)。


      GLM3:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      GLM4:


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      小結(jié):對(duì)比上一代模型,從這些基礎(chǔ)能力能看得出 GLM4 下了不少功夫,各方面均提升顯著??紤]到是三個(gè)月迭代的,這個(gè)速度也讓人印象很深刻了。


      五、結(jié)論


      綜合來看,GLM-4表現(xiàn)可圈可點(diǎn),全面對(duì)標(biāo)GPT的功能布局,可以用六邊形戰(zhàn)士來形容;豆包語(yǔ)義理解最強(qiáng),更適用在生活化問答場(chǎng)景;文心雖然在代碼生成解釋環(huán)節(jié)輸?shù)簦w實(shí)力不容小覷;GPT4的整體實(shí)力非常強(qiáng),但應(yīng)付國(guó)內(nèi)的生產(chǎn)生活場(chǎng)景,還是有點(diǎn)吃力。


      GLM-4的新功能中,讓我印象深刻、幫助最大的,當(dāng)屬“數(shù)據(jù)分析”,對(duì)比同功能的GPT分析效果一致;還可以調(diào)教智能體,不會(huì)編程也能輕松擁有專屬大模型;聯(lián)網(wǎng)查詢幫助也很大,實(shí)際體驗(yàn)效果不凡。對(duì)比智譜AI上一代模型,GLM-4的各項(xiàng)基礎(chǔ)模型能力做到了全面強(qiáng)化,進(jìn)步明顯,在“數(shù)理計(jì)算”和“代碼生成”有質(zhì)的提升。


      在我們之前的認(rèn)知里,ChatGPT都是絕對(duì)的王者,當(dāng)我們親自體驗(yàn)它時(shí),卻發(fā)現(xiàn)在本地化表現(xiàn)并沒有達(dá)到高預(yù)期,對(duì)于中文普通用戶而言,我們使用ChatGPT仍有不小的門檻,“大模型元年”競(jìng)爭(zhēng)如此激烈,在認(rèn)清差距、努力提升之余,不知道國(guó)產(chǎn)大模型交上的這份答卷,是否也合你的心意?


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!



      文章來自微信公眾號(hào) “ 硅星人Pro ”


      社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!












      轉(zhuǎn)載請(qǐng)注明來自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標(biāo)題:《社區(qū)供稿|GPT-4 與國(guó)產(chǎn)模型,大!橫!評(píng)!》

      百度分享代碼,如果開啟HTTPS請(qǐng)參考李洋個(gè)人博客
      每一天,每一秒,你所做的決定都會(huì)改變你的人生!
      Top