-
DeepSeek“偷偷”發(fā)布新版本,最新測評來了
-
張廣凱13764468101
(文/張廣凱 編輯/呂棟)
昨晚,DeepSeek 以非常低調(diào)的方式,帶來了最新版本的大模型 V3-0324。
沒有官方新聞稿,沒有技術(shù)報(bào)告,甚至在Hugging Face上傳的最初文件中,連README文檔都是空的,看上去,這只是V3模型的一次版本升級。
不過由于DeepSeek自帶的極高話題性,這次版本升級還是引發(fā)了大量討論和測評,并且果然沒有令人失望——很多專業(yè)人士都指出,V3-0324模型在編程能力上有了顯著提升。
在大模型編程能力測試Aider LLM中,V3-0324的多語言基準(zhǔn)測試得分為55%,相較于此前版本不到50%的水平有明顯進(jìn)步,并且超越了OpenAI的o3-mini,接近于自家的R1,但仍然稍稍落后于以編程見長的Claude 3.7 sonnet。
考慮到V3-0324并非推理模型,能夠在編程能力上接近R1,算得上是自身短板的精準(zhǔn)補(bǔ)強(qiáng)。
另一位博主Xeophon自建的測試集上,V3-0324在綜合能力上超越了Claude 3.5 sonnet,排在它身前的DeepSeek R1,o3-mini和阿里通義的qwq-32b則都是推理模型。
知名的大模型競技場Chatbot Arena也已經(jīng)開始將V3-0324納入測試,但還具體成績還要等待幾天時間。
在目前的Chatbot Arena排行榜上,GPT-4.5-Preview和Grok-3-Preview-02-24并列排在榜首,而DeepSeek R1則排在第6位。
隨著今年以來OpenAI推出最后一代非推理模型GPT-4.5,以及推理模型o3的升級,再加上Grok、Claude和Gemini等模型的持續(xù)迭代,外界對于DeepSeek何時能夠再次升級也有了更高期待。
此前路透社消息稱,DeepSeek下一代推理模型R2可能會比預(yù)期的5月更早發(fā)布。
考慮到DeepSeek R1是以V3作為基礎(chǔ)模型訓(xùn)練而來,此次V3-0324的亮相,或許也意味著R2愈發(fā)臨近了。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 張廣凱 
-
騰訊等巨頭攜手入股智元機(jī)器人
2025-03-25 13:29 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
消息稱京東入局具身智能賽道
2025-03-25 13:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
原華為副總裁擔(dān)任智元機(jī)器人董事長兼CEO
2025-03-25 12:36 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
蔡崇信:企業(yè)家信心明顯增強(qiáng),阿里巴巴將重啟招聘
2025-03-25 11:05 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
上海發(fā)布2025重點(diǎn)產(chǎn)業(yè)布局圖
2025-03-25 10:31 觀網(wǎng)財(cái)經(jīng)-宏觀 -
“讓機(jī)器服務(wù)于人,而不是人為機(jī)器服務(wù)”
2025-03-25 09:29 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
茶咖日報(bào)|茉莉奶白被曝喝出完整塑料袋,官方回應(yīng):已閉店
2025-03-24 21:00 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
京東外賣上線40天,日訂單首破百萬
2025-03-24 18:12 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
宣布斥資15億布局香港后,京東要把家電價格打到全港最低
2025-03-24 18:12 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
2元一根的妙可藍(lán)多奶酪,去年又掙了1.13億
2025-03-24 17:34 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
途虎養(yǎng)車全網(wǎng)首發(fā)德國馬牌ExtremeContact XC7全新輪胎產(chǎn)品線
2025-03-24 17:26 -
控量挺價成效待考,舍得酒業(yè)2024年凈利驟降80%
2025-03-24 17:25 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
教培跑路頻發(fā),美團(tuán)這招行不行?
2025-03-24 17:24 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
2024年中國財(cái)政政策執(zhí)行情況報(bào)告發(fā)布
2025-03-24 16:23 -
-
五大芯片巨頭來華參會,高通三星高管到訪小米汽車工廠
2025-03-24 11:44 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
中科院專家:RISC-V開辟中國芯片自主新賽道,還需攻克“三座大山”
2025-03-23 16:07 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
絲芙蘭迷失在中國,全球CEO緊急“救火”
2025-03-23 09:39 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
華為楊超斌:已有超80家伙伴基于昇騰打造大模型一體機(jī)
2025-03-22 21:40 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
-
“中美談判后,各國對美更硬氣了” 評論 0星辰大海第二站,天問二號為何選它? 評論 41印度人把抵制矛頭對準(zhǔn)了這兩國 評論 233特朗普準(zhǔn)備賣了“美國之音”總部大樓 評論 182美大使“委屈”上了:加拿大抵制美貨是侮辱 評論 70最新聞 Hot
-
河中現(xiàn)大量死魚,懷化市委書記現(xiàn)場察看
-
特朗普:將與普京和澤連斯基通話
-
特朗普再次喊話:趕緊降息
-
阿根廷農(nóng)業(yè)重鎮(zhèn)遭嚴(yán)重洪水襲擊,大豆收獲被推遲
-
魯比奧:梵蒂岡或成俄烏會談地
-
搞真人秀搶美國公民資格,真人版《饑餓游戲》要來了?
-
捐贈儀式舉行,這方金印證實(shí)西晉與高句麗統(tǒng)屬關(guān)系
-
印度人把抵制矛頭對準(zhǔn)了這兩國
-
江蘇疾控聲明:常榮山與我們無關(guān)
-
新疆夜空不明飛行物是什么?揭秘來了
-
星辰大海第二站,天問二號為何選它?
-
烏克蘭:俄羅斯計(jì)劃試射洲際彈道導(dǎo)彈
-
穆迪下調(diào)美國信用評級,貝森特堅(jiān)稱是“滯后指標(biāo)”
-
貝森特談卡塔爾送飛機(jī):這跟法國人送自由女神像差不多嘛
-
特朗普準(zhǔn)備賣了“美國之音”總部大樓
-
沃爾瑪準(zhǔn)備以關(guān)稅為由漲價,特朗普威脅
快訊- 中美經(jīng)貿(mào)會談后,汽車行業(yè)影響幾何?
- 英偉達(dá)重新審視中國市場戰(zhàn)略;梁文鋒署名論文;OpenAI發(fā)布AI編程智能體
- 貝森特談卡塔爾送飛機(jī):這跟法國人送自由女神像差不多嘛
- 重慶證監(jiān)局出手處罰“有償薦股”,這五種隱蔽欺詐方式要小心了
- 烏克蘭:俄羅斯計(jì)劃試射洲際彈道導(dǎo)彈
- 伊朗外長:無論是否達(dá)成協(xié)議,伊朗的鈾濃縮活動都將繼續(xù)
- 企業(yè)為提升信譽(yù)口碑自曝為國安機(jī)關(guān)合作供應(yīng)商,造成失泄密風(fēng)險(xiǎn)
- 拜登確診前列腺癌,癌細(xì)胞已擴(kuò)散至骨骼
-