-
訊飛星火之后,螞蟻用國產(chǎn)芯片訓(xùn)練出2900億參數(shù)大模型
最后更新: 2025-03-24 18:53:073月24日,彭博社援引知情人士消息稱,螞蟻集團已成功利用阿里巴巴、華為等國產(chǎn)芯片,結(jié)合混合專家(MoE)架構(gòu)訓(xùn)練出參數(shù)規(guī)模達(dá)2900億的大模型“Ling-Plus”,其性能與英偉達(dá)H800芯片訓(xùn)練的同類模型相當(dāng),且訓(xùn)練成本降低20%。這一突破是繼科大訊飛“星火大模型”之后,中國國產(chǎn)算力生態(tài)即將迎來的第二個標(biāo)志性大模型。
據(jù)螞蟻集團Ling團隊發(fā)布的論文,其自研的Ling系列模型通使用國產(chǎn)廠商(如壁仞科技、天數(shù)智芯、寒武紀(jì)等)的產(chǎn)品,訓(xùn)練1萬億Token的成本從635萬元降至508萬元,降幅達(dá)20%,但模型性能仍可對標(biāo)阿里通義Qwen2.5-72B和DeepSeek-V2.5。
針對外媒(彭博社)關(guān)于螞蟻百靈大模型訓(xùn)練成本的報道,螞蟻方面回應(yīng)觀察者網(wǎng)稱:螞蟻針對不同芯片持續(xù)調(diào)優(yōu),以降低AI應(yīng)用成本,目前取得了一定的進(jìn)展,也會逐步通過開源分享。
除了自研性能領(lǐng)先的大模型以外,該技術(shù)論文最大的突破在于提出了一系列創(chuàng)新方法,以提升資源受限環(huán)境下AI開發(fā)的效率與可及性。實驗表明,其3000億參數(shù)的MoE大模型可在使用國產(chǎn)GPU的低性能設(shè)備上完成高效訓(xùn)練,性能與完全使用英偉達(dá)芯片、同規(guī)模的稠密模型及MoE模型相當(dāng)。作為國內(nèi)較早布局AI大模型的廠商,螞蟻自研的百靈大模型2023年已通過備案,重點布局在生活服務(wù)、金融服務(wù)、醫(yī)療健康等場景的應(yīng)用。
在此之前,科大訊飛發(fā)布了首個基于全國產(chǎn)化算力平臺訓(xùn)練的全民開放大模型——訊飛星火V3.5。
本月,科大訊飛與華為聯(lián)合團隊宣布,成功在昇騰國產(chǎn)算力集群上實現(xiàn)MoE模型的大規(guī)??绻?jié)點專家并行推理。這是繼深度求索(DeepSeek)公開MoE訓(xùn)練方案后,業(yè)界首個完全基于國產(chǎn)算力的解決方案。
通過算子融合、混合并行策略和通信計算并行優(yōu)化等一系列創(chuàng)新,科大訊飛在國產(chǎn)算力上實現(xiàn)了顯著性能提升:單卡靜態(tài)內(nèi)存占用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。
基于此次科大訊飛攜手華為所做的首個基于國產(chǎn)算力的MoE模型訓(xùn)推方案,科大訊飛稱,這一突破性的解決方案也將應(yīng)用于訊飛星火深度推理模型的訓(xùn)練加速,預(yù)期訓(xùn)練時推理效率將提升200%。同時,基于該方案的推理引擎也實現(xiàn)了國產(chǎn)算力上DeepSeek-V3和R1的高效推理。
科大訊飛“星火”驗證了國產(chǎn)算力的可行性,螞蟻“Ling系列”則進(jìn)一步證明其規(guī)模化和經(jīng)濟性。隨著阿里、華為等巨頭加碼,中國AI產(chǎn)業(yè)正從“單點突破”轉(zhuǎn)向“生態(tài)協(xié)同”。這場算力平權(quán)運動,或?qū)⒊蔀槿駻I競賽的新變量。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 楊依婷 
-
京東外賣上線40天,日訂單首破百萬
2025-03-24 18:12 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
宣布斥資15億布局香港后,京東要把家電價格打到全港最低
2025-03-24 18:12 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
2元的一根妙可藍(lán)多奶酪,去年又掙了1.13億
2025-03-24 17:34 觀網(wǎng)財經(jīng)-消費 -
直擊F1中國大獎賽:空中云匯助力邁凱倫車隊實現(xiàn)“零時差支付”
2025-03-24 17:30 今日財經(jīng) -
途虎養(yǎng)車全網(wǎng)首發(fā)德國馬牌ExtremeContact XC7全新輪胎產(chǎn)品線
2025-03-24 17:26 -
控量挺價成效待考,舍得酒業(yè)2024年凈利驟降80%
2025-03-24 17:25 觀網(wǎng)財經(jīng)-消費 -
教培跑路頻發(fā),美團這招行不行?
2025-03-24 17:24 觀網(wǎng)財經(jīng)-消費 -
2024年中國財政政策執(zhí)行情況報告發(fā)布
2025-03-24 16:23 -
TCL實業(yè)盧春水:掌握上游技術(shù),才是全球競爭的核心驅(qū)動力
2025-03-24 15:30 觀網(wǎng)財經(jīng)-科創(chuàng) -
五大芯片巨頭來華參會,高通三星高管到訪小米汽車工廠
2025-03-24 11:44 觀網(wǎng)財經(jīng)-科創(chuàng) -
中科院專家:RISC-V開辟中國芯片自主新賽道,還需攻克“三座大山”
2025-03-23 16:07 觀網(wǎng)財經(jīng)-科創(chuàng) -
絲芙蘭迷失在中國,全球CEO緊急“救火”
2025-03-23 09:39 觀網(wǎng)財經(jīng)-消費 -
華為楊超斌:已有超80家伙伴基于昇騰打造大模型一體機
2025-03-22 21:40 觀網(wǎng)財經(jīng)-科創(chuàng) -
從鴻蒙手機到鴻蒙電腦,華為終端鴻蒙化提速
2025-03-22 08:40 觀網(wǎng)財經(jīng)-科創(chuàng) -
消息稱盒馬醞釀新店型,布局“1店+N倉”模式
2025-03-22 00:10 觀網(wǎng)財經(jīng)-消費 -
中美科技博弈下,233萬用戶選擇把票投給“WPS鴻蒙版”
2025-03-21 23:59 觀網(wǎng)財經(jīng)-科創(chuàng) -
嘉士伯控股重慶啤酒被指打壓民族品牌“山城”?真相沒那么簡單
2025-03-21 21:08 觀網(wǎng)財經(jīng)-消費 -
名創(chuàng)優(yōu)品2024年營收同比增長22.8%,全球門店凈增1219家
2025-03-21 21:07 觀網(wǎng)財經(jīng)-消費 -
蘋果AI被指控虛假宣傳
2025-03-21 20:59 觀網(wǎng)財經(jīng)-科創(chuàng) -
美團2024年財報:全年營收3376億元,交易用戶數(shù)破7.7億
2025-03-21 20:54 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
相關(guān)推薦 -
“中美談判后,各國對美更硬氣了” 評論 0星辰大海第二站,天問二號為何選它? 評論 41印度人把抵制矛頭對準(zhǔn)了這兩國 評論 233特朗普準(zhǔn)備賣了“美國之音”總部大樓 評論 182美大使“委屈”上了:加拿大抵制美貨是侮辱 評論 70最新聞 Hot
-
河中現(xiàn)大量死魚,懷化市委書記現(xiàn)場察看
-
特朗普:將與普京和澤連斯基通話
-
特朗普再次喊話:趕緊降息
-
阿根廷農(nóng)業(yè)重鎮(zhèn)遭嚴(yán)重洪水襲擊,大豆收獲被推遲
-
魯比奧:梵蒂岡或成俄烏會談地
-
搞真人秀搶美國公民資格,真人版《饑餓游戲》要來了?
-
捐贈儀式舉行,這方金印證實西晉與高句麗統(tǒng)屬關(guān)系
-
印度人把抵制矛頭對準(zhǔn)了這兩國
-
江蘇疾控聲明:常榮山與我們無關(guān)
-
新疆夜空不明飛行物是什么?揭秘來了
-
星辰大海第二站,天問二號為何選它?
-
烏克蘭:俄羅斯計劃試射洲際彈道導(dǎo)彈
-
穆迪下調(diào)美國信用評級,貝森特堅稱是“滯后指標(biāo)”
-
貝森特談卡塔爾送飛機:這跟法國人送自由女神像差不多嘛
-
特朗普準(zhǔn)備賣了“美國之音”總部大樓
-
沃爾瑪準(zhǔn)備以關(guān)稅為由漲價,特朗普威脅
-