-
商湯聯(lián)合創(chuàng)始人:DeepSeek不會降低算力需求,長期低價服務(wù)難持續(xù)
-
湯普濟我在看著你
由DeepSeek點燃的人工智能熱潮,仍在持續(xù)。面對這場熱鬧異常的“AI春節(jié)檔”,全球大模型市場內(nèi)的玩家們都在加速行動。
近日,商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達華在一場閉門交流會上,談及了對DeepSeek的看法、算力需求、未來AI技術(shù)路徑、商湯未來大模型計劃等。
林達華認為,DeepSeek不會降低市場對算力的需求,在可見的2025年內(nèi),整體算力需求仍將保持增長。特別是隨著DeepSeek推理能力不斷突破,它帶動了下游應(yīng)用市場的快速擴展,推理市場正呈現(xiàn)供不應(yīng)求、快速增長的態(tài)勢。
DeepSeek是開源路線的堅持者,因此DeepSeek的出圈也被認為是開源的勝利。
林達華認為,開源不僅改變了全球AI和大模型的產(chǎn)業(yè)格局,還加速了技術(shù)的傳播和普及。其次,開源模型的追趕速度非???,與頂尖閉源模型的差距正在迅速縮小。未來,大模型應(yīng)用將從問答、文本改寫等淺層工具,轉(zhuǎn)向替代行業(yè)中高價值的核心任務(wù)。大模型需要在特定行業(yè)任務(wù)上突破工業(yè)紅線,才能實現(xiàn)規(guī)?;瘧?yīng)用。開源只是技術(shù)價值鏈中的一環(huán),而非全部。
以下是林達華交流整理實錄:
問:春節(jié)AI熱潮又興起,國民討論度再創(chuàng)新高,DeepSeek最厲害的突破在哪里呢?
林達華:DeepSeek有兩個近期的版本,一個是V3基礎(chǔ)模型,另一個是R1推理模型。這兩個模型的核心亮點是不一樣的。V3在于模型和系統(tǒng)垂直整合后實現(xiàn)的訓(xùn)練效率的優(yōu)化;而R1是構(gòu)建強推理能力的新算法路徑。
首先說一下V3,V3整體表現(xiàn)非常優(yōu)秀,綜合能力強,且在多項評測中表現(xiàn)突出。為何V3能夠達到如此高的水平,主要歸功于兩個方面。首先,模型本身達到了一流大模型水平,首先在于數(shù)據(jù)的多樣性和高質(zhì)量處理。這是任何一個基礎(chǔ)模型能達到很高水平的根本,V3也不例外。
另一個關(guān)鍵因素是DeepSeek V3的訓(xùn)練效率非常高。它通過模型結(jié)構(gòu)、訓(xùn)練方法和并行策略的聯(lián)合優(yōu)化,提升了訓(xùn)練效率,使其達到較高水平。用幾百萬美元就完成了一個大模型的訓(xùn)練。
具體而言,R1能夠?qū)⒂?xùn)練成本降至如此低的水平,主要依賴兩個方面的優(yōu)化。首先是模型結(jié)構(gòu),它采用了MoE架構(gòu)(混合專家架構(gòu)),如今幾乎所有一線企業(yè)都在使用MoE,因此這一點并不特別。但是,它采取了一種更優(yōu)的MoE負載均衡策略,提升了MoE訓(xùn)練的效率。另一個關(guān)鍵因素是訓(xùn)練技術(shù)的優(yōu)化:在確定了模型結(jié)構(gòu)后,訓(xùn)練方法本身也結(jié)合了多種策略。首先,它采用了FP8精度運算,而不是傳統(tǒng)的FP16。這一改進使計算效率相比FP16提升了60%以上。在FP8訓(xùn)練過程中,值得特別提到的是,它利用了CUDA PTX的底層代碼優(yōu)化,為FP8訓(xùn)練實現(xiàn)了一種高效的混合精度乘法,這是整個訓(xùn)練流程中最核心的算子之一,對FP8訓(xùn)練效率的提升起到了至關(guān)重要的作用。在這里我想指出的是,商湯的訓(xùn)練效率已經(jīng)與DeepSeek相差不大了。
然后是R1,它選擇了一條獨特且不同于主流的道路:基于結(jié)果監(jiān)督的強化學(xué)習路線。首先,它建立在DeepSeek V3形成的強大基礎(chǔ)能力之上,強化學(xué)習過程本身并不會賦予模型全新的知識或完全前所未有的能力,而是在基礎(chǔ)模型所提供的知識基礎(chǔ)上,使其更容易激發(fā)出完整的推理鏈路。其次,強化學(xué)習之前有個冷啟動(cold-start)階段,這是一個“點火”階段,雖然使用數(shù)據(jù)不多,但是為后續(xù)的強化學(xué)習的走通打下很重要的能力基礎(chǔ)(比如指令跟隨等)。然后是DeepSeek-R1-Zero的強化學(xué)習訓(xùn)練,這是這個技術(shù)路徑的核心創(chuàng)新所在,它確實是有顯著效果的,在內(nèi)外部的交叉驗證中也證實這一點。這里面的關(guān)鍵不是具體強化學(xué)習算法的選型(GRPO),而是證明了在一個強大基模型的基礎(chǔ)上,通過純結(jié)果監(jiān)督的強化學(xué)習能形成可泛化的推理能力。
問:DeepSeek的高效訓(xùn)練是否會顯著降低市場對算力的需求?
林達華:我們內(nèi)部的判斷是算力需求不會下降,主要基于以下幾個觀察:
首先,DeepSeek研發(fā)投入是包含多次實驗試錯尋求最佳技術(shù)方案的。幾百萬美元的訓(xùn)練成本是單次成本,這是我們在估計研發(fā)成本時需要充分考慮的。
其次,RL(強化學(xué)習)路徑的成功已經(jīng)顯現(xiàn)出巨大的價值,我們預(yù)計未來許多機構(gòu)將嘗試大規(guī)模擴展RL訓(xùn)練,這將進一步提高算力需求。更重要的是,整個行業(yè)的競爭態(tài)勢。即便單次訓(xùn)練成本得到了優(yōu)化,并不意味著總成本會下降。因為市場競爭白熱化,效率的優(yōu)化會加快迭代,但不會降低總體需求。
此外,隨著DeepSeek推理能力不斷突破,它帶動了下游應(yīng)用市場的快速擴展。目前,已達到可以與OpenAI同臺競爭的水平。這也導(dǎo)致大量用戶從OpenAI遷移至DeepSeek,但它自身的承載能力有限,難以滿足全部需求。因此,市場上許多國產(chǎn)廠商包括商湯大裝置紛紛上架R1,以支持不斷增長的推理需求。推理市場正呈現(xiàn)供不應(yīng)求、快速增長的態(tài)勢。
綜合這些因素,我們判斷,在可見的2025年內(nèi),整體算力需求仍將保持增長。
問:大模型未來演進路徑會是什么樣的?
林達華:現(xiàn)在大多數(shù)講述的仍是語言模型的故事,但在真實業(yè)務(wù)場景中,AI需要處理的信息遠不止于語言,而是多模態(tài)數(shù)據(jù)的融合。
現(xiàn)實世界中,無論是閱讀報告、課堂教學(xué),還是PPT,信息輸入從來都不是單一模態(tài)的,語言只是我們所獲取數(shù)據(jù)的一部分,還有大量圖像、視頻、音頻、傳感器數(shù)據(jù)尚未被充分利用。多模態(tài)仍然是AI發(fā)展的必然方向。隨著多模態(tài)技術(shù)的發(fā)展,AI將從語言模型,演進為推理模型,最終發(fā)展為世界模型。
在推理與理解能力提升的基礎(chǔ)上,下一步的關(guān)鍵方向是智能體。唯有具備完整決策與執(zhí)行能力的AI智能體,才能真正實現(xiàn)商業(yè)價值的閉環(huán)。這類智能體不再局限于提供信息或建議,而是能夠獨立自主地完成各類任務(wù),以更高效、更智能的方式驅(qū)動業(yè)務(wù)的發(fā)展與創(chuàng)新。
問:多模態(tài)模型技術(shù)門檻到底在哪?它是語言模型的擴展嗎?
林達華:一些人認為多模態(tài)只是語言模型的一個簡單擴展,但實際上,真正意義上的多模態(tài)遠不止于此。
AI從一開始就應(yīng)該具備多模態(tài)感知與理解能力,而不僅僅局限于語言層面。從商業(yè)角度來看,多模態(tài)在真實應(yīng)用場景中的需求已經(jīng)非常明顯。現(xiàn)實中的應(yīng)用場景本就是多模態(tài)的組合,而真正意義上的多模態(tài),不只是把不同模態(tài)的內(nèi)容轉(zhuǎn)換為語言token進行輸入,它應(yīng)該貫穿整個AI處理流程,從感知、思考到輸出。更重要的是,多模態(tài)模型需要具備記憶能力。這意味要對LLM技術(shù)架構(gòu)徹底重構(gòu),而不僅僅是對語言模型的簡單擴展。
當前業(yè)內(nèi)普遍討論一個問題:未來1-2年內(nèi),互聯(lián)網(wǎng)的純語料數(shù)據(jù)將被消耗殆盡。但一個被忽視的重要事實是,我們?nèi)匀粨碛泻A康奶烊淮嬖诘囊曈X數(shù)據(jù)。事實上,我們已經(jīng)看到包括OpenAI等國內(nèi)外一流的模型研發(fā)機構(gòu)正花費巨資,從各個渠道收集視頻數(shù)據(jù),以用于訓(xùn)練更高級的大模型。
從第一天開始,我們就堅定地認為,多模態(tài)大模型是我們的核心發(fā)展方向。原因在于,天然語言的信息是有缺失的,單一的語言模型無法完整解決業(yè)務(wù)問題。對于多模態(tài)模型,我們設(shè)定了明確的技術(shù)目標,即:強交互能力、強推理能力和長期記憶能力。
其中,多模態(tài)的強推理能力目前具備較高的技術(shù)門檻,因為包括像視頻、圖片這樣數(shù)據(jù)的信息密度跟語言文字的信息密度,完全差得不是一個數(shù)量級。這需要對數(shù)據(jù)進行一個提煉,這是多模態(tài)模型非常關(guān)鍵的地方:怎么樣從大量的冗余里面去提取出里面高密度的關(guān)鍵信息,并且與語言互補的信息結(jié)合來做整個的分析推理等。進行模態(tài)融入的過程,這里面有很多技術(shù)上要去做,記憶過程也有很多工作。
同時,整個過程對基礎(chǔ)設(shè)施和訓(xùn)練系統(tǒng)也提出了很高的要求。在一個訓(xùn)練過程中,Transformer的計算在GPU上面發(fā)生,對答案或者生成代碼的檢驗等的計算很多需要在CPU上面發(fā)生。然后,視覺等模態(tài)的編碼的計算模式也有差異。需要在一個很短的iteration里面,要完成3到5種很不一樣的計算,而且結(jié)果要協(xié)同在一起。要高效完成這樣的訓(xùn)練,需要基礎(chǔ)設(shè)施里面配置不同的計算資源,并且需要有一個高效的系統(tǒng)把不同的計算很好地協(xié)同在一起,以及支持好不同計算單元之間的頻繁通信。
所以基礎(chǔ)設(shè)施需要很強的彈性,能夠有各種不同的資源隨時有彈性地能夠組合在一起,這也是為什么商湯一直在說大裝置跟大模型要緊密結(jié)合發(fā)展,因為如果你不掌握底下的基礎(chǔ)設(shè)施設(shè)計,資源配置肯定是跟計算需求錯配的。
問:大模型是否能賺錢嗎?開源是否會顛覆閉源嗎?
林達華:首先,開源在近年來大模型的發(fā)展中對產(chǎn)業(yè)格局產(chǎn)生了深遠影響。開源不僅改變了全球AI和大模型的產(chǎn)業(yè)格局,還加速了技術(shù)的傳播和普及。其次,開源模型的追趕速度非常快,與頂尖閉源模型的差距正在迅速縮小。
開源的核心優(yōu)勢在于快速傳播——技術(shù)壁壘被打破后,先進成果迅速擴散,例如DeepSeek開源后,同類模型能力可被快速復(fù)現(xiàn)。此外,開源可以讓更多人可以參與到大模型的應(yīng)用創(chuàng)新,加速大模型技術(shù)應(yīng)用探索和普及的進程。
在這種背景下,真正的競爭優(yōu)勢體現(xiàn)在兩個方面:一是與基礎(chǔ)設(shè)施的深度整合,通過軟硬件的垂直整合實現(xiàn)成本優(yōu)勢;二是在特定行業(yè)的縱深發(fā)展,通過工程優(yōu)化、業(yè)務(wù)理解和模型調(diào)優(yōu),為客戶提供深度的價值。
未來,大模型應(yīng)用將從問答、文本改寫等淺層工具,轉(zhuǎn)向替代行業(yè)中高價值的核心任務(wù)。類似于商湯在AI 1.0時代通過突破人臉識別的工業(yè)紅線,實現(xiàn)了產(chǎn)業(yè)復(fù)制。大模型同樣需要在特定行業(yè)任務(wù)上突破工業(yè)紅線,才能實現(xiàn)規(guī)?;瘧?yīng)用。開源只是技術(shù)價值鏈中的一環(huán),而非全部。
問:在競爭格局這方面,DeepSeek V3和R1的API的價格,是否有可能帶來新一輪價格戰(zhàn)?
林達華:當前的價格競爭導(dǎo)致按token計費的利潤空間被壓縮至成本線,但長期低價服務(wù)難以持續(xù)。大流量服務(wù)商若持續(xù)低于成本定價,用戶量增長反而加劇虧損,市場終將回歸貼近真實成本的合理區(qū)間。
然而,真正的商業(yè)價值并非來自“按字收費”,而在于能否解決高難度業(yè)務(wù)問題。例如,生成深度行業(yè)報告或自主完成復(fù)雜任務(wù)的能力,其溢價遠高于通用問答。若僅依賴chatbot按token收費,難以支撐持續(xù)研發(fā)投入。
行業(yè)終局取決于大模型能否突破關(guān)鍵領(lǐng)域的“工業(yè)紅線”,形成端到端的價值閉環(huán)。最終我覺得行業(yè)會走到這樣的一個道路上:看大模型給用戶帶來了何種價值。當你依然采用“論斤算錢”的方式收費時,就代表了這個商業(yè)模式還沒有走的很通;而當你真正形成高價值落地的時候,收費必然會依據(jù)所提供服務(wù)本身的價值來確定。
問:在如今的競爭格局下,商湯要走怎樣的路?
林達華:當前,許多公司或團隊選擇基于開源大模型進行一次性微調(diào),希望在短期內(nèi)獲得市場價值。與以往技術(shù)迭代周期長達十年、二十年不同,如今的AI發(fā)展周期已大幅縮短至三個月。在這樣的節(jié)奏下,單純依賴淺層微調(diào)或工具型產(chǎn)品的商業(yè)利潤空間將極為有限。如果想真正抓住這個時代的紅利,就必須選擇更具挑戰(zhàn)性的方向。
對商湯而言,有兩項關(guān)鍵戰(zhàn)略選擇至關(guān)重要。其一,打造強大的基礎(chǔ)能力,盡管不同機構(gòu)在這一方面的定位可能會有所差異。其二,深耕特定行業(yè),做出端到端的全鏈條價值,深入理解行業(yè)需求,將每個環(huán)節(jié)做到極致。
去年十月份,商湯公開提出“大裝置、大模型、應(yīng)用”三位一體戰(zhàn)略。這一戰(zhàn)略正是基于AI未來高價值方向的判斷。無論市場如何變化,即使 DeepSeek-R1等新技術(shù)出現(xiàn),我們依然堅定這一戰(zhàn)略方向,這些新技術(shù)的發(fā)展非但沒有動搖商湯的戰(zhàn)略布局,反而進一步驗證了其高價值定位的必要性:大裝置的支撐,使大模型訓(xùn)練更高效、推理成本更低;提升模型服務(wù)的效率,確保訓(xùn)練和推理能力始終保持在行業(yè)領(lǐng)先水平;模型與業(yè)務(wù)緊密結(jié)合,聚焦關(guān)鍵領(lǐng)域,突破行業(yè)落地的瓶頸,實現(xiàn)高價值商業(yè)變現(xiàn)。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責任編輯: 湯普濟 
-
中興通訊去年研發(fā)投入240億,手機營收增速超40%
2025-02-28 22:23 觀網(wǎng)財經(jīng)-科創(chuàng) -
“瓜子大王”重回增長,高端瓜子建奇功?
2025-02-28 20:33 觀網(wǎng)財經(jīng)-消費 -
TikTok追加投資,88億美元!
2025-02-28 19:24 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
夸克AI搜索上線“深度思考”
2025-02-28 19:10 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
三年了,俄羅斯戰(zhàn)時“反制裁經(jīng)濟”的韌性從何而來?
2025-02-28 18:42 觀察者頭條 -
茶咖日報|光明乳業(yè)與MANNER聯(lián)名上新;中國咖啡市場規(guī)模有望破萬億
2025-02-28 18:23 觀網(wǎng)財經(jīng)-消費 -
零售巨頭聯(lián)手,名創(chuàng)優(yōu)品創(chuàng)始人進入永輝核心決策層
2025-02-28 18:18 -
2月賣地收金179.5億元,杭州土拍也被“六小龍”帶火了
2025-02-28 17:51 觀網(wǎng)財經(jīng)-房產(chǎn) -
Mate70 Pro上線優(yōu)享版:降價300元,性能也略降
2025-02-28 17:22 觀網(wǎng)財經(jīng)-科創(chuàng) -
OpenAI“史上最貴”大模型發(fā)布,定價是DeepSeek的280倍
2025-02-28 16:55 觀網(wǎng)財經(jīng)-科創(chuàng) -
比爾蓋茨投資的植物肉宣布:暫停中國運營并裁員95%
2025-02-28 16:20 -
即問即答,騰訊元寶即將灰度上線混元Turbo S
2025-02-28 16:05 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
小米15Ultra未漲價,盧偉冰:扛不住了,下代一定要漲
2025-02-28 14:31 觀網(wǎng)財經(jīng)-科創(chuàng) -
-
阿里國際站和航運巨頭馬士基宣布深度合作
2025-02-28 10:55 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
國產(chǎn)GPU獨角獸回應(yīng)“裁員20%”:優(yōu)化比例嚴重失實
2025-02-28 10:49 觀網(wǎng)財經(jīng)-科創(chuàng) -
扣非凈利下降近六成后,燒錢開“大店”能救太平鳥?
2025-02-28 10:43 -
蘋果天貓官方旗艦店首次加入國補
2025-02-28 10:15 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
拉動鴻蒙生態(tài)崛起,唯有中國科技企業(yè)集體沖刺
2025-02-28 07:23 觀網(wǎng)財經(jīng)-科創(chuàng) -
“亮劍”后廚亂象,美團上線“明廚亮灶”專區(qū)
2025-02-27 23:04 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
相關(guān)推薦 -
-
“印巴沖突是敘事之戰(zhàn),中國裝備重要性凸顯” 評論 103特朗普故弄玄虛稱“和某大國達成協(xié)議”,就這? 評論 152巴外長證實:殲-10擊落印軍“陣風” 評論 708美財長:這些嬰童用品從中國進口,考慮降稅 評論 159最新聞 Hot
-
沖突愈演愈烈,莫迪首發(fā)聲
-
挪威發(fā)布國家安全戰(zhàn)略:美國不可靠,需要跟歐洲抱團
-
印度兩座水電站已重新開閘
-
“印巴沖突是敘事之戰(zhàn),中國裝備重要性凸顯”
-
夸大對華關(guān)稅效果,她被打假了
-
突發(fā)!巴稱擊斃約50名印士兵,印稱摧毀巴第二大城市防空系統(tǒng)
-
彈射座椅大廠泄露了印巴空戰(zhàn)戰(zhàn)損“天機”?
-
巴總理:關(guān)鍵時刻,感謝“親愛的兄弟”埃爾多安
-
日本地鐵出現(xiàn)隨機殺人事件,男子揮20厘米菜刀砍傷2人
-
“斯洛伐克幾分鐘前才被通知…現(xiàn)在知道國際政治是啥了吧”
-
“俄羅斯要價太高,但...”
-
烏克蘭議會批準美烏礦產(chǎn)協(xié)議
-
“特朗普稱要把這改叫阿拉伯灣”,伊朗譴責:我們也沒反對阿拉伯海
-
巴外長證實:殲-10擊落印軍“陣風”
-
“中國遠落后于美國的時代已終結(jié)”
-
“接到指示,美情報機構(gòu)加強搜集力度”
-