成人无码区免费AⅤ片丝瓜视频,永久黄网站色视频免费品善网

APP下載

掃一掃

下載觀察者APP

商湯聯(lián)合創(chuàng)始人：DeepSeek不會降低算力需求，長期低價服務(wù)難持續(xù)
- 湯普濟我在看著你
分享到：

2025-03-01 08:05:48 字號：A- A A+ 來源：觀察者網(wǎng)

由DeepSeek點燃的人工智能熱潮，仍在持續(xù)。面對這場熱鬧異常的“AI春節(jié)檔”，全球大模型市場內(nèi)的玩家們都在加速行動。

近日，商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達華在一場閉門交流會上，談及了對DeepSeek的看法、算力需求、未來AI技術(shù)路徑、商湯未來大模型計劃等。

林達華認為，DeepSeek不會降低市場對算力的需求，在可見的2025年內(nèi)，整體算力需求仍將保持增長。特別是隨著DeepSeek推理能力不斷突破，它帶動了下游應(yīng)用市場的快速擴展，推理市場正呈現(xiàn)供不應(yīng)求、快速增長的態(tài)勢。

DeepSeek是開源路線的堅持者，因此DeepSeek的出圈也被認為是開源的勝利。

林達華認為，開源不僅改變了全球AI和大模型的產(chǎn)業(yè)格局，還加速了技術(shù)的傳播和普及。其次，開源模型的追趕速度非?？?，與頂尖閉源模型的差距正在迅速縮小。未來，大模型應(yīng)用將從問答、文本改寫等淺層工具，轉(zhuǎn)向替代行業(yè)中高價值的核心任務(wù)。大模型需要在特定行業(yè)任務(wù)上突破工業(yè)紅線，才能實現(xiàn)規(guī)?；瘧?yīng)用。開源只是技術(shù)價值鏈中的一環(huán)，而非全部。

以下是林達華交流整理實錄：

問：春節(jié)AI熱潮又興起，國民討論度再創(chuàng)新高，DeepSeek最厲害的突破在哪里呢？

林達華：DeepSeek有兩個近期的版本，一個是V3基礎(chǔ)模型，另一個是R1推理模型。這兩個模型的核心亮點是不一樣的。V3在于模型和系統(tǒng)垂直整合后實現(xiàn)的訓(xùn)練效率的優(yōu)化；而R1是構(gòu)建強推理能力的新算法路徑。

首先說一下V3，V3整體表現(xiàn)非常優(yōu)秀，綜合能力強，且在多項評測中表現(xiàn)突出。為何V3能夠達到如此高的水平，主要歸功于兩個方面。首先，模型本身達到了一流大模型水平，首先在于數(shù)據(jù)的多樣性和高質(zhì)量處理。這是任何一個基礎(chǔ)模型能達到很高水平的根本，V3也不例外。

另一個關(guān)鍵因素是DeepSeek V3的訓(xùn)練效率非常高。它通過模型結(jié)構(gòu)、訓(xùn)練方法和并行策略的聯(lián)合優(yōu)化，提升了訓(xùn)練效率，使其達到較高水平。用幾百萬美元就完成了一個大模型的訓(xùn)練。

具體而言，R1能夠?qū)⒂?xùn)練成本降至如此低的水平，主要依賴兩個方面的優(yōu)化。首先是模型結(jié)構(gòu)，它采用了MoE架構(gòu)（混合專家架構(gòu)），如今幾乎所有一線企業(yè)都在使用MoE，因此這一點并不特別。但是，它采取了一種更優(yōu)的MoE負載均衡策略，提升了MoE訓(xùn)練的效率。另一個關(guān)鍵因素是訓(xùn)練技術(shù)的優(yōu)化：在確定了模型結(jié)構(gòu)后，訓(xùn)練方法本身也結(jié)合了多種策略。首先，它采用了FP8精度運算，而不是傳統(tǒng)的FP16。這一改進使計算效率相比FP16提升了60%以上。在FP8訓(xùn)練過程中，值得特別提到的是，它利用了CUDA PTX的底層代碼優(yōu)化，為FP8訓(xùn)練實現(xiàn)了一種高效的混合精度乘法，這是整個訓(xùn)練流程中最核心的算子之一，對FP8訓(xùn)練效率的提升起到了至關(guān)重要的作用。在這里我想指出的是，商湯的訓(xùn)練效率已經(jīng)與DeepSeek相差不大了。

然后是R1，它選擇了一條獨特且不同于主流的道路：基于結(jié)果監(jiān)督的強化學(xué)習路線。首先，它建立在DeepSeek V3形成的強大基礎(chǔ)能力之上，強化學(xué)習過程本身并不會賦予模型全新的知識或完全前所未有的能力，而是在基礎(chǔ)模型所提供的知識基礎(chǔ)上，使其更容易激發(fā)出完整的推理鏈路。其次，強化學(xué)習之前有個冷啟動（cold-start）階段，這是一個“點火”階段，雖然使用數(shù)據(jù)不多，但是為后續(xù)的強化學(xué)習的走通打下很重要的能力基礎(chǔ)（比如指令跟隨等）。然后是DeepSeek-R1-Zero的強化學(xué)習訓(xùn)練，這是這個技術(shù)路徑的核心創(chuàng)新所在，它確實是有顯著效果的，在內(nèi)外部的交叉驗證中也證實這一點。這里面的關(guān)鍵不是具體強化學(xué)習算法的選型（GRPO），而是證明了在一個強大基模型的基礎(chǔ)上，通過純結(jié)果監(jiān)督的強化學(xué)習能形成可泛化的推理能力。

問：DeepSeek的高效訓(xùn)練是否會顯著降低市場對算力的需求？

林達華：我們內(nèi)部的判斷是算力需求不會下降，主要基于以下幾個觀察：

首先，DeepSeek研發(fā)投入是包含多次實驗試錯尋求最佳技術(shù)方案的。幾百萬美元的訓(xùn)練成本是單次成本，這是我們在估計研發(fā)成本時需要充分考慮的。

其次，RL（強化學(xué)習）路徑的成功已經(jīng)顯現(xiàn)出巨大的價值，我們預(yù)計未來許多機構(gòu)將嘗試大規(guī)模擴展RL訓(xùn)練，這將進一步提高算力需求。更重要的是，整個行業(yè)的競爭態(tài)勢。即便單次訓(xùn)練成本得到了優(yōu)化，并不意味著總成本會下降。因為市場競爭白熱化，效率的優(yōu)化會加快迭代，但不會降低總體需求。

此外，隨著DeepSeek推理能力不斷突破，它帶動了下游應(yīng)用市場的快速擴展。目前，已達到可以與OpenAI同臺競爭的水平。這也導(dǎo)致大量用戶從OpenAI遷移至DeepSeek，但它自身的承載能力有限，難以滿足全部需求。因此，市場上許多國產(chǎn)廠商包括商湯大裝置紛紛上架R1，以支持不斷增長的推理需求。推理市場正呈現(xiàn)供不應(yīng)求、快速增長的態(tài)勢。

綜合這些因素，我們判斷，在可見的2025年內(nèi)，整體算力需求仍將保持增長。

問：大模型未來演進路徑會是什么樣的？

林達華：現(xiàn)在大多數(shù)講述的仍是語言模型的故事，但在真實業(yè)務(wù)場景中，AI需要處理的信息遠不止于語言，而是多模態(tài)數(shù)據(jù)的融合。

現(xiàn)實世界中，無論是閱讀報告、課堂教學(xué)，還是PPT，信息輸入從來都不是單一模態(tài)的，語言只是我們所獲取數(shù)據(jù)的一部分，還有大量圖像、視頻、音頻、傳感器數(shù)據(jù)尚未被充分利用。多模態(tài)仍然是AI發(fā)展的必然方向。隨著多模態(tài)技術(shù)的發(fā)展，AI將從語言模型，演進為推理模型，最終發(fā)展為世界模型。

在推理與理解能力提升的基礎(chǔ)上，下一步的關(guān)鍵方向是智能體。唯有具備完整決策與執(zhí)行能力的AI智能體，才能真正實現(xiàn)商業(yè)價值的閉環(huán)。這類智能體不再局限于提供信息或建議，而是能夠獨立自主地完成各類任務(wù)，以更高效、更智能的方式驅(qū)動業(yè)務(wù)的發(fā)展與創(chuàng)新。

問：多模態(tài)模型技術(shù)門檻到底在哪？它是語言模型的擴展嗎？

林達華：一些人認為多模態(tài)只是語言模型的一個簡單擴展，但實際上，真正意義上的多模態(tài)遠不止于此。

AI從一開始就應(yīng)該具備多模態(tài)感知與理解能力，而不僅僅局限于語言層面。從商業(yè)角度來看，多模態(tài)在真實應(yīng)用場景中的需求已經(jīng)非常明顯。現(xiàn)實中的應(yīng)用場景本就是多模態(tài)的組合，而真正意義上的多模態(tài)，不只是把不同模態(tài)的內(nèi)容轉(zhuǎn)換為語言token進行輸入，它應(yīng)該貫穿整個AI處理流程，從感知、思考到輸出。更重要的是，多模態(tài)模型需要具備記憶能力。這意味要對LLM技術(shù)架構(gòu)徹底重構(gòu)，而不僅僅是對語言模型的簡單擴展。

當前業(yè)內(nèi)普遍討論一個問題：未來1-2年內(nèi)，互聯(lián)網(wǎng)的純語料數(shù)據(jù)將被消耗殆盡。但一個被忽視的重要事實是，我們?nèi)匀粨碛泻Ａ康奶烊淮嬖诘囊曈X數(shù)據(jù)。事實上，我們已經(jīng)看到包括OpenAI等國內(nèi)外一流的模型研發(fā)機構(gòu)正花費巨資，從各個渠道收集視頻數(shù)據(jù)，以用于訓(xùn)練更高級的大模型。

從第一天開始，我們就堅定地認為，多模態(tài)大模型是我們的核心發(fā)展方向。原因在于，天然語言的信息是有缺失的，單一的語言模型無法完整解決業(yè)務(wù)問題。對于多模態(tài)模型，我們設(shè)定了明確的技術(shù)目標，即：強交互能力、強推理能力和長期記憶能力。

其中，多模態(tài)的強推理能力目前具備較高的技術(shù)門檻，因為包括像視頻、圖片這樣數(shù)據(jù)的信息密度跟語言文字的信息密度，完全差得不是一個數(shù)量級。這需要對數(shù)據(jù)進行一個提煉,這是多模態(tài)模型非常關(guān)鍵的地方：怎么樣從大量的冗余里面去提取出里面高密度的關(guān)鍵信息，并且與語言互補的信息結(jié)合來做整個的分析推理等。進行模態(tài)融入的過程，這里面有很多技術(shù)上要去做，記憶過程也有很多工作。

同時，整個過程對基礎(chǔ)設(shè)施和訓(xùn)練系統(tǒng)也提出了很高的要求。在一個訓(xùn)練過程中，Transformer的計算在GPU上面發(fā)生，對答案或者生成代碼的檢驗等的計算很多需要在CPU上面發(fā)生。然后，視覺等模態(tài)的編碼的計算模式也有差異。需要在一個很短的iteration里面，要完成3到5種很不一樣的計算，而且結(jié)果要協(xié)同在一起。要高效完成這樣的訓(xùn)練，需要基礎(chǔ)設(shè)施里面配置不同的計算資源，并且需要有一個高效的系統(tǒng)把不同的計算很好地協(xié)同在一起，以及支持好不同計算單元之間的頻繁通信。

所以基礎(chǔ)設(shè)施需要很強的彈性，能夠有各種不同的資源隨時有彈性地能夠組合在一起，這也是為什么商湯一直在說大裝置跟大模型要緊密結(jié)合發(fā)展，因為如果你不掌握底下的基礎(chǔ)設(shè)施設(shè)計，資源配置肯定是跟計算需求錯配的。

問：大模型是否能賺錢嗎？開源是否會顛覆閉源嗎？

林達華：首先，開源在近年來大模型的發(fā)展中對產(chǎn)業(yè)格局產(chǎn)生了深遠影響。開源不僅改變了全球AI和大模型的產(chǎn)業(yè)格局，還加速了技術(shù)的傳播和普及。其次，開源模型的追趕速度非常快，與頂尖閉源模型的差距正在迅速縮小。

開源的核心優(yōu)勢在于快速傳播——技術(shù)壁壘被打破后，先進成果迅速擴散，例如DeepSeek開源后，同類模型能力可被快速復(fù)現(xiàn)。此外，開源可以讓更多人可以參與到大模型的應(yīng)用創(chuàng)新，加速大模型技術(shù)應(yīng)用探索和普及的進程。

在這種背景下，真正的競爭優(yōu)勢體現(xiàn)在兩個方面：一是與基礎(chǔ)設(shè)施的深度整合，通過軟硬件的垂直整合實現(xiàn)成本優(yōu)勢；二是在特定行業(yè)的縱深發(fā)展，通過工程優(yōu)化、業(yè)務(wù)理解和模型調(diào)優(yōu)，為客戶提供深度的價值。

未來，大模型應(yīng)用將從問答、文本改寫等淺層工具，轉(zhuǎn)向替代行業(yè)中高價值的核心任務(wù)。類似于商湯在AI 1.0時代通過突破人臉識別的工業(yè)紅線，實現(xiàn)了產(chǎn)業(yè)復(fù)制。大模型同樣需要在特定行業(yè)任務(wù)上突破工業(yè)紅線，才能實現(xiàn)規(guī)?；瘧?yīng)用。開源只是技術(shù)價值鏈中的一環(huán)，而非全部。

問：在競爭格局這方面，DeepSeek V3和R1的API的價格，是否有可能帶來新一輪價格戰(zhàn)？

林達華：當前的價格競爭導(dǎo)致按token計費的利潤空間被壓縮至成本線，但長期低價服務(wù)難以持續(xù)。大流量服務(wù)商若持續(xù)低于成本定價，用戶量增長反而加劇虧損，市場終將回歸貼近真實成本的合理區(qū)間。

然而，真正的商業(yè)價值并非來自“按字收費”，而在于能否解決高難度業(yè)務(wù)問題。例如，生成深度行業(yè)報告或自主完成復(fù)雜任務(wù)的能力，其溢價遠高于通用問答。若僅依賴chatbot按token收費，難以支撐持續(xù)研發(fā)投入。

行業(yè)終局取決于大模型能否突破關(guān)鍵領(lǐng)域的“工業(yè)紅線”，形成端到端的價值閉環(huán)。最終我覺得行業(yè)會走到這樣的一個道路上：看大模型給用戶帶來了何種價值。當你依然采用“論斤算錢”的方式收費時，就代表了這個商業(yè)模式還沒有走的很通；而當你真正形成高價值落地的時候，收費必然會依據(jù)所提供服務(wù)本身的價值來確定。

問：在如今的競爭格局下，商湯要走怎樣的路？

林達華：當前，許多公司或團隊選擇基于開源大模型進行一次性微調(diào)，希望在短期內(nèi)獲得市場價值。與以往技術(shù)迭代周期長達十年、二十年不同，如今的AI發(fā)展周期已大幅縮短至三個月。在這樣的節(jié)奏下，單純依賴淺層微調(diào)或工具型產(chǎn)品的商業(yè)利潤空間將極為有限。如果想真正抓住這個時代的紅利，就必須選擇更具挑戰(zhàn)性的方向。

對商湯而言，有兩項關(guān)鍵戰(zhàn)略選擇至關(guān)重要。其一，打造強大的基礎(chǔ)能力，盡管不同機構(gòu)在這一方面的定位可能會有所差異。其二，深耕特定行業(yè)，做出端到端的全鏈條價值，深入理解行業(yè)需求，將每個環(huán)節(jié)做到極致。

去年十月份，商湯公開提出“大裝置、大模型、應(yīng)用”三位一體戰(zhàn)略。這一戰(zhàn)略正是基于AI未來高價值方向的判斷。無論市場如何變化，即使 DeepSeek-R1等新技術(shù)出現(xiàn)，我們依然堅定這一戰(zhàn)略方向，這些新技術(shù)的發(fā)展非但沒有動搖商湯的戰(zhàn)略布局，反而進一步驗證了其高價值定位的必要性：大裝置的支撐，使大模型訓(xùn)練更高效、推理成本更低；提升模型服務(wù)的效率，確保訓(xùn)練和推理能力始終保持在行業(yè)領(lǐng)先水平；模型與業(yè)務(wù)緊密結(jié)合，聚焦關(guān)鍵領(lǐng)域，突破行業(yè)落地的瓶頸，實現(xiàn)高價值商業(yè)變現(xiàn)。

本文系觀察者網(wǎng)獨家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載。
|

舉報
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報制度規(guī)范
確定取消
標簽商湯科技商湯商湯集團 AI大模型大模型 deepseek
- 責任編輯: 湯普濟
- 中興通訊去年研發(fā)投入240億，手機營收增速超40%
  
  2025-02-28 22:23 觀網(wǎng)財經(jīng)-科創(chuàng)
- “瓜子大王”重回增長，高端瓜子建奇功？
  
  2025-02-28 20:33 觀網(wǎng)財經(jīng)-消費
- TikTok追加投資，88億美元！
  
  2025-02-28 19:24 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 夸克AI搜索上線“深度思考”
  
  2025-02-28 19:10 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 三年了，俄羅斯戰(zhàn)時“反制裁經(jīng)濟”的韌性從何而來？
  
  2025-02-28 18:42 觀察者頭條
- 茶咖日報｜光明乳業(yè)與MANNER聯(lián)名上新；中國咖啡市場規(guī)模有望破萬億
  
  2025-02-28 18:23 觀網(wǎng)財經(jīng)-消費
- 零售巨頭聯(lián)手，名創(chuàng)優(yōu)品創(chuàng)始人進入永輝核心決策層
  
  2025-02-28 18:18
- 2月賣地收金179.5億元，杭州土拍也被“六小龍”帶火了
  
  2025-02-28 17:51 觀網(wǎng)財經(jīng)-房產(chǎn)
- Mate70 Pro上線優(yōu)享版：降價300元，性能也略降
  
  2025-02-28 17:22 觀網(wǎng)財經(jīng)-科創(chuàng)
- OpenAI“史上最貴”大模型發(fā)布，定價是DeepSeek的280倍
  
  2025-02-28 16:55 觀網(wǎng)財經(jīng)-科創(chuàng)
- 比爾蓋茨投資的植物肉宣布：暫停中國運營并裁員95%
  
  2025-02-28 16:20
- 即問即答，騰訊元寶即將灰度上線混元Turbo S
  
  2025-02-28 16:05 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 小米15Ultra未漲價，盧偉冰：扛不住了，下代一定要漲
  
  2025-02-28 14:31 觀網(wǎng)財經(jīng)-科創(chuàng)
- 推理模型爆火，阿里國際站拿出了第一個產(chǎn)業(yè)應(yīng)用：做外貿(mào)
  
  2025-02-28 13:00 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 阿里國際站和航運巨頭馬士基宣布深度合作
  
  2025-02-28 10:55 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 國產(chǎn)GPU獨角獸回應(yīng)“裁員20%”：優(yōu)化比例嚴重失實
  
  2025-02-28 10:49 觀網(wǎng)財經(jīng)-科創(chuàng)
- 扣非凈利下降近六成后，燒錢開“大店”能救太平鳥？
  
  2025-02-28 10:43
- 蘋果天貓官方旗艦店首次加入國補
  
  2025-02-28 10:15 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 拉動鴻蒙生態(tài)崛起，唯有中國科技企業(yè)集體沖刺
  
  2025-02-28 07:23 觀網(wǎng)財經(jīng)-科創(chuàng)
- “亮劍”后廚亂象，美團上線“明廚亮灶”專區(qū)
  
  2025-02-27 23:04 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
搜索

   觀察者頭條查看全部

“印巴沖突是敘事之戰(zhàn)，中國裝備重要性凸顯” 評論 103

特朗普故弄玄虛稱“和某大國達成協(xié)議”，就這？評論 152

巴外長證實：殲-10擊落印軍“陣風” 評論 708

美財長：這些嬰童用品從中國進口，考慮降稅評論 159

“荒謬言論”，默茨：我會跟特朗普談?wù)?/a> 評論 62

   風聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

商湯聯(lián)合創(chuàng)始人：DeepSeek不會降低算力需求，長期低價服務(wù)難持續(xù)

中興通訊去年研發(fā)投入240億，手機營收增速超40%

“瓜子大王”重回增長，高端瓜子建奇功？

TikTok追加投資，88億美元！

夸克AI搜索上線“深度思考”

三年了，俄羅斯戰(zhàn)時“反制裁經(jīng)濟”的韌性從何而來？

茶咖日報｜光明乳業(yè)與MANNER聯(lián)名上新；中國咖啡市場規(guī)模有望破萬億

零售巨頭聯(lián)手，名創(chuàng)優(yōu)品創(chuàng)始人進入永輝核心決策層

2月賣地收金179.5億元，杭州土拍也被“六小龍”帶火了

Mate70 Pro上線優(yōu)享版：降價300元，性能也略降

OpenAI“史上最貴”大模型發(fā)布，定價是DeepSeek的280倍

比爾蓋茨投資的植物肉宣布：暫停中國運營并裁員95%

即問即答，騰訊元寶即將灰度上線混元Turbo S

小米15Ultra未漲價，盧偉冰：扛不住了，下代一定要漲

推理模型爆火，阿里國際站拿出了第一個產(chǎn)業(yè)應(yīng)用：做外貿(mào)

阿里國際站和航運巨頭馬士基宣布深度合作

國產(chǎn)GPU獨角獸回應(yīng)“裁員20%”：優(yōu)化比例嚴重失實

扣非凈利下降近六成后，燒錢開“大店”能救太平鳥？

蘋果天貓官方旗艦店首次加入國補

拉動鴻蒙生態(tài)崛起，唯有中國科技企業(yè)集體沖刺

“亮劍”后廚亂象，美團上線“明廚亮灶”專區(qū)

沖突愈演愈烈，莫迪首發(fā)聲

挪威發(fā)布國家安全戰(zhàn)略：美國不可靠，需要跟歐洲抱團

印度兩座水電站已重新開閘

“印巴沖突是敘事之戰(zhàn)，中國裝備重要性凸顯”

夸大對華關(guān)稅效果，她被打假了

突發(fā)！巴稱擊斃約50名印士兵，印稱摧毀巴第二大城市防空系統(tǒng)

彈射座椅大廠泄露了印巴空戰(zhàn)戰(zhàn)損“天機”？

巴總理：關(guān)鍵時刻，感謝“親愛的兄弟”埃爾多安

日本地鐵出現(xiàn)隨機殺人事件，男子揮20厘米菜刀砍傷2人

“斯洛伐克幾分鐘前才被通知…現(xiàn)在知道國際政治是啥了吧”

“俄羅斯要價太高，但...”

烏克蘭議會批準美烏礦產(chǎn)協(xié)議

“特朗普稱要把這改叫阿拉伯灣”，伊朗譴責：我們也沒反對阿拉伯海

巴外長證實：殲-10擊落印軍“陣風”

“中國遠落后于美國的時代已終結(jié)”

“接到指示，美情報機構(gòu)加強搜集力度”

商湯聯(lián)合創(chuàng)始人：DeepSeek不會降低算力需求，長期低價服務(wù)難持續(xù)

商湯聯(lián)合創(chuàng)始人：DeepSeek不會降低算力需求，長期低價服務(wù)難持續(xù)