-
“卷王”階躍星辰又卷出新花樣,但姜大昕的理想道阻且長
-
萬肇生Guanchazhewanxgun
(文/萬肇生 編輯/張廣凱)
近日,“多模態(tài)卷王”階躍星辰,又雙叒叕開源了一款大模型 —— Step1X-3D。
據階躍星辰介紹,3D大模型Step1X-3D是該團隊繼圖像、視頻、語音、音樂等模態(tài)后,在多模態(tài)方向的最新成果。Step1X-3D 模型總參數量達4.8B,其中幾何模塊1.3B,紋理模塊3.5B,通過數據基礎與3D 原生兩階段架構,可生成高保真、可控的3D內容。
Step1X-3D生成的3D模型
同市面上其他3D生成大模型相比,Step1X-3D實現了對超500萬原始數據進行嚴格篩選與處理,建立了包含200萬高質量、標準化的訓練樣本庫,有效克服了行業(yè)數據稀缺與質量參差的瓶頸。Step1X-3D還通過增強型網格-SDF 轉換技術等方法,讓水密幾何轉換成功率提升了20%。
在3D結構及紋理細節(jié)方面,Step1X-3D 采用先進的 3D 原生兩階段架構,解耦幾何與紋理表征。其中,幾何生成模型基于 FLUX MMDiT 結構和 Rectified flow 算法直接對 3D 表示生成進行建模,而紋理生成模型基于預訓練的 Diffusion model,通過單視圖和 3D 幾何信息指導,生成多視角一致的紋理信息。
Step1X-3D 的原生 3D 架構
Step1X-3D的VAE-Diffusion整體架構在設計上與主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,從而能夠無縫引入并應用成熟的 2D 控制技術,比如輕量化的 LoRA 微調。因此用戶可以對生成 3D 資產的多種屬性進行調控,讓創(chuàng)作更精準地符合用戶意圖。
階躍星辰介紹,團隊自建了一個包含110個多樣化測試用例的綜合測試,對該模型進行了評估,結果顯示Step1X-3D 在多項關鍵維度上均表現出色。
不同大模型的圖生3D模型效果對比
其中,在衡量內容與輸入語義一致性的核心指標CLIP-Score上,Step1X-3D 取得了當前所有對比模型中的最高分,為開源社區(qū)提供了極具競爭力的3D生成方案。
綜合來看,Step1X-3D的開源,再一次體現了階躍星辰獨特的發(fā)展路徑。
作為“大模型六小虎”中成立最晚的一個,階躍星辰最初并不被廣泛看好,一度只是被視為大模型的“最后一張船票”。但憑借基座模型的扎實功力和多模態(tài)領域的特色,如今的階躍星辰已然站穩(wěn)腳跟,目前已對外發(fā)布了20多款自研基座模型,并且由于幾乎每個月都在發(fā)布新模型,也被稱為“多模態(tài)卷王”。
至于為什么要堅持多模態(tài)路線,階躍星辰創(chuàng)始人姜大昕近日接受媒體采訪時認為,多模態(tài)正是實現AGI的必經之路。人工智能發(fā)展的過程中,要先有多模態(tài)融合和推理模型,才會有之后成熟的Agent。但當多模態(tài)理解生成一體化技術突破后,它的意義不僅在于改進現有Agent,還會在具身智能泛化和世界模型構建方面帶來全新應用。
值得一提的是,在當下火熱的具身智能賽道,3D數據稀缺正成為最大瓶頸之一,不少具身智能企業(yè)不得不自己研發(fā)從2D到3D的數據生成技術。階躍星辰在3D生成領域的進展,或許也能找到更多的商業(yè)化空間。
不過,從生成3D圖像到構建完整的物理仿真世界,還有很長的路要走。
姜大昕日前坦言,目前多模態(tài)模型還僅僅相當于大語言模型2017年以前的階段。
姜大昕指出,當下的大模型還處于理解和生成兩條路線獨立發(fā)展、互相促進的情況,還沒有突破理解生成一體化。多模態(tài)模型遠未出現類似2017年谷歌“Transformer”級別的突破性框架誕生,“Transformer是2017年出來的,GPT-1是2018年”。
姜大昕指出,理解生成一體化又是一項非常綜合的挑戰(zhàn),不但需要強大的語言和視覺進行理解和推理,還需要有生成能力。這也是為什么階躍星辰一開始就布局非常完整的多模態(tài)路線,包括語音、圖像、視頻、音樂等多個方向。
“每條技術路線都經過幾個月甚至半年的積累才發(fā)布一個模型,只是當你同時看這么多方向時,會覺得我們頻繁發(fā)布新成果”,姜大昕表示,“我們也希望這樣(集中力量攻克理解生成一體化),但不是我們不夠聚焦,而是完成這項任務本身就需要多方面能力的支撐”。
本文系觀察者網獨家稿件,未經授權,不得轉載。
- 責任編輯: 萬肇生 
-
商務部:著力提高退稅商店覆蓋面,擴大入境消費
2025-05-16 14:42 -
具身創(chuàng)企魔法原子再獲數億融資,預期年內訂單破千臺
2025-05-16 14:00 觀網財經-科創(chuàng) -
歷經五次IPO的綠茶餐廳終于上市,但市場并不買賬
2025-05-16 12:50 觀網財經-消費 -
網易大漲超14%;日本醫(yī)療系統(tǒng)重啟傳真機;小米將發(fā)布自研芯片
2025-05-16 08:24 觀網財經-科創(chuàng) -
2025中國社會責任投資高峰論壇:金融的社會價值如何體現?
2025-05-15 22:39 金融觀察 -
雷軍:小米自研手機SoC芯片“玄戒O1”,將于5月下旬發(fā)布
2025-05-15 20:57 觀網財經-科創(chuàng) -
阿里發(fā)布Q4財報,淘天全面超預期
2025-05-15 20:03 觀網財經-互聯網 -
網易Q1凈收入288億元同比增加7.4%,新游戲表現亮眼
2025-05-15 18:35 大公司 -
美國全球封殺華為昇騰芯片?“無理且自大”
2025-05-15 17:36 觀網財經-科創(chuàng) -
美國對華技術限制能成功嗎?“最終慘的是美企”
2025-05-15 16:06 金融觀察 -
昔日“步行街巨頭”真維斯在澳洲破產,中國真維斯加碼電商
2025-05-15 15:44 觀網財經-消費 -
商標轉讓、工廠停工、員工維權……娃哈哈正式回應!
2025-05-15 14:38 觀網財經-消費 -
華為Pura80或延后至6月發(fā)布,博主稱將搭載超大底潛望鏡頭
2025-05-15 13:16 觀網財經-科創(chuàng) -
華為將推出折疊電腦
2025-05-15 10:11 觀網財經-科創(chuàng) -
華強北GPU等報價恢復正常;蘋果擬明年出折疊屏;紫光原董事長一審死緩
2025-05-15 08:40 觀網財經-科創(chuàng) -
中拉熊貓債研討會在京召開,熊貓債是什么?有何作用?
2025-05-14 20:18 -
茶咖日報|廣州一飲品店取名“警茶”引爭議;瀾滄古茶重要人事變動
2025-05-14 19:54 觀網財經-消費 -
被傳上市之際,小馬智行無人駕駛測試車起火
2025-05-14 18:50 產業(yè)萬象 -
加大投放?字節(jié)即夢AI兩天內迅速登頂蘋果中國區(qū)免費榜
2025-05-14 18:21 產業(yè)萬象 -
騰訊一季度財報:營收同比增長13%,AI驅動增長
2025-05-14 17:45 觀網財經-互聯網
相關推薦 -
-
美企急電:快取消越南、印尼訂單,轉回中國 評論 17“無論承認與否,硅谷精英變成‘中國必勝論’擁躉” 評論 66拿中國說事,美高官想攔下這筆交易 評論 90中哥走近,美國又跳出來 評論 58歐盟“更硬”了:稅率得大幅低于中英 評論 232最新聞 Hot
-
美企急電:快取消越南、印尼訂單,轉回中國
-
“無論承認與否,硅谷精英變成‘中國必勝論’擁躉”
-
9500車位、全球最大!首航赴歐洲,“彰顯中國雄心”
-
黃楊鈿甜佩戴高價耳環(huán)引網友質疑,經紀公司回應
-
槍殺安倍嫌犯將于10月首次公審
-
俄烏土耳其談判將安排兩輪對話:土美烏先聊,土俄烏再談
-
特朗普:給F-35加個引擎,叫F-55
-
拿中國說事,美高官想攔下這筆交易
-
中哥走近,美國又跳出來
-
歐盟“更硬”了:稅率得大幅低于中英
-
特朗普點名庫克:忍了蘋果在中國很多年,你居然又往印度跑?!
-
美政府有人不滿:又想拉黑中企,還要不要跟中國談了?
-
“10名干部違規(guī)吃喝1人酒后死亡”被通報,信陽市委表態(tài)
-
歐陽娜娜遭臺當局點名
-
寧波象山縣政府大院“門面寒磣”,網友:這才是應該有的本色
-
“中國伙伴可以用我們的工廠,英國再不支持就晚了”
-