-
AI時代,OceanBase如何打造新時代數(shù)據(jù)底座?
(文/陳濟深 編輯/張廣凱)
隨著AI時代的不斷發(fā)展進化,卷算力、拼算法已經(jīng)讓大模型廠家拼得頭破血流。然而,想要讓AI變得更強,算法,算力和數(shù)據(jù)三要素上,數(shù)據(jù)反而更容易是成為短板的要素。
螞蟻旗下的OceanBase,找到了自己在AI時代的用武之地。
相比過去傳統(tǒng)標量數(shù)據(jù)庫,AI時代尤其是多模態(tài)大模型需要的不僅是能夠承載向量的數(shù)據(jù)庫,更是一個能夠承載、分析和處理龐大數(shù)據(jù)流動的數(shù)據(jù)管理平臺。
2025年4月,OceanBase CEO楊冰通過全員信宣布公司全面進入AI時代,打造“DATA×AI”核心能力,建設AI時代的數(shù)據(jù)底座。距離上述全員信發(fā)布不到一個月,5月17日,OceanBase舉辦了升級AI戰(zhàn)略后的首次開發(fā)者大會,同時也是OceanBase的第三屆開發(fā)者大會,公布了該公司的更多AI動態(tài)——既發(fā)布了數(shù)款產(chǎn)品,也重申了OceanBase在AI時代背景下的使命和愿景。
AI落地三座大山
隨著生成式AI,尤其是多模態(tài)生成式AI的蓬勃發(fā)展,人類能夠生產(chǎn)的數(shù)據(jù)量呈現(xiàn)爆炸性增長,傳統(tǒng)的數(shù)據(jù)庫開始顯現(xiàn)出它們的短板。數(shù)據(jù)的規(guī)模、結構和處理方式,已經(jīng)超出了傳統(tǒng)數(shù)據(jù)庫的承載能力。
根據(jù)IDC的預測,到2028年,全球新生成的數(shù)據(jù)量將達到驚人的393.9ZB(相當于全球每人每天產(chǎn)生1.5TB數(shù)據(jù))。
更為關鍵的是,在AI時代,單純統(tǒng)計、過濾、排序的標量數(shù)據(jù)庫的局限性愈發(fā)明顯,而基于復雜數(shù)據(jù)分析(相似度計算、推薦系統(tǒng)、圖像搜索)的向量數(shù)據(jù)庫則愈發(fā)重要,導致當結構化、非結構化數(shù)據(jù)并存時,往往需要使用多個數(shù)據(jù)庫來分別處理。這種“多庫并存”的方式,不僅導致管理上的復雜性,還帶來了系統(tǒng)間的互通性問題,增加了數(shù)據(jù)存取的時間和成本。
也就是說,隨著AI時代企業(yè)數(shù)據(jù)爆炸式增長和數(shù)據(jù)形式的愈發(fā)復雜化,AI應用在后臺不僅會大幅消耗企業(yè)的存儲成本和計算資源,傳統(tǒng)數(shù)據(jù)庫也難以同時滿足高速訪問和安全防護的要求。最為關鍵的是,企業(yè)還往往面臨數(shù)據(jù)孤島的現(xiàn)象——各類子系統(tǒng)數(shù)據(jù)互通困難,無法整合。
發(fā)布PowerRAG,提供開箱即用的RAG應用開發(fā)能力
如何解決這些問題,答案并不是簡單Data+AI,即數(shù)據(jù)加上AI算法,兩個部分的簡單疊加。在OceanBase看來,這種做法過于簡化了問題?,F(xiàn)實中,真正需要的是Data × AI,即數(shù)據(jù)與AI深度融合。
在AI應用中,數(shù)據(jù)和模型是互相依賴的。簡單來說,AI不僅僅依賴數(shù)據(jù),更需要依靠一個統(tǒng)一的數(shù)據(jù)庫/數(shù)據(jù)引擎來進行實時計算、優(yōu)化數(shù)據(jù)質量,并為模型提供精準、快速的數(shù)據(jù)支持。只有在數(shù)據(jù)和AI深度融合的基礎上,AI的效能才能最大化。
過去十五年來,誕生于“雙11”海量交易場景的OceanBase,在螞蟻集團的金融場景中不斷磨礪打磨技術,并曾打破Oracle保持9年之久的世界紀錄。
5月17日,OceanBase首次發(fā)布面向AI的應用產(chǎn)品PowerRAG,該產(chǎn)品提供開箱即用的RAG應用開發(fā)能力,是OceanBase面向AI時代的探索之一。
OceanBase CTO楊傳輝介紹稱,傳統(tǒng)RAG應用的常用開發(fā)模式包括組件森林開發(fā)模式、RAG平臺模式等,這些模式存在開發(fā)周期長、維護成本高、灰箱調(diào)試困難、性能難以優(yōu)化等問題。OceanBase PowerRAG提供開箱即用的RAG應用開發(fā)能力,打通應用開發(fā)數(shù)據(jù)層、平臺層、接口層與應用層的全流程,提供Document(文檔)和 Chat(對話)兩個核心API接口,幫助用戶實現(xiàn)文檔知識庫、智能對話、圖像比對、數(shù)據(jù)分析等多種AI應用場景的快速開發(fā)。
楊傳輝進一步表示,PowerRAG是OceanBase在應用層面探索的第一步,未來還將在應用層面、平臺層面不斷突破,并致力于成為AI時代的一體化從,以便應對生成式AI給數(shù)據(jù)基礎設施帶來的技術挑戰(zhàn)。其中,數(shù)據(jù)底座指的是通過一體化的產(chǎn)品、一體化的引擎,同時地處理OLTP、OLAP以及AI的混合負載。
向量性能達業(yè)內(nèi)領先水平,并已實現(xiàn)規(guī)模化落地
大會現(xiàn)場,基于基準測試工具VectorDBBench,OceanBase采用Performamce768D1M測試數(shù)據(jù)集,與業(yè)內(nèi)三款領先的開源向量數(shù)據(jù)庫進行性能跑分測試?!巴ㄟ^這次跑分測試可以看到,OceanBase的向量性能已經(jīng)達到了開源向量數(shù)據(jù)庫業(yè)內(nèi)領先的水平,并且比其他的主流開源向量數(shù)據(jù)庫都要好不少?!睏顐鬏x表示。
面對AI時代的海量數(shù)據(jù),OceanBase還引入BQ量化算法(HNSW+BQ),大幅降低向量場景的內(nèi)存需求;引入針對JSON半結構化數(shù)據(jù)的壓縮能力,降低AI場景中的半結構化數(shù)據(jù)存儲成本。根據(jù)測試結果,在同等召回率與性能的情況下,引入BQ量化算法能夠實現(xiàn)內(nèi)存成本較引入前降低 95%,而在TPC-H 10G數(shù)據(jù)集上,OceanBase的JSON壓縮比可達 MongoDB 的3倍。
此外,OceanBase已具備面向多種數(shù)據(jù)模型的混合檢索能力。在最新版本中,OceanBase混合檢索性能進一步增強,通過豐富的執(zhí)行策略、自研的向量算法庫、內(nèi)核級多?;旌喜樵兊葘崿F(xiàn)更快、更準、更易用的混合檢索。
目前,OceanBase的向量數(shù)據(jù)庫已經(jīng)得到上百家客戶的使用,并已實現(xiàn)規(guī)?;穆涞亍1热?,聯(lián)通軟研院基于OceanBase打造了AI助手,銀泰商業(yè)則基于OceanBase打造了零售業(yè)智能問數(shù)平臺。
推出“共享存儲”,實現(xiàn)TP場景下穩(wěn)定運行對象存儲
為了解決無共享架構在彈性和成本方面的瓶頸問題,OceanBase宣布一體化架構再升級,并在本次會上推出了“共享存儲”產(chǎn)品,該產(chǎn)品能將計算與存儲解耦,以自研一體化架構實現(xiàn)對對象存儲(如Amazon S3、阿里云OSS等)的深度支持。
該產(chǎn)品還能實現(xiàn)對象存儲與事務型數(shù)據(jù)庫(TP,Transactional Processing)的深度集成,所構建的存算一體與分離的多云原生架構,不僅大幅提升云上數(shù)據(jù)存儲的彈性擴展能力,更使TP負載的存儲成本最高降低50%。
據(jù)悉,“共享存儲”產(chǎn)品在云上可被應用于多種業(yè)務場景,包括典型TP、歷史庫及備份庫,時序類業(yè)務、HBase兼容類業(yè)務、流水型業(yè)務系統(tǒng)、OLAP業(yè)務等。
楊傳輝進一步介紹稱,“共享存儲”產(chǎn)品背后蘊含著OceanBase的多項技術突破:一是構建多級緩存架構,有效解決對象存儲的訪問延遲問題;二是自研基于對象存儲的 LSM-Tree引擎并采用深度工程手段,降低對象存儲的I/O壓力;三是通過獨有的持久化緩存彈性伸縮,進一步解決TP場景下熱點數(shù)據(jù)的穩(wěn)定性問題;此外,優(yōu)化對象存儲的訪問全鏈路,確保TP業(yè)務毫秒級響應的穩(wěn)定性。
通過逐一突破這些技術難點,使得OceanBase的云數(shù)據(jù)庫OB Cloud成為目前業(yè)內(nèi)唯一能夠在 TP 場景下穩(wěn)定運行對象存儲的多云原生數(shù)據(jù)庫:在TP負載下,存儲成本最高降低50%;在AP負載下,存儲成本最高可降低為原來的1/10。
與此同時,OceanBase還宣布,OB Cloud正式上線百度云。截止目前,OB Cloud已支持阿里云、華為云、騰訊云、百度云、AWS、Google Cloud 六大主流公有云平臺,全球覆蓋超過100個可用區(qū)。
承接AI時代使命:從一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座演進
IDC軟件市場研究經(jīng)理李凌霄在本次會上表示,預計到2028年全球企業(yè)級數(shù)據(jù)的數(shù)據(jù)量相比2023年整體增長400%以上,年復合增長率約為30.2%。通過生成式AI技術去讓多模態(tài)數(shù)據(jù)產(chǎn)生價值已經(jīng)具備技術可行性,這意味著多模態(tài)數(shù)據(jù)將能為企業(yè)的管理、運營、決策、業(yè)務帶來價值。未來,人們將會大量地產(chǎn)生、存儲和加工多模態(tài)數(shù)據(jù)。
與此同時,AI時代也帶來了新的數(shù)據(jù)難題。于企業(yè)而言,數(shù)據(jù)倉庫的容量已實現(xiàn)質的飛躍,結構化數(shù)據(jù)存儲規(guī)模“突破PB級邁向EB級”成為新常態(tài),這給數(shù)據(jù)存儲、管理與分析帶來嚴峻挑戰(zhàn)。
面對行業(yè)需求,OceanBase正在大膽探索。楊傳輝表示,OceanBase已經(jīng)具備了一定的AI時代數(shù)據(jù)處理能力,如分布式有效應對海量數(shù)據(jù)的存儲計算、多模融合統(tǒng)一處理不同結構數(shù)據(jù)、TP/AP一體化實現(xiàn)混合事務和實時分析處理。但大模型落地產(chǎn)生價值的核心在于數(shù)據(jù)與模型的一體化融合,這也是OceanBase提出的構建Data×AI能力的關鍵。
基于這一能力,OceanBase致力于從一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座演進,通過一套引擎同時支持TP/AP/AI混合負載,支持向量數(shù)據(jù)庫,實現(xiàn)SQL與AI的混合檢索。
作為一款原生分布式數(shù)據(jù)庫,OceanBase原本就具有的企業(yè)級分布式數(shù)據(jù)庫能力,為AI時代的海量數(shù)據(jù)處理分析打下了基礎。對于支持AI應用落地的核心基礎設施比如向量性能、混合檢索等層面,OceanBase也在持續(xù)探索,進一步加強SQL+AI能力。比如,模型上下文協(xié)議(MCP,Model Context Protocol)是最近一款非常流行的技術,通過MCP能把每個產(chǎn)品接入大模型生態(tài)里,OceanBase的OceanBase service和OceanBase的管控工具OCP目前均已實現(xiàn)MCP支持,未來OceanBase也會全面擁抱MCP的大模型生態(tài)。
正如楊冰所言:“面向未來要搭建的不是另外一幢十幾層的高樓大廈,而是要搭建一百層甚至好幾百層的摩天大樓,這時就需要重新構建底層基礎設施,而這也是我們所擅長的,我們也有強烈的被召喚的使命感?!蔽磥淼膽靡欢ㄊ腔贏I的應用,未來的數(shù)據(jù)公司也都會是AI公司?!睏畋€說道:“作為一個數(shù)據(jù)存儲軟件未來要支撐的不僅僅是存和算,還要去支持知識的學習和獲取、支持應用的推理、支持更多的決策?!睘榱烁玫赝七M這些方向,OceanBase定下了四個大方向:一是成為“知識底座”,二是打破“數(shù)據(jù)次元壁”, 三是當AI的“靠譜參謀”, 四是做流量的“沖浪高手”。
而作為AI戰(zhàn)略“一號位”的楊傳輝,針對Data×AI分享了更多細節(jié)。他表示OceanBase正致力于構建能力,面向AI時代推動一體化數(shù)據(jù)庫向一體化數(shù)據(jù)底座的戰(zhàn)略演進。
Data x AI從概念上可以分成兩層:Bring Data to AI和Bring AI to Data。Bring Data to AI,指的是要把數(shù)據(jù)融入大模型里,通過數(shù)據(jù)提升模型準確度,從而提升推理效率并降低推理成本。Bring AI to Data,則分成兩個層次:第一個層次是在數(shù)據(jù)庫里通過類似AI function的方式直接集成大模型的能力;第二個層次是把AI融合到整個數(shù)據(jù)庫,以便提升數(shù)據(jù)庫的可應用性,比如開發(fā)智能知識庫和智能助手等。
此外,在楊傳輝描繪的一體化數(shù)據(jù)底座版圖中,OceanBase希望能夠實現(xiàn)從算力、基礎設施,到平臺層、應用層、交付形態(tài)的全方位布局。他表示:“未來15年一定是一個AI大爆發(fā)的時代,我們也相信隨著AI的應用場景以及來自中國乃至世界的AI場景打磨,OceanBase將成為AI時代的一體化數(shù)據(jù)底座?!?
那么,OceanBase的信心從何而來?對此,楊傳輝表示:首先,Data x AI一體化數(shù)據(jù)底座其實是OceanBase一體化數(shù)據(jù)庫的延伸,它的核心在于能否做好數(shù)據(jù)處理。未來,OceanBase一定會拓展數(shù)據(jù)處理范疇,但是并不會把自己局限在關系數(shù)據(jù)庫的舒適圈里,而是會讓數(shù)據(jù)處理更好地適應AI時代的工作負載。其次,AI時代的應用大爆發(fā)給了OceanBase更大的機會,AI時代的應用一方面需要更多的數(shù)據(jù),另一方面需要混合負載。對于開發(fā)者來說,他們希望在一套引擎里直接通過一條SQL處理所有的工作負載,而一體化和分布式恰好是OceanBase的優(yōu)勢?!敖裉煳铱梢愿嬖V大家,OceanBase的研發(fā)團隊既能做數(shù)據(jù)庫,也能做分布式系統(tǒng),還能做AI的infra。再加上由螞蟻集團技術能業(yè)務場景支持,OceanBase做這件事情是非常順理成章的?!睏顐鬏x表示。他還總結稱:“學AI用AI,學OB用OB。只要大家學好AI、學好OB,我們都能很好地掌握AI時代的數(shù)據(jù)和技術?!?
OceanBase原本是螞蟻集團的一個子部門,后來獨立出來成立單獨的公司。在關系上螞蟻集團就好比是OceanBase的“長輩”,螞蟻集團CTO何征宇也在本次大會現(xiàn)場表示大力支持OceanBase的AI戰(zhàn)略。他說,螞蟻集團將支持OceanBase在金融、醫(yī)療、生活等螞蟻AI的核心場景的突破,支持OceanBase去實踐DataxAI的理念和架構創(chuàng)新,幫助OceanBase進一步攻堅AI關鍵能力。同時,螞蟻集團將繼續(xù)支持OceanBase開源開放,把在Data×AI上的能力逐漸開放給行業(yè),為AGI的夢想添磚加瓦。
- 責任編輯: 陳濟深 
-
雷軍稱小米3nm芯片大規(guī)模量產(chǎn),高通回應
2025-05-20 10:41 觀網(wǎng)財經(jīng)-科創(chuàng) -
東南亞手機五連增后下滑:三星重奪第一,傳音OPPO受挫
2025-05-20 10:06 觀網(wǎng)財經(jīng)-科創(chuàng) -
“三分天下有其一”,是鴻蒙上限?
2025-05-20 08:56 觀網(wǎng)財經(jīng)-科創(chuàng) -
美調(diào)整昇騰有關表述;首個L4級智能體母體發(fā)布;最小自主雙足機器人問世
2025-05-20 08:43 觀網(wǎng)財經(jīng)-科創(chuàng) -
阿里總裁減持109萬股,套現(xiàn)9.73億
2025-05-19 18:51 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
QQ瀏覽器升級為AI瀏覽器,搭載混元和DeepSeek雙模型
2025-05-19 18:29 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
IPO屢戰(zhàn)屢敗,“水牛奶第二股”百菲乳業(yè)仍在“死磕”
2025-05-19 17:29 觀網(wǎng)財經(jīng)-消費 -
鴻蒙折疊電腦發(fā)布,23999元起售
2025-05-19 17:09 觀網(wǎng)財經(jīng)-科創(chuàng) -
小楊哥帶過貨的“香港”月餅,注銷了佛山廠家
2025-05-19 16:41 觀網(wǎng)財經(jīng)-消費 -
傳禾賽科技秘密申請香港上市,此前多次被美列黑名單還遭做空
2025-05-19 16:08 觀網(wǎng)財經(jīng)-科創(chuàng) -
小米:團伙操縱“近萬個賬號”惡意詆毀,案件已告破
2025-05-19 14:41 觀網(wǎng)財經(jīng)-科創(chuàng) -
榮耀澄清退出印度傳言,已準備好推出四款新機
2025-05-19 14:15 觀網(wǎng)財經(jīng)-科創(chuàng) -
雷軍:小米自研SoC芯片采用3nm制程
2025-05-19 11:58 觀網(wǎng)財經(jīng)-科創(chuàng) -
統(tǒng)計局:促進價格合理回升
2025-05-19 11:38 中國經(jīng)濟 -
4月上海房價同比上漲5.9%,各線城市房價同比降幅均收窄
2025-05-19 10:49 觀網(wǎng)財經(jīng)-房產(chǎn) -
海外市場收入增長8%,也沒能拉回敏華控股下行的業(yè)績
2025-05-19 10:23 -
國家統(tǒng)計局:4月份國民經(jīng)濟頂住壓力穩(wěn)定增長
2025-05-19 10:12 中國經(jīng)濟 -
4月70城二手房售價環(huán)比5城上漲:上海、成都、西寧、丹東、贛州
2025-05-19 09:56 觀網(wǎng)財經(jīng)-房產(chǎn) -
-
中美經(jīng)濟,到底誰更需要誰?
2025-05-19 08:49 美國“關稅大棒”
相關推薦 -
最新聞 Hot
-
“中國提出需求,俄方愿保障:就差技術方案了”
-
講個笑話,這就是“全球最大的民主國家”…
-
“G6要告訴美國:要對華施壓,還要被你脅迫,臣妾做不到”
-
“比美國先進20年,但中國稀土業(yè)要居安思?!?/a>
-
黃仁勛:全球一半AI人才都是中國人,根本阻擋不了
-
特朗普要查哈里斯
-
英法加譴責以色列:震驚!再不收手就制裁!
-
雖然祝福拜登,但特朗普該損還是損
-
“全國優(yōu)秀縣委書記”張永寧,任寧德市委書記
-
孫楊退賽
-
特朗普擬對中國起重機加100%稅,“美國這行80年代就黃了”
-
安徽鳳陽鼓樓瓦片大面積滑落,當?shù)赝▓?/a>
-
陳奕迅發(fā)文報平安
-
“特朗普的耳朵成了關鍵戰(zhàn)場”
-
歐盟宣布:英國,“回到世界舞臺”
-
“法國情報部門讓我干預大選,我拒絕了”
-