-
阿里、Kimi推理大模型集中發(fā)布,實(shí)際效果卻……
-
張廣凱13764468101
28日,阿里通義千問(wèn)推出了自己的數(shù)學(xué)推理大模型——QwQ-32B-Preview。這是繼Kimi之后,近期第二款對(duì)標(biāo)OpenAI o1系列的推理大模型。
據(jù)介紹,QwQ-32B-Preview包含325億個(gè)參數(shù),能夠處理最長(zhǎng)32000個(gè)tokens的提示詞,在GPQA測(cè)試中的評(píng)分為 65.2%,展示了研究生水平的科學(xué)推理能力。在AIME和MATH基準(zhǔn)測(cè)試中,它的表現(xiàn)優(yōu)于OpenAI的兩個(gè)推理模型o1-preview和o1-mini。
并且,QwQ-32B-Preview在更加寬松的Apache 2.0許可證下“公開(kāi)”可用,這意味著它可以用于商業(yè)用途。
此前的11月16日,在Kimi正式上線一周年之際,月之暗面發(fā)布了最新數(shù)學(xué)模型k0-math。宣稱在中考、高考、考研以及入門(mén)競(jìng)賽題MATH等4個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中,可以超越OpenAI o1-mini和o1-preview。
那么這兩個(gè)國(guó)產(chǎn)推理大模型的實(shí)際能力究竟如何?
值得一提的是,通義官方在QwQ的介紹文章中,首先提到的并不是其性能,而是自己的局限性。文章指出,作為預(yù)覽版本,QwQ-32B-Preview 展現(xiàn)了令人期待的分析能力,同時(shí)也存在以下局限:
1.語(yǔ)言切換問(wèn)題:模型可能在回答中混合使用不同語(yǔ)言,影響表達(dá)的連貫性。
2.推理循環(huán):在處理復(fù)雜邏輯問(wèn)題時(shí),模型偶爾會(huì)陷入遞歸推理模式,在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力,但可能導(dǎo)致冗長(zhǎng)而不夠聚焦的回答。
3.安全性考慮:盡管模型已具備基礎(chǔ)安全管控,但仍需要進(jìn)一步增強(qiáng)。它可能產(chǎn)生不恰當(dāng)或存在偏見(jiàn)的回答,且與其他大型語(yǔ)言模型一樣,可能受到對(duì)抗攻擊的影響。我們強(qiáng)烈建議用戶在生產(chǎn)環(huán)境中謹(jǐn)慎使用,并采取適當(dāng)?shù)陌踩雷o(hù)措施。
4.能力差異:QwQ-32B-Preview 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色,但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專業(yè)程度而波動(dòng)。我們正通過(guò)持續(xù)優(yōu)化,努力提升模型的綜合能力。
上述文章指出,“QwQ 既展現(xiàn)出能力,又保持著謙遜;既積累知識(shí),又永遠(yuǎn)對(duì)未知充滿好奇?!痹诳磻T了自吹自擂的商業(yè)通稿之后,通義的這種謙遜態(tài)度已經(jīng)足以眼前一亮。
于是我們拿幾個(gè)問(wèn)題實(shí)際測(cè)試了上述兩個(gè)模型的能力。
首先是出自今年高考全國(guó)卷的一個(gè)數(shù)學(xué)題:當(dāng)x∈[0,2π]時(shí),曲線y=sinx與y=2sin(3x-π/(6))的交點(diǎn)個(gè)數(shù)有幾個(gè)?
面對(duì)這種非常標(biāo)準(zhǔn)化的問(wèn)題,QwQ和k0-math都表現(xiàn)不錯(cuò),給出了正確的答案:6個(gè)。
而且,兩者都體現(xiàn)出了推理大模型的一個(gè)重要能力——自我反思。
在解題過(guò)程中,它們首先嘗試了代數(shù)方法,把問(wèn)題轉(zhuǎn)化為求解方程sinx=2sin(3x-π/(6))。但發(fā)現(xiàn)這個(gè)方程非常難解之后,又推翻了最初的方法,轉(zhuǎn)而尋求幾何方法來(lái)解題。
上圖是k0-math,下圖是QwQ的思考過(guò)程
在用幾何方法走通之后,兩個(gè)大模型也都絞盡腦汁,用代數(shù)方法重新求解,并得到了正確答案。k0-math甚至在解題之后還檢查了一遍。
可以看到,在純粹的數(shù)學(xué)能力上,兩個(gè)模型至少都達(dá)到了普通人的水平。
不過(guò)正如通義文章中所說(shuō),隨著問(wèn)題的復(fù)雜度和專業(yè)性提高,它們的表現(xiàn)還不盡如人意。
不久之前,我們?cè)?jīng)拿一個(gè)用車(chē)成本的問(wèn)題測(cè)試過(guò)幾個(gè)大模型的邏輯能力,這次我們不妨再試一次。問(wèn)題如下:分析樂(lè)道L60車(chē)輛采用BaaS方案下的每年用車(chē)成本,BaaS方案和電池買(mǎi)斷方案哪個(gè)更劃算。
這個(gè)問(wèn)題既涉及到BaaS方案本身的復(fù)雜性,而且由于問(wèn)題表述相對(duì)模糊,更考驗(yàn)大模型像人一樣理解問(wèn)題的能力。
這次,兩個(gè)模型也都不同程度上翻車(chē)了。
首先,k0-math基本正確給出了計(jì)算方式,但是在具體每項(xiàng)成本的計(jì)算上使用了英里和美元作為單位,具體價(jià)格也僅為假設(shè),而不是像Kimi探索版那樣通過(guò)搜索獲得準(zhǔn)確價(jià)格。
這體現(xiàn)出k0-math和Kimi探索版的鮮明區(qū)別——雖然強(qiáng)化邏輯,但或許是出于降低成本而弱化了搜索能力。
QwQ卻在邏輯上也存在瑕疵。
從上圖可以看到,QwQ很“貼心”地考慮了貸款購(gòu)車(chē)的情況,給出了5年分期方案。不過(guò)這個(gè)簡(jiǎn)單的單利貸款的月供問(wèn)題,QwQ卻算錯(cuò)了。
而在最后的匯總環(huán)節(jié),QwQ又把全款購(gòu)車(chē)費(fèi)用和貸款月供進(jìn)行了重復(fù)計(jì)算,極大高估了總體用車(chē)成本。
目前看來(lái),所謂推理大模型,主要還是依賴于兩種算法的加強(qiáng)——對(duì)復(fù)雜問(wèn)題的拆分,以及通過(guò)反思來(lái)檢查。但想要真正具有人類一樣的推理能力,僅有這兩個(gè)原則性方法還是遠(yuǎn)遠(yuǎn)不夠的,仍然需要產(chǎn)品層面的進(jìn)一步完善。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 大模型- 責(zé)任編輯: 張廣凱 
-
-
中鐵建投資集團(tuán)副總經(jīng)理馬建軍墜樓
2024-11-28 13:48 -
-
事關(guān)中企10億美元鋰礦項(xiàng)目,有最新消息
2024-11-28 12:41 海外投資 -
美國(guó)兩大PC巨頭股價(jià)同時(shí)崩盤(pán),怎么回事?
2024-11-28 10:49 大公司 -
前實(shí)習(xí)生篡改代碼攻擊公司模型訓(xùn)練,字節(jié)跳動(dòng)起訴索賠802萬(wàn)
2024-11-28 10:22 -
美國(guó)政府對(duì)英特爾補(bǔ)貼“縮水”至79億美元
2024-11-28 09:30 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
中國(guó)5G智能工廠,何以讓國(guó)外廠商驚嘆?
2024-11-27 17:20 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
霸王茶姬加速出海,即將攻入美國(guó)市場(chǎng)
2024-11-27 16:34 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
劉尚希:中央財(cái)政支出比例應(yīng)提高到30%以上
2024-11-27 15:48 -
滬指漲超1%重回3300點(diǎn),谷子經(jīng)濟(jì)概念股持續(xù)爆發(fā)
2024-11-27 15:15 金融觀察 -
許家印又被采取限制消費(fèi)措施,股票繼續(xù)停牌
2024-11-27 14:00 觀網(wǎng)財(cái)經(jīng)-金融 -
順豐登陸港股,前三季度營(yíng)收超2000億
2024-11-27 13:21 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
英偉達(dá)被曝將在華推出閹割版5090顯卡
2024-11-27 12:51 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
A股深V翻紅,個(gè)股跌多漲少
2024-11-27 12:43 觀網(wǎng)財(cái)經(jīng)-金融 -
小米在武漢新建智能家電工廠,一期聚焦家用空調(diào)
2024-11-27 12:05 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
Sora突遭泄露,OpenAI急“拔網(wǎng)線”
2024-11-27 12:02 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
酷狗回懟網(wǎng)易云音樂(lè):DIY功能不是我先做的么?
2024-11-27 11:10 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
1-10月份全國(guó)規(guī)模以上工業(yè)企業(yè)利潤(rùn)同比下降4.3%
2024-11-27 10:03 宏觀經(jīng)濟(jì)
相關(guān)推薦 -
-
“斷供”陰影下,國(guó)產(chǎn)操作系統(tǒng)的破局時(shí)刻 評(píng)論 25“印巴沖突是敘事之戰(zhàn),中國(guó)裝備重要性凸顯” 評(píng)論 152特朗普故弄玄虛稱“和某大國(guó)達(dá)成協(xié)議”,就這? 評(píng)論 160巴外長(zhǎng)證實(shí):殲-10擊落印軍“陣風(fēng)” 評(píng)論 714美財(cái)長(zhǎng):這些嬰童用品從中國(guó)進(jìn)口,考慮降稅 評(píng)論 159最新聞 Hot
-
100多架飛機(jī)大戰(zhàn)后,印巴局勢(shì)怎么走?
-
美國(guó)又炒作,我駐古巴大使發(fā)文駁斥
-
美英談成了,“英國(guó)讓步”
-
沖突愈演愈烈,莫迪首發(fā)聲
-
“美國(guó)在歐洲的廣泛軍事存在并不是必然的"
-
印度兩座水電站已重新開(kāi)閘
-
“印巴沖突是敘事之戰(zhàn),中國(guó)裝備重要性凸顯”
-
夸大對(duì)華關(guān)稅效果,她被打假了
-
突發(fā)!巴稱擊斃約50名印士兵,印稱摧毀巴第二大城市防空系統(tǒng)
-
彈射座椅大廠泄露了印巴空戰(zhàn)戰(zhàn)損“天機(jī)”?
-
巴總理:關(guān)鍵時(shí)刻,感謝“親愛(ài)的兄弟”埃爾多安
-
日本地鐵出現(xiàn)隨機(jī)殺人事件,男子揮20厘米菜刀砍傷2人
-
“斯洛伐克幾分鐘前才被通知…現(xiàn)在知道國(guó)際政治是啥了吧”
-
“俄羅斯要價(jià)太高,但...”
-
烏克蘭議會(huì)批準(zhǔn)美烏礦產(chǎn)協(xié)議
-
“特朗普稱要把這改叫阿拉伯灣”,伊朗譴責(zé):我們也沒(méi)反對(duì)阿拉伯海
快訊- 特朗普:美國(guó)與烏克蘭達(dá)成稀土協(xié)議
- 中國(guó)國(guó)家電影局與俄羅斯文化部簽署電影合作文件
- 美英談成了,“英國(guó)讓步”
- 100多架飛機(jī)大戰(zhàn)后,印巴局勢(shì)怎么走?
- 狂飆不停!淘寶閃購(gòu)上線以來(lái),超1500家品牌在餓了么生意刷新歷史峰值
- 以投資者為本,探索優(yōu)化主動(dòng)權(quán)益類基金收費(fèi)機(jī)制,促進(jìn)行業(yè)高質(zhì)量發(fā)展
- 古文字學(xué)泰斗裘錫圭逝世,享年90歲
- 本科生已發(fā)14篇SCI,由其教授父親掛名?重慶大學(xué)通報(bào)
-