中國(guó)科研機(jī)構(gòu)主導(dǎo)的大模型成果登《Nature》
中新網(wǎng)北京1月29日電 (記者 陳杭)記者29日從北京市科委、中關(guān)村管委會(huì)獲悉,智源多模態(tài)大模型成果“Multimodal learning with next-token prediction for large multimodal models(通過(guò)預(yù)測(cè)下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型)”28日上線國(guó)際頂級(jí)學(xué)術(shù)期刊Nature,預(yù)計(jì)2月12日紙質(zhì)版正式刊發(fā),這是我國(guó)科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在Nature正刊發(fā)表。
2018年以來(lái),GPT采用“預(yù)測(cè)下一個(gè)詞元”的自回歸路線,實(shí)現(xiàn)了語(yǔ)言大模型重大突破,開(kāi)啟了生成式人工智能浪潮。
而多模態(tài)模型主要依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等專門(mén)路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài),一直是未解之謎。
智源這項(xiàng)成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,對(duì)于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。
Nature編輯點(diǎn)評(píng)這項(xiàng)研究:智源提出的Emu3僅基于預(yù)測(cè)下一個(gè)詞元,實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門(mén)路線相當(dāng),這一成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。
據(jù)介紹,智源Emu系列模型自2022年啟動(dòng)研發(fā)以來(lái),圍繞“原生多模態(tài)”這一核心技術(shù)主線持續(xù)迭代,每一個(gè)版本均在關(guān)鍵能力與方法論上實(shí)現(xiàn)突破。下一步,智源將繼續(xù)圍繞智能與物理世界的深層關(guān)聯(lián),推進(jìn)面向下一代人工智能的科研創(chuàng)新。(完)
社會(huì)新聞精選:
- 2026年01月29日 20:14:24
- 2026年01月29日 14:59:14
- 2026年01月29日 11:27:13
- 2026年01月29日 11:08:26
- 2026年01月29日 10:41:58
- 2026年01月29日 10:15:02
- 2026年01月29日 09:18:15
- 2026年01月29日 06:02:01
- 2026年01月29日 05:47:27
- 2026年01月29日 05:37:15




































京公網(wǎng)安備 11010202009201號(hào)