中國Token出海惠及東南亞本土語言模型

2026年04月20日 13:28　來源：中國新聞網

大字體

小字體

分享到：

　　中新網北京4月20日電(左登基) “海獅說到了我心里?！?/p>

　　一位在新加坡工作的外籍工作人員，在飽嘗西方人工智能(AI)大模型的苦頭后，轉而投向本土語言模型。

　　他口中的這只海獅，并非水里的那個萌物，而是一款新加坡政府重金打造的國家級大語言模型項目SEA-LION。

　　而這個項目的基座模型，正是來自中國的阿里通義千問。截至4月15日，在最新的東南亞語言模型榜單上，這款中國模型保持領跑，在印尼語、馬來語、泰語、越南語等排行榜上更是高居榜首。

　　不過，這件事頗具戲劇性。這個旨在服務東南亞7億人口的國家級AI項目，起初用的卻是西方模型，結果鬧出了將委內瑞拉列為東盟成員國這類低級笑話。

　　這荒誕的一幕，暴露出一個深層問題：7億東南亞人口，困在了AI的語言圍墻里。

　　在這里，本地語言多達1200余種，而主流模型中東南亞語言內容占比，一度只有0.5%。

　　如，當年風靡一時的美國開源模型Llama2，幾乎是東南亞文盲，印尼語、泰語、緬甸語這類非拉丁語系文字，處理效率低得驚人。

　　當地人意識到，靠英語語料訓練的西方模型，此路不通。

　　新加坡政府率先發(fā)力，于2023年12月投入7000萬新元(約合3.81億元人民幣)，啟動國家級多模態(tài)大模型計劃，旨在發(fā)展東南亞自己的語言模型。

　　破局的關鍵，要從詞元(Token)說起。它是AI處理信息的最小計量單位。

　　通俗地說，AI能否準確理解某種語言，取決于訓練時喂進去的語料多少，也就是詞元量。

　　西方模型之所以水土不服，根源就在于東南亞語言詞元喂得太少。

　　畢竟，語言與文化相連，調性也大不相同。如，菲律賓語對部分詞語就會有一些委婉的表達方式，語料喂得不足，大模型根本讀不懂其真正含義。

　　變化發(fā)生于一次關鍵的技術轉向。2025年11月，海獅宣布棄用Llama架構，改用中國的阿里通義千問作為最新版本的旗艦基座模型。

　　該模型之所以能作為官方唯一的旗艦基座，是由于它很能打，在預訓練階段使用的詞元規(guī)模就高達36萬億，覆蓋全球119種語言和方言。

　　這意味著，它不是后天補習東南亞語言，而是從底層就懂亞洲語境，不僅認識印尼語、馬來語等文字，更能從底層理解其語法結構。

　　不僅如此，中國企業(yè)還特別參與了后訓練階段，為海獅額外補充了超過1000億詞元的東南亞語種訓練。

　　在評估環(huán)節(jié)，開發(fā)團隊還特別邀請母語者參與數據質量評估，并為外籍工作人員部署了母語聊天機器人。

　　效果立竿見影。2025年11月，基于中國大模型的海獅V4一經推出，就在東南亞語言模型榜單中登頂。

　　這一轉向，也折射出一場全球范圍內的詞元大遷移。

　　據全球AI模型API聚合平臺OpenRouter數據，2026年4月第一周，中國AI大模型周調用量連續(xù)五周超越美國，最新一周達12.96萬億詞元，約為美國的4.27倍。更可觀的是，全球調用量的前六名，都是中國模型。

　　中國詞元出?？此茩M空出世，實則是厚積薄發(fā)的必然。

　　國研新經濟研究院創(chuàng)始院長朱克力在接受三里河采訪時認為，Token出海本質是中國智能算力、模型技術與智能服務體系的全球化輸出，是我國人工智能產業(yè)從本土應用邁向國際競爭的重要標志，長遠看是中國新質生產力對外開放的關鍵路徑，將穩(wěn)步打造全球智能價值輸出新格局。

　　語言不通的數字圍墻，如今正被詞元一寸寸擊穿。而中國AI，率先邁出了第一步。

【編輯:付子豪】

發(fā)表評論文明上網理性發(fā)言，請遵守新聞評論服務協議

換一批

中國Token出?；菁皷|南亞本土語言模型