日韩无码1区伊草在线视频|超碰91人人做人人爱|国产高清无码在线三区|人妻少妇精品视频一区97精品|亚洲AV无码一区二区在线观看|精品黄色视频在线免费观看|亚洲精品无吗在线观看视频|婷婷无码在线激情图区综合网|黄色视频在线观看高清无码免费播放|99热在线观看国产色视频

中國Token出?;菁皷|南亞本土語言模型

分享到:

中國Token出海惠及東南亞本土語言模型

2026年04月20日 13:28 來源:中國新聞網
大字體
小字體
分享到:

  中新網北京4月20日電(左登基) “海獅說到了我心里?!?/p>

  一位在新加坡工作的外籍工作人員,在飽嘗西方人工智能(AI)大模型的苦頭后,轉而投向本土語言模型。

  他口中的這只海獅,并非水里的那個萌物,而是一款新加坡政府重金打造的國家級大語言模型項目SEA-LION。

  而這個項目的基座模型,正是來自中國的阿里通義千問。截至4月15日,在最新的東南亞語言模型榜單上,這款中國模型保持領跑,在印尼語、馬來語、泰語、越南語等排行榜上更是高居榜首。

  不過,這件事頗具戲劇性。這個旨在服務東南亞7億人口的國家級AI項目,起初用的卻是西方模型,結果鬧出了將委內瑞拉列為東盟成員國這類低級笑話。

  這荒誕的一幕,暴露出一個深層問題:7億東南亞人口,困在了AI的語言圍墻里。

  在這里,本地語言多達1200余種,而主流模型中東南亞語言內容占比,一度只有0.5%。

  如,當年風靡一時的美國開源模型Llama2,幾乎是東南亞文盲,印尼語、泰語、緬甸語這類非拉丁語系文字,處理效率低得驚人。

  當地人意識到,靠英語語料訓練的西方模型,此路不通。

  新加坡政府率先發(fā)力,于2023年12月投入7000萬新元(約合3.81億元人民幣),啟動國家級多模態(tài)大模型計劃,旨在發(fā)展東南亞自己的語言模型。

  破局的關鍵,要從詞元(Token)說起。它是AI處理信息的最小計量單位。

  通俗地說,AI能否準確理解某種語言,取決于訓練時喂進去的語料多少,也就是詞元量。

  西方模型之所以水土不服,根源就在于東南亞語言詞元喂得太少。

  畢竟,語言與文化相連,調性也大不相同。如,菲律賓語對部分詞語就會有一些委婉的表達方式,語料喂得不足,大模型根本讀不懂其真正含義。

  變化發(fā)生于一次關鍵的技術轉向。2025年11月,海獅宣布棄用Llama架構,改用中國的阿里通義千問作為最新版本的旗艦基座模型。

  該模型之所以能作為官方唯一的旗艦基座,是由于它很能打,在預訓練階段使用的詞元規(guī)模就高達36萬億,覆蓋全球119種語言和方言。

  這意味著,它不是后天補習東南亞語言,而是從底層就懂亞洲語境,不僅認識印尼語、馬來語等文字,更能從底層理解其語法結構。

  不僅如此,中國企業(yè)還特別參與了后訓練階段,為海獅額外補充了超過1000億詞元的東南亞語種訓練。

  在評估環(huán)節(jié),開發(fā)團隊還特別邀請母語者參與數據質量評估,并為外籍工作人員部署了母語聊天機器人。

  效果立竿見影。2025年11月,基于中國大模型的海獅V4一經推出,就在東南亞語言模型榜單中登頂。

  這一轉向,也折射出一場全球范圍內的詞元大遷移。

  據全球AI模型API聚合平臺OpenRouter數據,2026年4月第一周,中國AI大模型周調用量連續(xù)五周超越美國,最新一周達12.96萬億詞元,約為美國的4.27倍。更可觀的是,全球調用量的前六名,都是中國模型。

  中國詞元出??此茩M空出世,實則是厚積薄發(fā)的必然。

  國研新經濟研究院創(chuàng)始院長朱克力在接受三里河采訪時認為,Token出海本質是中國智能算力、模型技術與智能服務體系的全球化輸出,是我國人工智能產業(yè)從本土應用邁向國際競爭的重要標志,長遠看是中國新質生產力對外開放的關鍵路徑,將穩(wěn)步打造全球智能價值輸出新格局。

  語言不通的數字圍墻,如今正被詞元一寸寸擊穿。而中國AI,率先邁出了第一步。

【編輯:付子豪】
發(fā)表評論 文明上網理性發(fā)言,請遵守新聞評論服務協議
本網站所刊載信息,不代表中新社和中新網觀點。 刊用本網站稿件,務經書面授權。
未經授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。
Copyright ©1999-2026 chinanews.com. All Rights Reserved

評論

頂部