iKala、繁体字中国語LLM検証セット「TMMLU+」発表|台湾特有の言語・文化をカバー

近年は生成AIテクノロジーの台頭により、さまざまな国が自国の言語に対応する大規模言語モデル(LLM)の開発に取り組んでいる。

今年7月には、タイの多角経営グループであるDTGOが香港のAIソフトウエア企業SenseTimeと提携し、タイ語、中国語、英語の3か国語に対応するLLM「DTLM(DTGO Large Language Model)」の開発を発表した。

アジア圏でのLLM開発が盛り上がりを見せるなか、台湾でも多くの企業が繁体字中国語LLMの開発を進めている。こうした背景を受け、台湾発のAIソリューションプロバイダーであるiKalaは、新たな繁体字中国語検証セット「TMMLU+」を発表した。

LLMの精度とローカリゼーションを向上させる「TMMLU+」

中国語の字体には「簡体字」と「繁体字」の2種類がある。

簡体字は、従来の複雑な漢字を簡略化した字体。中国本土、シンガポール、マレーシアなどで使用されている。いっぽう繁体字は従来、漢字文化圏で使用されてきた伝統的な字体だ。台湾のほか香港、マカオなどでも用いられている。

台湾市場ではこの繁体字に対応した言語モデルの需要が高まっており、さまざまな企業が同モデルの開発に着手しているという。

しかし、台湾には「8+9(不良を意味するスラング)」や「北車(台北駅の略称)」などの単語や、独自の文化が存在する。AIによる生成結果をより正確なものにするためには、LLMの構築プロセス中に検証セットで調整する必要がある。

そこで昨年10月、iKalaは繁体字中国語検証セットであるTMMLU+の開発を開始した。

台湾の言語・文化をカバーする設計

TMMLU+は、MediaTekが発表したフレームワーク「TMMLU」をベースに作られている。iKalaのAIチームはソーシャルメディア上のデータを活用してフレームワークを拡張し、よりローカルな台湾の言語と文化の背景をカバーするように設計した。

この拡張により、TMMLU+は繁体字特有の言語的な文脈や表現をより反映できるようになった。なおTMMLU+はオープンソース化されており、地元企業がより現地のニーズに近い繁体字中国語LLMを開発する際の検証ツールとして大いに役立つだろう。

権威あるAI組織から正式に承認を受ける

iKalaはTMMLU+の発表に伴い、TMMLU+がAI言語モデルに関する学術会議であるCOLM(Conference on Language Modeling)から正式に承認されたことも明かした。COLMはDeepMind、Meta、Microsoft、Ivy Leagueといった機関の著名な学者によって共同設立された、信頼性の高いAI組織だ。

TMMLU+は今年の春に審査に提出され、多くの論文の審査過程で上位10%以内の高スコアを獲得。世界の競合他社から一歩抜きん出た存在となった。

AIソリューションを手がけるiKala

Image Credits:iKala

2011年に設立されたiKalaは、AIソリューションを手がけるグローバル企業。AI主導のクラウドサービスとマーケティングテクノロジーを提供し、企業の業務効率化と顧客とのコミュニケーション強化を支援している。本社は台北だが、2021年には日本支社iKala Japanを東京に開設した。

iKalaのソリューションとSaaS製品は7か国で展開中。「Fortune 500企業」を含む1000以上の企業やブランドのビジネスに変革をもたらしている。

今回、iKalaが発表したTMMLU+はすでに多くの台湾企業に採用されており、台湾のテクノロジー業界に信頼性の高いベンチマークを確立しているという。

参考・引用元:
iKala
iKala News
PR Newswire

(文・Haruka Isobe)

  1. HOME
  2. デジタル・IT
  3. iKala、繁体字中国語LLM検証セット「TMMLU+」発表|台湾特有の言語・文化をカバー
Techable

Techable

ウェブサイト: https://techable.jp/

  • ガジェット通信編集部への情報提供はこちら
  • 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。