生成AI活用の格差が生まれるインドで、“ヒンディー語対応”の言語モデルを構築。スタートアップのSarvam AIのアプローチ
近年、ChatGPTをはじめとする「生成AI」が世界中で注目を集めている。しかし、生成AIの対応言語は英語であることが多く、英語話者の少ない国では生成AIの活用がはばかられている。
とくに、ヒンディー語を公用語とするインドでは、英語が準公用語であるものの、英語を流暢に話せる人の割合は少ないという。
AIを活用できる人とできない人の格差が生まれるなか、インドの生成AIスタートアップ企業Sarvam AIはヒンディー語対応のオープンソース言語モデルを開発した。
GPT-3.5と同等の言語モデル「OpenHathi」
Sarvam AIは2023年に設立されたばかりの生成AIスタートアップ。「OpenHathi-Hi-0.1」と呼ばれる初のオープンソースのヒンディー語言語モデルをリリースしている。
同モデルは、リーズナブルな価格でGPT-3.5のような性能をヒンディー言語でも取得できるように、計算とデータの制約の下で訓練されたもの。Llama2-7Bの上に構築されており、そのトークナイザーを48Kトークンに拡張するという。
OpenHathi-Hi-0.1の学習プロセスは2段階。最初のフェーズでは、ランダムに初期化されたヒンディー語埋め込みを調整する。2つ目のフェーズではバイリンガル言語モデリング。ここでは、トークン間で言語を超えてモデルをトレーニングする。
なお、OpenHathi-Hi-0.1はテキストと音声の両方に対応しており、今後はインド企業と提携しデータに基づいたAIモデルを構築していく予定だ。
設立から5か月で4,100万ドルを調達
Sarvam AIの設立者のVivek Raghavan氏とPratyush Kumar氏は、以前インド研究機関のAI4Bharatで働いていた。
AI4Bharatは、インド言語のオープンソースモデルやアプリケーションの開発に取り組んでいる。OpenHathi-Hi-0.1の開発に際し、Sarvam AIは同研究室と提携し、言語リソースとベンチマークを活用したという。
2023年12月、Sarvam AIはLightspeedやPeak XV Partners、Khosla Venturesが主導するシリーズAラウンドで4,100万ドルを調達した。設立からわずか5か月での資金調達ということで注目が集まっている。
参考・引用元:Sarvam AI
(文・山田)
ウェブサイト: https://techable.jp/
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。