米国スタートアップDataCebo、生成AIモデル構築&合成データ作成できる“Pythonライブラリ”のエンタープライズ版を発表
DataCeboは、合成データの生成と評価に使用されるオープンソースのPythonライブラリを提供する米国のスタートアップ企業である。同社はSynthetic Data Vault(以下SDV)と呼ばれるオープンソースのライブラリを作成しており、今回SDVのエンタープライズ版を発表した。
合成データ生成ライブラリを提供するスタートアップ
DataCeboは2016年にKalyan Veeramachaneni氏とNeha Patki氏によって創業された企業。両者はともにマサチューセッツ工科大学(MIT)のデータ・トゥ・AIラボ(Data to AI Lab)出身である。
SDVと呼ばれる合成データを生成するためのオープンソースライブラリを作成した同社は、850万ドルのシード資金を調達し、数年をかけてSDVのエンタープライズ版を作り上げたという。
オンプレミスで生成AIモデルを構築
CEOのVeeramachaneni氏は、リレーショナル データベースや表形式のデータベースから合成データを作成できるこの機能が、SDVをほかの生成AI作成ツールと区別するものであると述べている。
同社の仕組みを活用することで、ユーザーはオンプレミスで生成AIモデルを構築でき、その合成データをさまざまなユースケースに使用できるようになるという。そのため、医療、金融サービス、またはテストやモデル構築の目的で機密データを隠すことが不可欠な場合に有効な仕組みであると言える。
また従来、企業側では合成データを手動で作成する必要があったが、これは非常に面倒なプロセスであり、拡張が難しく、エラーが発生しやすかった。
生成AIを活用すれば、必要なデータの種類を記述するだけで、ソフトウェアが実際のデータセットの特性を調べて、機密情報を公開することなくテスト目的のデータを効率的に作り上げることが可能となる。
オープンソース版のダウンロード数は100万件を超え
SDVは非常に人気があり、ダウンロード数は100万件を超え、多くの人々がコミュニティで活発に活動している。そのため、バグや何かがあった場合には、公開オープンソースのユーザーがすぐに見つけて、あらゆる問題に対処することができる状態であるとのこと。
オープンソース版とエンタープライズ版の違いは規模
SDVのオープンソース版とエンタープライズ版の大きな違いは規模である。今回発表されたエンタープライズ版は最大100のテーブルを処理できるが、オープンソースは少数のテーブルのみを処理するように設計されている。これまでのところ、ユーザーは20~30を超えるテーブルにもとづいてモデルを構築してきたという。
同社の従業員数は現在11名だが、事業の成長に応じて来年には20名程度まで増員する予定であり、さらなる事業拡大を目指す構えだ。
参考・引用元:
DataCebo 公式サイト
Synthetic Data Vault
TechCrunch ニュース
(文・よし @yoshibizcom)
ウェブサイト: https://techable.jp/
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。