ペンシルベニア州立大、AIライターの書いた文章を見分ける検出モデル!
チャットによる顧客対応やニュース記事の生成を担うAIライターは、有用な反面、悪用されるリスクもある。自然言語ジェネレーター(NLG)が高度化するにつれて、こうしたリスクが高まることから、ペンシルベニア州立大学の研究者らは、AIライターの書いた文章を判定する技術を開発しようとしている。
研究者らは8種類の最先端NLGを分析し、マシン分類子によって検出できるかどうかを確かめた。各ジェネレーターの文章作成スタイルを知ることで、セキュリティの脅威に備えるのが目的だ。
検出モデルを開発しマシン分類子を特定
研究者らは複数の検出モデルを開発し、人間のライター1人と8種類のNLG(CTRL、GPT、GPT2、GROVER、XLM、XLNET、PPLM、FAIR)の書いた文章を分析している。
最近発行された1000本以上の政治ニュースのタイトルとコンテンツを収集。各ジェネレーター同じ条件のもと、タイトルとプロンプト入力により記事を生成した。
検出モデルによって、まず文章が人間によるものかNLGによるものかを判別できるかどうかをテスト。次に各検出モデルの機能を分析して、文章がどのNLGによるものかをマシン分類子から見分けようとした。
AIによる文章は単語数と特徴から判別できた
一連のテストからはNLGはまだ、人間と区別がつかないほどのレベルに到達していないことが判明。ほとんどのジェネレーターは、文章の単語数と特徴を調べるだけで、AIによって書かれたものだと判別できた。
ただし、GROVER、GPT-2、FAIRといったNLGは、すべてのテストで判別の難易度が高く、しばしばマシン分類子による検出がむつかしかったという。
GPT-3含め、より洗練されたNLGの登場により、AIライターの生成した文章の判別は今後さらにむつかしくなると予想され、研究者らは検出モデルの改善を目指す。
参照元:Researchers test detection methods for AI-generated content/ Penn State News
ウェブサイト: https://techable.jp/
- ガジェット通信編集部への情報提供はこちら
- 記事内の筆者見解は明示のない限りガジェット通信を代表するものではありません。