2023年12月28日

大規模言語モデル(LLM)をシステムに組み込む際に注意したい課題

カテゴリー:システム開発, ソリューション, テクノロジー, ユースケース

タグ:AI, ChatGPT, DX, システム開発, プロジェクト管理

Knowledge_seci_model

ChatGPTに代表される大規模言語モデル(LLM)が多数登場しています。API公開されているので、システムに組み込んで利用したいと考える方も多いでしょう。しかし、LLMをシステムに組み込む際には、いくつかの課題があります。

この記事ではそうした課題を整理し、LLMをシステムに組み込む際に注意したい点をまとめます。

ハルシネーション

ハルシネーションは幻覚的な応答や誤情報の生成を意味します。LLM自体は文脈を理解している訳ではなく、前後の流れから次の単語を予測しているだけです。そのため、LLMは文脈に沿わない応答を生成することがあります。

また、多くの場合において「分からない」という応答はしません。何らかの、それっぽい回答を生成します。その中には間違った情報が含まれることもあり、サービス利用者に対して誤情報を提供する可能性があります。

参考: 「正答率62.5%→94.1%」に改善も…三豊市 “チャットGPT” を使ったゴミ出し案内 実証実験の結果、導入を断念【香川】 | TBS NEWS DIG

データプライバシーとセキュリティ

LLMは、大量のデータを学習しています。そのデータには、個人情報や機密情報が含まれている可能性があります。そのため、LLMを利用する際には、データプライバシーとセキュリティに注意する必要があります。

ChatGPTなどがベースにしているデータはオンライン上のパブリックなものとされていますが、チューニングなどで追加学習する場合には注意が必要です。社内データを学習させる際には、データが外部や権限を越えて出力されないよう、注意して扱う必要があるでしょう。

データの所有権

画像生成AIで度々話題に上がるのが著作権です。学習データに個人の所有物が含まれている場合、生成されたデータを利用することで著作権違反につながる可能性があります。

また、プログラミングコードにおいてもライセンスの問題があります。学習データにオープンソースのコードが含まれている場合、生成されたコードを利用することでライセンス違反につながる可能性があります。GPLなどのライセンスを含むデータを学習させる場合には、注意が必要です。

参考: AIが生成した文章やイラストの著作権はどうなる?著作権侵害にあたるか、弁護士が解説! | Authense法律事務所

インテグレーションの複雑さ

ChatGPTなどではAPIを公開していますが、それをシステムに組み込む際には、いくつかの課題があります。たとえばシステム連携ではJSON出力が一般的ですが、適切にJSON出力させる際にはプロンプトでの指示が的確である必要があります。ChatGPTであればFunction callingによって、JSON出力を強制できます。

また、望んだ結果が必ず返ってくるとは限らなかったり、レスポンスに時間がかかる、途中までしか返ってこないと言った場合もあります。そうしたさまざまなケースを想定して、システムを設計する必要があります。

参考: Function calling – OpenAI API

レイテンシとパフォーマンス

LLMは総じて処理に時間がかかります。特に過去のメッセージを参照するようにつなげていくと、徐々に送受信されるデータ量が増えていきます。ユーザーへの返答が遅くなると、UXとしてストレスが溜まるでしょう。

そのため、LLMをシステムに組み込む場合には、ユーザーストレスを勘案したUXを考える必要があります。

チューニング

LLMをシステムに組み込む場合、多くは独自データによる追加学習を行うでしょう。そのデータは適切に構造化され、認識されなければなりません。

もちろん、学習データ量が多くなれば料金も高くなります。そのバランスも考えなければなりません。

コスト

そして一番大きな問題はコストです。LLMを自力で構築するのは膨大な費用がかかりますが、APIを利用する場合にも、大量のデータを学習させると、大きなコストがかかります。ユーザーに自由に使わせてしまうと、コストがかさんでしまうでしょう。

レスポンスをキャッシュする仕組みであったり、ユーザーあたりの利用回数を制限する仕組みを検討する必要があります。

プロンプトインジェクションの問題

プロンプトインジェクションは、LLMに対して、特殊なプロンプトを与えることで、意図しない応答を生成させる攻撃です。LLMはプロンプトに対して、その後の単語を予測するだけです。そのため、プロンプトによっては、開発者の意図しない応答を生成させることができます。

現在ではさまざまな対策が行われていますが、ライセンスキーを生成するものや犯罪に関わるもの、人種差別的なものなど、悪意のあるプロンプトを与えることで、意図しない応答を生成させることができます。

参考: AIチャットボットを狙う「プロンプトインジェクション攻撃」 英当局が警告 | Forbes JAPAN 公式サイト(フォーブス ジャパン)

まとめ

LLMをシステムに組み込む際に懸念すべき課題をまとめました。LLMは便利である一方、ユーザーに対して脆弱な面も多数存在します。

しかしこの分野は日進月歩で進化しており、課題も順々に解決されています。そうした最新動向をチェックし、システム内での利用を検討してみてはいかがでしょうか。

役に立ったら、記事をシェアしてください