COLUMN
2024年10月01日
AI開発におけるセキュリティリスクとその回避法
カテゴリー:テクノロジー
タグ:AI, 生成AI
AIを開発する際には、独自のデータが必要になります。ファインチューニングの場合は既存のモデルを利用しますが、独自のデータを追加学習します。そして、このAI開発時においてセキュリティリスクが顕在化しています。
本記事では、そんなAI開発時におけるセキュリティリスクとその回避法について解説します。
ーAI開発における主なセキュリティリスク
AI開発における主なセキュリティリスクは以下の通りです。
- 機密データの漏洩リスク
- 学習データへの攻撃(データ中毒、逆行計算など)
- AIモデルの不正利用や改ざん
・機密データの漏洩リスク
AI開発において、機密データの漏洩リスクは最も重要なセキュリティリスクです。学習データの中に機密データが入り込んでしまうことで、機密情報が外部に漏洩する可能性があります。特にLLMのように大規模なデータセットを使用する場合、機密データの漏洩リスクが高まります。
・学習データへの攻撃
学習データへの攻撃は、AIモデルの信頼性を損なう可能性があります。データポイズニングやモデル窃盗攻撃などの攻撃手法があり、これらによってAIモデルの予測結果が改ざんされる可能性があります。
データポイズニングは、AIモデルの学習データの中に意図的に不正確または有害なデータを混入させる手法です。パブリックなデータを学習元データに利用している場合に発生する可能性があります。
モデル窃盗攻撃は本来ブラックボックスであるモデルの次元数などを把握し、モデルの規模を特定するのに利用する手法です。APIを悪用する手法です。
・AIモデルの不正利用や改ざん
AIは本来、不正に利用されないための制限を設けています。しかし、特殊なプロンプトによって制約を回避することができます
ChatGPTでWindows 10および11の有効なプロダクトキーの生成に成功か
また、チャットボットを利用して、不正な操作を行うこともできます。これらは提供側として、適切な制限が必要です
AIチャットボットが“勝手”に割引を約束してトラブルに… 返金を求めた裁判の結果は?
機密情報保護のための対策
上記のようなセキュリティリスクがある中で、機密情報を守るための対策が必要になっています。
・データ暗号化とアクセス制御
まず、データ暗号化と適切なアクセス制御を行う必要があります。たとえばRAGを利用する場合、検索結果はアクセス権限を利用して、ユーザー毎に適切な結果を返す必要があります。参照元データが異なれば、LLM側の結果も異なるでしょう。
また、データの暗号化には、データベースやファイルの暗号化、通信の暗号化などがあります。これらを組み合わせて、データの漏洩リスクを最小限に抑えます。
・安全なデータ管理と取り扱い
データの管理と取り扱いには、適切なポリシーと手順が必要です。たとえば、データの収集、保存、利用、削除などのプロセスを明確にし、適切な管理を行うことが重要です。
特にLLMなどに対して追加学習したデータは、柔軟に更新・削除するのが困難です。そうした点も考慮して、データの取り扱いを検討しましょう。
・データ匿名化技術の活用
企業内のデータを利用する場合、特定の企業名やプロジェクト情報が紛れ込んでしまう可能性があります。そのデータを基に別な顧客への提案資料を作ったりすれば、情報漏洩のリスクが高まります。
学習させるデータは、データの匿名化・マスク処理を行いましょう。これによって、個人情報や企業情報が漏洩するリスクを軽減できます。
・データの最小限収集の重要性
データの収集は、必要最小限に留めることが重要です。不要なデータを収集することで、データ漏洩リスクが高まるだけでなく、データの取り扱いが複雑化する可能性があります。
そのため、最初は規模を小さく抑えてはじめるのがお勧めです。最低限必要なデータからはじめて、必要に応じてデータを追加していくことで、データの管理を効率化できます。
学習データとモデルのセキュリティ
ここからは、学習データとモデルのセキュリティについて考えていきます。
・学習データの品質と信頼性の確保
学習元データの品質は、結果の品質に直結します。結果の品質を担保するためには、データの前処理が欠かせません。データの前処理には、データのクリーニング、正規化、欠損値の処理などが含まれます。
・AIモデルに対する攻撃(敵対的攻撃)と防御策
AIモデルに対する攻撃は、敵対的攻撃と呼ばれます。この敵対的攻撃を防ぐ方法として、攻撃サンプルを学習データに含めるAdversarial Trainingやロバストなモデルを生成するDefensive distillationなどが知られています。この分野は現在も研究が行われているので、最新の研究成果を追うことが重要です。
ーまとめ
本記事では、AI開発におけるセキュリティリスクとその回避法について解説しました。
AI開発においては、予期せぬ学習データを取り込んだことによる機密情報漏洩や、攻撃的な入力情報によるモデルの改ざんなどのリスクがあります。
AIは業務を大きく変える可能性を秘めていますが、利便性ばかり注目すると大きな事業リスクにつながる可能性があります。セキュリティリスクを軽減するためにも、適切な対策を講じましょう。