2024年05月22日

プライバシーにも安心なローカルLLMの最新状況まとめ

カテゴリー:テクノロジー, レポート

タグ:AI, 生成AI, LLM

LLM(Large Language Model)は、大規模な言語モデルを指します。言語モデルとは、自然言語処理の分野において、文脈を考慮して単語や文の出現確率を計算するためのモデルのことです。LLMは、その名の通り、大規模なデータセットを用いて学習された言語モデルになります。そのため、通常はクラウドサーバーに対してリクエストを送信し、その結果を受け取る形で利用されます。

しかし、クラウドへのデータ送信は、プライバシー上の懸念があります。そのため、多くのサービスではローカル(デスクトップやモバイル、タブレット、IoTデバイスなど)で利用できるLLMモデルを開発しています。これをローカルLLMと呼び、今後ますますLLMが利用される中で注目される技術です。

本記事では、このローカルLLMの最新状況についてまとめていきます。

各社の対応状況

Google

GoogleではLLMとして、‎Geminiを提供しています。このGeminiと同じテクノロジーを用いて開発されているのがGemmaです。GemmaはエッジAI向けのモデルとして開発されています。

Gemmaは現在、2つのモデルがあります。

パラメータ サイズ 入力 出力 対象プラットフォーム
20億 テキスト テキスト モバイル デバイスとノートパソコン
70億 テキスト テキスト デスクトップ コンピュータと小規模サーバー

見て分かる通り、入出力ともにテキストのみで、画像からのデータ抽出などができないようです。ダウンロードはGemma | Kaggleから行えます。

Facebook

Facebookでは商用利用可能なLLM、Llama 3を公開しています。パラメータサイズは80億と700億とのことで、モバイルでは実行が難しいかも知れません。デスクトップやサーバー向けのモデルとなります。

利用用途としてチャットボットや、画像生成も挙げられています。

Introducing Meta Llama 3: The most capable openly available LLM to date

Apple

Appleは自社のデバイスで動作するLLM、OpenELMを発表しました。パラメーター数は4パターン用意されています。

  • 2.7億
  • 4.5億
  • 11億
  • 30億

モデルはapple/OpenELM · Hugging Faceにて公開されています。他社と比べて比較的サイズは小さいですが、iPhoneなどでの利用を想定しているためです。ただし、性能は他のモデルと比べても遜色ないとされています。

Microsoft

MicrosoftはPhi-3というLLMファミリーを公開しています。Phi-3-miniは38億のパラメーターを持つLLMです。Azure AI StudioPhi-3 - a microsoft Collectionにて試せます。

ローカルではOllamaというツールでの実行が考慮されています。

その他

Mistral AI

Mistral AIでは、同名のMistral AIというモデルが公開されています。70億のパラメーターを持つモデルで、デスクトップやサーバー向けのモデルです。

mistral

日本企業

日本企業でも、大小さまざまなLLMを公開しています。以下はその一例です。

企業名 モデル名 パラメータ サイズ
サイバーエージェント CyberAgentLM 70億
rinna bilingual-gpt-neox 40億
LINE japanese-large-lm-instruction-sft 36億
レトリバ T5 0.6〜30億
ABEJA ABEJA model1〜4 0.75〜13億
ストックマーク GPT-NeoX-Japanese 14億
イエローバック 日本語版 GPTNeo 13億
ELYZA ELYZA-japanese-Llama-2 700億
NEC cotomi 130億
NTT tsuzumi 6〜70億
楽天 Rakuten AI 70億

パラメーターサイズについて

パラメーター数が多ければ多いほど良い訳ではありませんが、基本的に性能が上がるにつれてパラメーター数は大きくなっています。クラウドで実行する場合には、数百億というのが当たり前になっています。GTP-4のパラメーター数は非公開ですが、5,000億〜1兆とも言われています。

ローカルLLMの場合、そこまでの計算処理を行うのは難しいので、サイズはぐっと小さくなるでしょう。AppleやGoogleの例を見る限り、数億〜数十億がモバイルデバイス、100億以下はデスクトップ向けと言えそうです。

ローカルでの実行

ローカルコンピュータ上で実行する方法は幾つかあります。

ブラウザでの実行

ブラウザでローカルLLMを動かそうと言う試みもあります。

mlc-ai/web-llm: Bringing large-language models and chat to web browsers. Everything runs inside the browser with no server support.

Web LLMはWebGPUを利用していますが、NVIDIA製GPUに限定されます。Vicuna-7Bを利用しているので、パラメーター数は70億ということでしょう。

こちらでは、Phi3を実行するデモがあります。なお、実行時に2.9GBのモデルをダウンロードするとのことです。

Ratchet + Phi - a Hugging Face Space by FL33TW00D-HF

もう一つはOperaの実験的な機能です。

Opera、LLMをダウンロードしてローカルで利用する機能を開発者版で提供 - ZDNET Japan

利用できるモデルは複数用意されており、Code LlamaやPhi-2などが挙がっています。

まとめ

今後、LLMはクラウドサービスとして高機能、ただし汎用的なモデルと、ローカルで実行されるプライバシーに配慮されたモデルに分かれていくでしょう。業務用途では、さらに自社のサーバを用いたドメインを区切ったLLMが登場するかも知れません。

ローカルLLMは、データの送信を行わないため、プライバシーにも安心です。入力されている内容をチェックしたり、整形するなどの使い方が考えられます。今後、高機能化・サイズの小型化が進むことで、ますますローカルLLMが注目されるでしょう。

Hexabaseでは生成AIによるアプリ開発の自動化を行い、工数を大幅に短縮する「AIドリブン開発」の新機能を実装します。詳しくはこちらをご覧ください!

役に立ったら、記事をシェアしてください