COLUMN
2024年05月22日
プライバシーにも安心なローカルLLMの最新状況まとめ
カテゴリー:テクノロジー, レポート
タグ:AI, 生成AI, LLM
LLM(Large Language Model)は、大規模な言語モデルを指します。言語モデルとは、自然言語処理の分野において、文脈を考慮して単語や文の出現確率を計算するためのモデルのことです。LLMは、その名の通り、大規模なデータセットを用いて学習された言語モデルになります。そのため、通常はクラウドサーバーに対してリクエストを送信し、その結果を受け取る形で利用されます。
しかし、クラウドへのデータ送信は、プライバシー上の懸念があります。そのため、多くのサービスではローカル(デスクトップやモバイル、タブレット、IoTデバイスなど)で利用できるLLMモデルを開発しています。これをローカルLLMと呼び、今後ますますLLMが利用される中で注目される技術です。
本記事では、このローカルLLMの最新状況についてまとめていきます。
各社の対応状況
GoogleではLLMとして、Geminiを提供しています。このGeminiと同じテクノロジーを用いて開発されているのがGemmaです。GemmaはエッジAI向けのモデルとして開発されています。
Gemmaは現在、2つのモデルがあります。
パラメータ サイズ | 入力 | 出力 | 対象プラットフォーム |
---|---|---|---|
20億 | テキスト | テキスト | モバイル デバイスとノートパソコン |
70億 | テキスト | テキスト | デスクトップ コンピュータと小規模サーバー |
見て分かる通り、入出力ともにテキストのみで、画像からのデータ抽出などができないようです。ダウンロードはGemma | Kaggleから行えます。
Facebookでは商用利用可能なLLM、Llama 3を公開しています。パラメータサイズは80億と700億とのことで、モバイルでは実行が難しいかも知れません。デスクトップやサーバー向けのモデルとなります。
利用用途としてチャットボットや、画像生成も挙げられています。
Introducing Meta Llama 3: The most capable openly available LLM to date
Apple
Appleは自社のデバイスで動作するLLM、OpenELMを発表しました。パラメーター数は4パターン用意されています。
- 2.7億
- 4.5億
- 11億
- 30億
モデルはapple/OpenELM · Hugging Faceにて公開されています。他社と比べて比較的サイズは小さいですが、iPhoneなどでの利用を想定しているためです。ただし、性能は他のモデルと比べても遜色ないとされています。
Microsoft
MicrosoftはPhi-3というLLMファミリーを公開しています。Phi-3-miniは38億のパラメーターを持つLLMです。Azure AI StudioやPhi-3 - a microsoft Collectionにて試せます。
ローカルではOllamaというツールでの実行が考慮されています。
その他
Mistral AI
Mistral AIでは、同名のMistral AIというモデルが公開されています。70億のパラメーターを持つモデルで、デスクトップやサーバー向けのモデルです。
日本企業
日本企業でも、大小さまざまなLLMを公開しています。以下はその一例です。
企業名 | モデル名 | パラメータ サイズ |
---|---|---|
サイバーエージェント | CyberAgentLM | 70億 |
rinna | bilingual-gpt-neox | 40億 |
LINE | japanese-large-lm-instruction-sft | 36億 |
レトリバ | T5 | 0.6〜30億 |
ABEJA | ABEJA model1〜4 | 0.75〜13億 |
ストックマーク | GPT-NeoX-Japanese | 14億 |
イエローバック | 日本語版 GPTNeo | 13億 |
ELYZA | ELYZA-japanese-Llama-2 | 700億 |
NEC | cotomi | 130億 |
NTT | tsuzumi | 6〜70億 |
楽天 | Rakuten AI | 70億 |
パラメーターサイズについて
パラメーター数が多ければ多いほど良い訳ではありませんが、基本的に性能が上がるにつれてパラメーター数は大きくなっています。クラウドで実行する場合には、数百億というのが当たり前になっています。GTP-4のパラメーター数は非公開ですが、5,000億〜1兆とも言われています。
ローカルLLMの場合、そこまでの計算処理を行うのは難しいので、サイズはぐっと小さくなるでしょう。AppleやGoogleの例を見る限り、数億〜数十億がモバイルデバイス、100億以下はデスクトップ向けと言えそうです。
ローカルでの実行
ローカルコンピュータ上で実行する方法は幾つかあります。
ブラウザでの実行
ブラウザでローカルLLMを動かそうと言う試みもあります。
Web LLMはWebGPUを利用していますが、NVIDIA製GPUに限定されます。Vicuna-7Bを利用しているので、パラメーター数は70億ということでしょう。
こちらでは、Phi3を実行するデモがあります。なお、実行時に2.9GBのモデルをダウンロードするとのことです。
Ratchet + Phi - a Hugging Face Space by FL33TW00D-HF
もう一つはOperaの実験的な機能です。
Opera、LLMをダウンロードしてローカルで利用する機能を開発者版で提供 - ZDNET Japan
利用できるモデルは複数用意されており、Code LlamaやPhi-2などが挙がっています。
まとめ
今後、LLMはクラウドサービスとして高機能、ただし汎用的なモデルと、ローカルで実行されるプライバシーに配慮されたモデルに分かれていくでしょう。業務用途では、さらに自社のサーバを用いたドメインを区切ったLLMが登場するかも知れません。
ローカルLLMは、データの送信を行わないため、プライバシーにも安心です。入力されている内容をチェックしたり、整形するなどの使い方が考えられます。今後、高機能化・サイズの小型化が進むことで、ますますローカルLLMが注目されるでしょう。
Hexabaseでは生成AIによるアプリ開発の自動化を行い、工数を大幅に短縮する「AIドリブン開発」の新機能を実装します。詳しくはこちらをご覧ください!