なぜ DeepSeek R1 をローカルにデプロイする必要があるのか?#
- データプライバシーとセキュリティ
- センシティブデータの保護:医療、金融、政府などのセンシティブなデータを扱う際、ローカルデプロイによりデータが内部ネットワークから出ないことを保証し、クラウド転送や第三者ストレージによる漏洩リスクを回避します。
- コンプライアンス要件:GDPR や HIPAA などの特定の規制は、データをローカルまたは特定の地域に保存することを強制します。ローカルデプロイはコンプライアンスを直接満たすことができます。
- パフォーマンスと低遅延
- リアルタイム性の要求:製造業の品質検査やリアルタイムの意思決定などのシナリオでは、ミリ秒単位の応答が必要であり、ローカルサーバーはネットワーク遅延を減少させます。
- 大帯域幅データ処理:高頻度取引やビデオ分析などの場合、ローカルデプロイはクラウドへのアップロードによる帯域幅のボトルネックを回避します。
- カスタマイズとシステム統合
- ビジネスへの深い適合:企業特有のプロセスに応じてモデルパラメータ、インターフェース、または出力形式を調整できます(内部 ERP や BI ツールとの統合など)。
- プライベート機能の開発:業界特有のモジュール(法律条項解析、産業故障診断など)を追加し、知的財産を保護することをサポートします。
- コスト管理(長期)
- スケール使用がより経済的:長期的に呼び出し量が大きい場合、ローカルハードウェアの投資は継続的に支払うクラウドサービスのサブスクリプション料金よりも低くなる可能性があります。
- 既存インフラの再利用:企業が既に持っているサーバー / GPU リソースがある場合、デプロイコストはさらに低下します。
- ネットワークと安定性
- オフライン環境での運用:鉱山や遠洋船舶など、ネットワークが不安定または無いシナリオで、ローカルデプロイはサービスの連続性を保証します。
- クラウドサービスの中断リスクを回避:第三者のクラウドベンダーの可用性(AWS/Azure の偶発的な障害)に依存しません。
- 完全な自主制御権
- アップグレードとメンテナンスの自主性:モデルバージョンをいつ更新するかを自分で決定でき、クラウドでの強制アップグレードによる業務中断を回避します。
- 監査と規制:システムログやアクセス記録を完全に把握し、内部監査や規制チェックに対応しやすくなります。
DeepSeek R1 をインストールするために必要な構成は?#
DeepSeek モデル Win構成要件:
モデル名 | パラメータ数(億) | モデルファイルサイズ | 統一メモリ要件(実行時) | 最低 Win 構成要件 |
---|---|---|---|---|
deepseek-r1:1.5b | 15 | 1.1 GB | 2~3 GB | CPU:4 コア + メモリ:8GB + ハードディスク:3GB+、純 CPU 推論をサポート |
deepseek-r1:7b | 70 | 4.7 GB | 5~7 GB | CPU:8 コア + メモリ:16GB + グラフィックカード:RTX 3070/4060(8GB + ビデオメモリ) |
deepseek-r1:8b | 80 | 4.9 GB | 6~8 GB | CPU:8 コア + メモリ:16GB + グラフィックカード:RTX 3070/4060(8GB + ビデオメモリ) |
deepseek-r1:14b | 140 | 9 GB | 10~14 GB | CPU:12 コア + メモリ:32GB + グラフィックカード:RTX 4090(16GB + ビデオメモリ) |
deepseek-r1:32b | 320 | 20 GB | 22~25 GB | CPU:i9/Ryzen9 + メモリ:64GB + グラフィックカード:A100(24GB + ビデオメモリ) |
deepseek-r1:70b | 700 | 43 GB | >45 GB | サーバーレベルの構成:32 コア CPU/128GB メモリ / マルチカード並列(例:4xRTX4090) |
DeepSeek モデル Mac 構成要件:
モデル名 | パラメータ数(億) | モデルファイルサイズ | 統一メモリ要件(実行時) | 最低 Mac 構成要件 |
---|---|---|---|---|
deepseek-r1:1.5b | 15 | 1.1 GB | 2~3 GB | MacBook Air (M2/M3 チップ、≥8GB メモリ) |
deepseek-r1:7b | 70 | 4.7 GB | 5~7 GB | MacBook Air または Mac mini (M2/M3/M4 チップ、≥16GB メモリ) |
deepseek-r1:8b | 80 | 4.9 GB | 6~8 GB | MacBook Air または Mac mini (M2/M3/M4 チップ、≥16GB メモリ) |
deepseek-r1:14b | 140 | 9 GB | 10~14 GB | MacBook Pro (M2/M3/M4 Pro チップ、≥32GB メモリ) |
deepseek-r1:32b | 320 | 20 GB | 22~25 GB | Mac Studio (M2 Max/Ultra) または MacBook Pro (M2/M3/M4 Max、≥48GB メモリ) |
deepseek-r1:70b | 700 | 43 GB | >45 GB | Mac Studio (M2 Max/Ultra) または MacBook Pro (M2/M3/M4 Max、≥64GB メモリ) |
DeepSeek R1 をローカルにデプロイするには?#
説明:私は Mac の Mac mini M4 を使用しており、Win のデプロイと Mac は大差ありません。
-
2 つのツールをダウンロードする必要があります
- Ollama
- AnythingLLM
-
インストールプロセスのフローチャート
1. Ollama#
-
主に DeepSeek を含むさまざまな大規模モデルをローカルにインストールして実行するために使用されます。
- Ollama は無料のオープンソースプロジェクトで、ローカルマシン上で LLM を便利にデプロイして実行するために設計されたオープンソースツールです。ユーザーは複雑な基盤技術を深く理解することなく、さまざまなオープンソース LLM を簡単にロード、実行、対話できます。
- Ollama の特徴:
- ローカルデプロイ:クラウドサービスに依存せず、ユーザーは自分のデバイス上でモデルを実行し、データプライバシーを保護します。
- 多様なオペレーティングシステムのサポート:Mac、Linux、Windows のいずれでも簡単にインストールして使用できます。
- 多モデルのサポート:Ollama は Llama、Falcon などの多くの人気 LLM モデルをサポートしており、最近Meta 社が新たにオープンソースした大規模モデル llama3.1 405Bも更新されており、ユーザーは自分のニーズに応じて異なるモデルを選択し、一発で実行できます。
- 使いやすさ:直感的なコマンドラインインターフェースを提供し、操作が簡単で、すぐに使い始めることができます。
- 拡張性:カスタム設定をサポートし、ユーザーは自分のハードウェア環境やモデルのニーズに応じて最適化できます。
- オープンソース:コードは完全にオープンで、ユーザーは自由に閲覧、修正、配布できます(ただし、修正する人はあまりいません)。
2. DeepSeek R1#
-
Ollama の公式サイトで deepseek-r1 を見つけ、Mac のターミナルにインストールします。
-
インストール
-
Ollama の公式サイトに戻り、Models を選択し、deepseek-r1 を選択します。
-
ここではデフォルトで 7b パラメータのモデルを選択します。ここではデフォルト推奨の 7b パラメータのモデルを使用します。
https://ollama.com/library/deepseek-r1
-
Mac のターミナルを開き、このコマンドをコピーします。
ollama run deepseek-r1:7b
-
ダウンロード速度が遅くなったり、一時停止した場合は、キーボードのControl+cを押し、コマンドを再実行してください。驚くべきことに、ダウンロード速度が速くなります。これは、再開機能をサポートしています。
-
-
下部にsuccessと表示されれば、インストールが成功したことを示します。
-
現在、このターミナルウィンドウで、自由に質問を入力できます。
-
3. 埋め込みモデル#
- 説明
- 埋め込みモデルは、テキスト、画像などの高次元データを低次元ベクトルに変換する技術で、核心は意味情報を捉えることにあり、機械学習処理を容易にします。
- 埋め込みモデルは AI の「翻訳者」であり、複雑なデータを機械が理解できるベクトルに変換し、意味理解型アプリケーションを駆動します。
- 一般的なタイプと特徴
タイプ | モデル | 特徴 |
---|---|---|
単語埋め込み | 例:Word2Vec、GloVe | 単語をベクトルにマッピングし、意味関係を捉える(例:「国王 - 男 + 女≈女王」) |
文脈埋め込み | 例:BERT、GPT | 文脈に応じて動的ベクトルを生成(例:「リンゴ」が「リンゴを食べる」と「iPhone」の中で異なる意味を持つ) |
文 / ドキュメント埋め込み | 例:Sentence-BERT | 完全な文や段落をベクトルとして表現し、類似性計算、クラスタリングなどに使用されます。 |
マルチモーダル埋め込み | 例:CLIP | 画像と音声を共同で処理し、クロスモーダル検索をサポートします(例:テキストで画像を検索)。 |
- 説明
- 埋め込みモデルは、テキスト、画像などの高次元データを低次元ベクトルに変換する技術で、核心は意味情報を捉えることにあり、機械学習処理を容易にします。
- 埋め込みモデルは AI の「翻訳者」であり、複雑なデータを機械が理解できるベクトルに変換し、意味理解型アプリケーションを駆動します。
- 一般的なタイプと特徴
- 私たちが使用するのは埋め込みモデルの BGE-M3 モデルです。
- BGE-M3 の説明。
- 言語を問わず
- 100 以上の言語をサポートし、中国語で英語の資料を検索したり、日本語でスペイン語のニュースを調べたりしても、正確にマッチします。
- 二重検索モード
- 意味を理解する:例えば「ペット」を検索すると、「猫や犬」の内容も見つかります。
- キーワードをマッチさせる:例えば「AI」「人工知能」を含む記事を厳密に検索し、結果を漏らしません。
- 長文を分割せずに処理
- 論文や契約などの長文を読む際、普通のツールのように「後ろを見たら前を忘れる」ことはなく、全体の内容を記憶します。
- リソースを節約
- 小型版(例:「ミニ版」)があり、スマートフォンや小さなウェブサイトでも使用でき、スムーズに動作します。
- 言語を問わず
- bge-m3 をダウンロード
-
Mac のターミナルを開き、入力します。
ollama pull bge-m3
-
successと表示されれば、インストール成功です。
http://127.0.0.1:11434
-
- BGE-M3 の説明。
4. AnythingLLM#
-
説明
- AnythingLLMは、シンプルな UI ユーザー端末ウィンドウでターミナルのウィンドウを置き換えます。
- AnythingLLMは、私たちが個人のローカル知識ベースを構築するのを助けます。
- AnythingLLMは、テキスト、画像、音声などの多様な入力方法をサポートし、PDF、TXT、DOCX などの形式の文書を分割してベクトル化処理し、RAG(検索強化生成)技術を通じて LLM が対話中に文書内容を引用できるようにします。
主な機能:
- マルチユーザー管理と権限制御: チームの協力をより簡単にし、誰もが安全に LLM を使用できるようにします。
- AI エージェントの強化: 内蔵の強力な AI エージェントが、ウェブブラウジング、コード実行などの複雑なタスクを実行し、自動化の程度を高めます。
- 埋め込みチャットウィンドウ: ウェブサイトやアプリに簡単に統合でき、ユーザーに AI 駆動の対話体験を提供します。
- 広範なファイル形式のサポート: PDF、TXT、DOCX などの多様な文書タイプをサポートし、さまざまなシナリオのニーズに応えます。
- ベクトルデータベース管理: ベクトルデータベース内の文書を管理するための使いやすいインターフェースを提供し、知識管理を便利にします。
- 柔軟な対話モード: チャットとクエリの 2 つの対話モードをサポートし、さまざまなシナリオのニーズに応えます。
- 情報源の追跡: チャット中に引用された文書内容を提供し、情報源を追跡しやすくし、結果の信頼性を高めます。
- 多様なデプロイ方法: 100% クラウドデプロイをサポートし、ローカルデプロイもサポートし、さまざまなユーザーのニーズに応えます。
- カスタム LLM モデル: 自分の LLM モデルを使用でき、カスタマイズの程度が高く、個別のニーズに応えます。
- 大規模文書の効率的な処理: 他の文書チャットボットソリューションと比較して、AnythingLLM は大規模文書の処理時に効率が高く、コストが低く、最大 90% のコストを節約できます。
- 開発者に優しい: 完全な開発者 API を提供し、カスタム統合を容易にし、拡張性を高めます。
-
ダウンロード、インストール、構成
- ダウンロード
- 公式サイトを見つけます:https://anythingllm.com/
- インストール
-
開始をクリック
-
Ollama を選択
-
次のページをクリック
-
調査をスキップ
-
任意の作業名を入力し、仮に「小漁助手」と呼びます。
-
「Workspace created successfully」と表示されれば、インストールが成功したことを示します。
-
- 構成
-
左下の🔧をクリックし、Customization、Display Language を見つけ、中国語を選択します。
-
Embedder の好みを選択
-
埋め込みエンジンプロバイダーとしてOllamaを選択
-
Ollama 埋め込みモデルとして、先ほどダウンロードしたbge-3を選択
-
変更を保存
-
- ダウンロード
-
ワークスペース
- 役割の説明:
- 分類
- 異なる「部屋」を作成して異なることを行います:例えば、一つの部屋はカスタマーサービスの質問応答を処理し、別の部屋は契約文書を分析し、互いに干渉せず、データの混在を避けます。
- AI に資料を提供
- ワークスペースに文書、ウェブページ、またはメモをアップロードし(AI に「授業を準備させる」ように)、専用の知識ベースを学習させます。
- 試行錯誤
- ワークスペースで直接質問し(例えば、顧客の相談をシミュレート)、AI の回答が正しいかどうかをリアルタイムで確認し、AI の指示を随時調整します。
- 分類
- 設定
- ワークスペースの⚙️をクリック
- 一般設定
- ここでワークスペースを削除できます。
- チャット設定
- チャットモードをクエリに設定します(のみ見つかった文書のコンテキストの答えを提供します)。
- チャットプロンプト
- 役割の説明:
-
個人の知識ベースを構築
-
小漁助手⏫ボタンをクリック
-
準備した文書を左側の知識ベースにアップロードし、右側の小漁助手に移動して保存をクリックします。
-