【文章】DeepSeek R1-本地搭建个人知识库

YouTube

为什么要在本地部署 deepseek R1？#

1. 数据隐私与安全#

敏感数据保护：处理医疗、金融、政府等敏感数据时，本地部署确保数据不出内部网络，避免云端传输或第三方存储的泄露风险。
合规要求：某些法规（如 GDPR、HIPAA）强制要求数据必须存储在本地或特定区域，本地部署可直接满足合规性。

2. 性能与低延迟#

实时性需求：制造业质检、实时决策等场景需要毫秒级响应，本地服务器减少网络延迟。
大带宽数据处理：如高频交易或视频分析，本地部署避免因上传云端导致的带宽瓶颈。

3. 定制化与系统集成#

深度适配业务：可针对企业特有流程调整模型参数、接口或输出格式（如与内部 ERP、BI 工具整合）。
私有化功能开发：支持添加行业专用模块（如法律条款解析、工业故障诊断）并保护知识产权。

4. 成本控制（长期）#

规模化使用更经济：若长期调用量大，本地硬件投入可能低于持续支付的云服务订阅费。
复用现有基础设施：企业已有服务器 / GPU 资源时，部署成本进一步降低。

5. 网络与稳定性#

离线环境运行：矿井、远洋船舶等网络不稳定或无网场景下，本地部署保障服务连续性。
避免云服务中断风险：不依赖第三方云厂商的可用性（如 AWS/Azure 偶发故障）。

6. 完全自主控制权#

升级与维护自主：自行决定何时更新模型版本，避免云端强制升级导致业务中断。
审计与监管：完整掌握系统日志、访问记录，便于内部审计或应对监管检查。

安装 DeepSeek R1 需要什么配置？#

DeepSeek 模型 Win配置要求：

模型名称	参数量（亿）	模型文件大小	统一内存需求（运行时）	最低 win 配置要求
deepseek-r1:1.5b	15	1.1 GB	2～3 GB	CPU：4 核 + 内存：8GB + 硬盘：3GB+，支持纯 CPU 推理
deepseek-r1:7b	70	4.7 GB	5～7 GB	CPU：8 核 + 内存：16GB + 显卡：RTX 3070/4060（8GB + 显存
deepseek-r1:8b	80	4.9 GB	6～8 GB	CPU：8 核 + 内存：16GB + 显卡：RTX 3070/4060（8GB + 显存）
deepseek-r1:14b	140	9 GB	10～14 GB	CPU：12 核 + 内存：32GB + 显卡：RTX 4090（16GB + 显存
deepseek-r1:32b	320	20 GB	22～25 GB	CPU：i9/Ryzen9 + 内存：64GB + 显卡：A100（24GB + 显存
deepseek-r1:70b	700	43 GB	>45 GB	服务器级配置：32 核 CPU/128GB 内存 / 多卡并行（如 4xRTX4090）

DeepSeek 模型 Mac 配置要求：

模型名称	参数量（亿）	模型文件大小	统一内存需求（运行时）	最低 Mac 配置要求
deepseek-r1:1.5b	15	1.1 GB	2～3 GB	MacBook Air (M2/M3 芯片，≥8GB 内存)
deepseek-r1:7b	70	4.7 GB	5～7 GB	MacBook Air 或 Mac mini (M2/M3/M4 芯片，≥16GB 内存)
deepseek-r1:8b	80	4.9 GB	6～8 GB	MacBook Air 或 Mac mini (M2/M3/M4 芯片，≥16GB 内存)
deepseek-r1:14b	140	9 GB	10～14 GB	MacBook Pro (M2/M3/M4 Pro 芯片，≥32GB 内存)
deepseek-r1:32b	320	20 GB	22～25 GB	Mac Studio (M2 Max/Ultra) 或 MacBook Pro (M2/M3/M4 Max，≥48GB 内存)
deepseek-r1:70b	700	43 GB	>45 GB	Mac Studio (M2 Max/Ultra) 或 MacBook Pro (M2/M3/M4 Max，≥64GB 内存)

如何本地部署 Deepseek R1 ？#

说明：我这使用 Mac 机型的 Mac mini M4，win 的部署和 mac 大同小异。

需要下载两个工具
1. Ollama
2. AnythingLLM
安装流程图

1. Ollama#

主要用来在本地安装和运行包括 DeepSeek 在内的各种大模型

Ollama
- Ollama 是一个免费的开源项目，是一个专为在本地机器上便捷部署和运行 LLM 而设计的开源工具，可在本地运行各种开源 LLM，它让用户无需深入了解复杂的底层技术，就能轻松地加载、运行和交互各种 LLM 模型
- Ollama 的特点：
  - 本地部署：不依赖云端服务，用户可以在自己的设备上运行模型，保护数据隐私。
  - 多操作系统支持：无论是 Mac、Linux 还是 Window，都能很方便安装使用。
  - 多模型支持：Ollama 支持多种流行的 LLM 模型，如 Llama、Falcon 等，包括最近 Meta 公司新开源的大模型 llama3.1 405B 也已经更新，用户可以根据自己的需求选择不同的模型，一键运行。
  - 易于使用：提供了直观的命令行界面，操作简单，上手容易。
  - 可扩展性：支持自定义配置，用户可以根据自己的硬件环境和模型需求进行优化。
  - 开源：代码完全开放，用户可以自由查看、修改和分发（虽然没有很多人会去修改）

2. DeepSeek R1#

在 Ollama 官网中找到 deepseek-r1，在 Mac 终端安装。

Ollama
安装

Ollama 中安装 deepseek- r1
1. 回到 Ollama 官网，选择 Models，选择 deepseek-r1
2. 这里默认选择 7b 参数的模型，我们这里就使用默认推荐的 7b 参数的模型
  
  https://ollama.com/library/deepseek-r1
3. 打开 mac 终端，复制这行命令
```
ollama run deepseek-r1:7b
```
  - 如何下载速度变慢或者暂停，我们只需要按住键盘 **Control+c，** 重新执行命令，你会神奇发现它的下载速度变快了，它是支持断点续传的。
4. 如果看到底部的 **success，** 说明已经安装成功。
5. 现在我们可以在这个终端的窗口，可以随意输入你想问的问题。

3. Embedding 的模型#

说明
- Embedding 模型是将文本、图像等高维数据转换为低维向量的技术，核心是捕捉语义信息，便于机器学习处理
- Embedding 模型是 AI 的 “翻译器”，将复杂数据转化为机器能理解的向量，驱动语义理解类应用
- 常见类型和特点

类型	模型	特点
词嵌入	例：Word2Vec、GloVe	将词语映射为向量，捕捉语义关系（如 “国王 - 男 + 女≈女王”）
上下文嵌入	例：BERT、GPT	根据上下文生成动态向量（如 “苹果” 在 “吃苹果” 和 “苹果手机” 中含义不同）
句子 / 文档嵌入	例：Sentence-BERT	将整句或段落表示为向量，用于相似性计算、聚类等。
多模态嵌入	例：CLIP	联合处理图文 / 音频，支持跨模态检索（如用文字搜索图片）。

说明
- Embedding 模型是将文本、图像等高维数据转换为低维向量的技术，核心是捕捉语义信息，便于机器学习处理
- Embedding 模型是 AI 的 “翻译器”，将复杂数据转化为机器能理解的向量，驱动语义理解类应用
- 常见类型和特点
我们要使用的是 Embedding 模型中的 BGE-M3 模型。
- 解释 BGE-M3。
  - 语言通吃
    - 支持 100 多种语言，比如用中文搜英文资料、用日语查西班牙语新闻，都能精准匹配。
  - 双重搜索模式
    - 理解意思：比如搜 “宠物”，也能找到 “猫猫狗狗” 的内容。
    - 匹配关键词：比如严格搜含 “AI”“人工智能” 的文章，不漏结果。
  - 长文章不断片
    - 读论文、合同等长文本时，不会像普通工具那样 “看了后面忘前面”，能记住整体内容
  - 省资源
    - 有小巧版本（如 “mini 版”），手机、小网站也能用，不卡顿。
- 下载 bge-m3
  - 打开 Mac 终端，输入
    ollama pull bge-m3
  - 如果看到success，安装成功
    
    http：//127.0.0.1:11434

4. AnythingLLM#

说明
- AnythingLLM通过简洁的 UI 用户端窗口来替代终端的窗口。
- AnythingLLM帮助我们搭建个人本地知识库
- AnythingLLM支持文本、图像、音频等多种输入方式，能将 PDF、TXT、DOCX 等格式的文档分割并向量化处理，通过 RAG（检索增强生成）技术使 LLM 在对话中引用文档内容。
主要功能：
- 多用户管理和权限控制： 让团队协作更轻松，每个人都能安全地使用 LLM。
- AI Agent 加持： 内置强大的 AI Agent，可以执行网页浏览、代码运行等复杂任务，自动化程度更高。
- 可嵌入聊天窗口： 轻松集成到您的网站或应用中，为用户提供 AI 驱动的对话体验。
- 广泛的文件格式支持： 支持 PDF、TXT、DOCX 等多种文档类型，满足不同场景需求。
- 向量数据库管理： 提供简单易用的界面来管理向量数据库中的文档，方便知识管理。
- 灵活的对话模式： 支持聊天和查询两种对话模式，满足不同场景需求。
- 信息来源追踪： 聊天过程中会提供引用的文档内容，方便追溯信息来源，增强结果可信度。
- 多种部署方式： 支持 100% 云部署，也支持本地部署，满足不同用户的需求。
- 自定义 LLM 模型： 可以使用您自己的 LLM 模型，定制化程度更高，满足个性化需求。
- 高效处理大型文档： 相较于其他文档聊天机器人解决方案，AnythingLLM 在处理大型文档时效率更高，成本更低，最多可节省 90% 的成本。
- 开发者友好： 提供全套开发者 API，方便自定义集成，扩展性更强。
下载、安装、配置
- 下载
  - 找到官网：https://anythingllm.com/
- 安装
  - 点击开始
  - 选择 Ollam
  - 点击下一页
  - 跳过调查
  - 随便输入一个工作名称，暂且叫作小渔助手
  - 看到 Workspace created successfully，已经安装成功了
- 配置
  - 点击左下角 🔧，找到 Customization，Display Language，选择 Chinese
  - 选择 Embedder 首选项
  - 嵌入引擎提供商，选择Ollama
  - Ollama Embedding Model，选择刚刚下载好的 bge-3
  - 保存更改
工作区
- 作用说明：
  - 分门别类
    - 创建不同 “房间” 做不同事：比如一个房间处理客服问答，另一个房间分析合同文件，互不干扰，避免数据混杂。
  - 喂资料给 AI
    - 往工作区上传文档、网页或笔记（像给 AI “备课”），让它学习你的专属知识库。
  - 边做边试
    - 直接在工作区提问（比如模拟客户咨询），实时看 AI 回答对不对，随时调整 Ai 指令。
- 设置
  - 点击工作区的 ⚙️
  - 通用设置
    - 这里可以删除工作区
  - 聊天设置
    - 聊天模式，设置为查询（将仅提供找到的文档上下文的答案）
    - 聊天提示
搭建个人知识库
- 点击小渔助手⏫按钮
- 将准备好的文档，上传到左边知识库，再移动到右边的小渔助手，点击下保存。