为什么要在本地部署 deepseek R1?#
1. 数据隐私与安全#
- 敏感数据保护:处理医疗、金融、政府等敏感数据时,本地部署确保数据不出内部网络,避免云端传输或第三方存储的泄露风险。
- 合规要求:某些法规(如 GDPR、HIPAA)强制要求数据必须存储在本地或特定区域,本地部署可直接满足合规性。
2. 性能与低延迟#
- 实时性需求:制造业质检、实时决策等场景需要毫秒级响应,本地服务器减少网络延迟。
- 大带宽数据处理:如高频交易或视频分析,本地部署避免因上传云端导致的带宽瓶颈。
3. 定制化与系统集成#
- 深度适配业务:可针对企业特有流程调整模型参数、接口或输出格式(如与内部 ERP、BI 工具整合)。
- 私有化功能开发:支持添加行业专用模块(如法律条款解析、工业故障诊断)并保护知识产权。
4. 成本控制(长期)#
- 规模化使用更经济:若长期调用量大,本地硬件投入可能低于持续支付的云服务订阅费。
- 复用现有基础设施:企业已有服务器 / GPU 资源时,部署成本进一步降低。
5. 网络与稳定性#
- 离线环境运行:矿井、远洋船舶等网络不稳定或无网场景下,本地部署保障服务连续性。
- 避免云服务中断风险:不依赖第三方云厂商的可用性(如 AWS/Azure 偶发故障)。
6. 完全自主控制权#
- 升级与维护自主:自行决定何时更新模型版本,避免云端强制升级导致业务中断。
- 审计与监管:完整掌握系统日志、访问记录,便于内部审计或应对监管检查。
安装 DeepSeek R1 需要什么配置?#
DeepSeek 模型 Win配置要求:
模型名称 | 参数量(亿) | 模型文件大小 | 统一内存需求(运行时) | 最低 win 配置要求 |
---|---|---|---|---|
deepseek-r1:1.5b | 15 | 1.1 GB | 2~3 GB | CPU:4 核 + 内存:8GB + 硬盘:3GB+,支持纯 CPU 推理 |
deepseek-r1:7b | 70 | 4.7 GB | 5~7 GB | CPU:8 核 + 内存:16GB + 显卡:RTX 3070/4060(8GB + 显存 |
deepseek-r1:8b | 80 | 4.9 GB | 6~8 GB | CPU:8 核 + 内存:16GB + 显卡:RTX 3070/4060(8GB + 显存) |
deepseek-r1:14b | 140 | 9 GB | 10~14 GB | CPU:12 核 + 内存:32GB + 显卡:RTX 4090(16GB + 显存 |
deepseek-r1:32b | 320 | 20 GB | 22~25 GB | CPU:i9/Ryzen9 + 内存:64GB + 显卡:A100(24GB + 显存 |
deepseek-r1:70b | 700 | 43 GB | >45 GB | 服务器级配置:32 核 CPU/128GB 内存 / 多卡并行(如 4xRTX4090) |
DeepSeek 模型 Mac 配置要求:
模型名称 | 参数量(亿) | 模型文件大小 | 统一内存需求(运行时) | 最低 Mac 配置要求 |
---|---|---|---|---|
deepseek-r1:1.5b | 15 | 1.1 GB | 2~3 GB | MacBook Air (M2/M3 芯片,≥8GB 内存) |
deepseek-r1:7b | 70 | 4.7 GB | 5~7 GB | MacBook Air 或 Mac mini (M2/M3/M4 芯片,≥16GB 内存) |
deepseek-r1:8b | 80 | 4.9 GB | 6~8 GB | MacBook Air 或 Mac mini (M2/M3/M4 芯片,≥16GB 内存) |
deepseek-r1:14b | 140 | 9 GB | 10~14 GB | MacBook Pro (M2/M3/M4 Pro 芯片,≥32GB 内存) |
deepseek-r1:32b | 320 | 20 GB | 22~25 GB | Mac Studio (M2 Max/Ultra) 或 MacBook Pro (M2/M3/M4 Max,≥48GB 内存) |
deepseek-r1:70b | 700 | 43 GB | >45 GB | Mac Studio (M2 Max/Ultra) 或 MacBook Pro (M2/M3/M4 Max,≥64GB 内存) |
如何本地部署 Deepseek R1 ?#
说明:我这使用 Mac 机型的 Mac mini M4,win 的部署和 mac 大同小异。
-
需要下载两个工具
- Ollama
- AnythingLLM
-
安装流程图
1. Ollama#
-
主要用来在本地安装和运行包括 DeepSeek 在内的各种大模型
- Ollama 是一个免费的开源项目,是一个专为在本地机器上便捷部署和运行 LLM 而设计的开源工具,可在本地运行各种开源 LLM,它让用户无需深入了解复杂的底层技术,就能轻松地加载、运行和交互各种 LLM 模型
- Ollama 的特点:
- 本地部署:不依赖云端服务,用户可以在自己的设备上运行模型,保护数据隐私。
- 多操作系统支持:无论是 Mac、Linux 还是 Window,都能很方便安装使用。
- 多模型支持:Ollama 支持多种流行的 LLM 模型,如 Llama、Falcon 等,包括最近 Meta 公司新开源的大模型 llama3.1 405B 也已经更新,用户可以根据自己的需求选择不同的模型,一键运行。
- 易于使用:提供了直观的命令行界面,操作简单,上手容易。
- 可扩展性:支持自定义配置,用户可以根据自己的硬件环境和模型需求进行优化。
- 开源:代码完全开放,用户可以自由查看、修改和分发(虽然没有很多人会去修改)
2. DeepSeek R1#
-
在 Ollama 官网中找到 deepseek-r1,在 Mac 终端安装。
-
安装
-
回到 Ollama 官网,选择 Models,选择 deepseek-r1
-
这里默认选择 7b 参数的模型,我们这里就使用默认推荐的 7b 参数的模型
https://ollama.com/library/deepseek-r1
-
打开 mac 终端,复制这行命令
ollama run deepseek-r1:7b
-
如何下载速度变慢或者暂停,我们只需要按住键盘 **Control+c,** 重新执行命令,你会神奇发现它的下载速度变快了,它是支持断点续传的。
-
-
如果看到底部的 **success,** 说明已经安装成功。
-
现在我们可以在这个终端的窗口,可以随意输入你想问的问题。
-
3. Embedding 的模型#
- 说明
- Embedding 模型是将文本、图像等高维数据转换为低维向量的技术,核心是捕捉语义信息,便于机器学习处理
- Embedding 模型是 AI 的 “翻译器”,将复杂数据转化为机器能理解的向量,驱动语义理解类应用
- 常见类型和特点
类型 | 模型 | 特点 |
---|---|---|
词嵌入 | 例:Word2Vec、GloVe | 将词语映射为向量,捕捉语义关系(如 “国王 - 男 + 女≈女王”) |
上下文嵌入 | 例:BERT、GPT | 根据上下文生成动态向量(如 “苹果” 在 “吃苹果” 和 “苹果手机” 中含义不同) |
句子 / 文档嵌入 | 例:Sentence-BERT | 将整句或段落表示为向量,用于相似性计算、聚类等。 |
多模态嵌入 | 例:CLIP | 联合处理图文 / 音频,支持跨模态检索(如用文字搜索图片)。 |
- 说明
- Embedding 模型是将文本、图像等高维数据转换为低维向量的技术,核心是捕捉语义信息,便于机器学习处理
- Embedding 模型是 AI 的 “翻译器”,将复杂数据转化为机器能理解的向量,驱动语义理解类应用
- 常见类型和特点
- 我们要使用的是 Embedding 模型中的 BGE-M3 模型。
- 解释 BGE-M3。
- 语言通吃
- 支持 100 多种语言,比如用中文搜英文资料、用日语查西班牙语新闻,都能精准匹配。
- 双重搜索模式
- 理解意思:比如搜 “宠物”,也能找到 “猫猫狗狗” 的内容。
- 匹配关键词:比如严格搜含 “AI”“人工智能” 的文章,不漏结果。
- 长文章不断片
- 读论文、合同等长文本时,不会像普通工具那样 “看了后面忘前面”,能记住整体内容
- 省资源
- 有小巧版本(如 “mini 版”),手机、小网站也能用,不卡顿。
- 语言通吃
- 下载 bge-m3
-
打开 Mac 终端,输入
ollama pull bge-m3
-
如果看到success,安装成功
http://127.0.0.1:11434
-
- 解释 BGE-M3。
4. AnythingLLM#
-
说明
- AnythingLLM通过简洁的 UI 用户端窗口来替代终端的窗口。
- AnythingLLM帮助我们搭建个人本地知识库
- AnythingLLM支持文本、图像、音频等多种输入方式,能将 PDF、TXT、DOCX 等格式的文档分割并向量化处理,通过 RAG(检索增强生成)技术使 LLM 在对话中引用文档内容。
主要功能:
- 多用户管理和权限控制: 让团队协作更轻松,每个人都能安全地使用 LLM。
- AI Agent 加持: 内置强大的 AI Agent,可以执行网页浏览、代码运行等复杂任务,自动化程度更高。
- 可嵌入聊天窗口: 轻松集成到您的网站或应用中,为用户提供 AI 驱动的对话体验。
- 广泛的文件格式支持: 支持 PDF、TXT、DOCX 等多种文档类型,满足不同场景需求。
- 向量数据库管理: 提供简单易用的界面来管理向量数据库中的文档,方便知识管理。
- 灵活的对话模式: 支持聊天和查询两种对话模式,满足不同场景需求。
- 信息来源追踪: 聊天过程中会提供引用的文档内容,方便追溯信息来源,增强结果可信度。
- 多种部署方式: 支持 100% 云部署,也支持本地部署,满足不同用户的需求。
- 自定义 LLM 模型: 可以使用您自己的 LLM 模型,定制化程度更高,满足个性化需求。
- 高效处理大型文档: 相较于其他文档聊天机器人解决方案,AnythingLLM 在处理大型文档时效率更高,成本更低,最多可节省 90% 的成本。
- 开发者友好: 提供全套开发者 API,方便自定义集成,扩展性更强。
-
下载、安装、配置
- 下载
- 安装
-
点击开始
-
选择 Ollam
-
点击下一页
-
跳过调查
-
随便输入一个工作名称,暂且叫作小渔助手
-
看到 Workspace created successfully,已经安装成功了
-
- 配置
-
点击左下角 🔧,找到 Customization,Display Language,选择 Chinese
-
选择 Embedder 首选项
-
嵌入引擎提供商,选择Ollama
-
Ollama Embedding Model,选择刚刚下载好的 bge-3
-
保存更改
-
-
工作区
- 作用说明:
- 分门别类
- 创建不同 “房间” 做不同事:比如一个房间处理客服问答,另一个房间分析合同文件,互不干扰,避免数据混杂。
- 喂资料给 AI
- 往工作区上传文档、网页或笔记(像给 AI “备课”),让它学习你的专属知识库。
- 边做边试
- 直接在工作区提问(比如模拟客户咨询),实时看 AI 回答对不对,随时调整 Ai 指令。
- 分门别类
- 设置
- 点击工作区的 ⚙️
- 通用设置
- 这里可以删除工作区
- 聊天设置
- 聊天模式,设置为查询(将 仅 提供找到的文档上下文的答案)
- 聊天提示
- 作用说明:
-
搭建个人知识库
-
点击小渔助手⏫按钮
-
将准备好的文档,上传到左边知识库,再移动到右边的小渔助手,点击下保存。
-