Ollama 会使用我的 GPU 吗？

如果有 GPU，会自动使用。在 Apple Silicon 的 macOS 上，Ollama 自动使用统一内存架构下的 GPU。在 Windows 和 Linux 上，则通过 CUDA 调用 NVIDIA GPU。纯 CPU 推理也能运行，但大模型上明显较慢。

本地大模型需要多少磁盘空间？

取决于模型。一个 7B 模型约占 4-5 GB 磁盘空间。你可以下载多个模型并随时切换。如果磁盘紧张，建议一次只保留一个模型。

电脑进入睡眠时本地大模型会怎样？

电脑睡眠时 Ollama 和 OpenClaw Easy 都会暂停。睡眠期间收到的消息会在电脑唤醒后处理。如果想让机器人 7x24 在线，请在系统设置中阻止电脑进入睡眠。

Ollama 接入 WhatsApp 教程 — 本地 AI 机器人，5 分钟 (2026)

2026 年 6 月更新

OpenClaw Easy 2026.5.29（2026 年 6 月）原生支持 Ollama 自动识别 — 只要 Ollama 正在运行，AI Provider 选择器会自动列出所有已安装的模型（Llama 3.2、Qwen 2.5、DeepSeek R1、Mistral），完全无需手动配置。下方截图已更新为新的选择器界面。新增章节：在 Apple Silicon Mac 上运行DeepSeek R1 蒸馏版 7B，是平衡速度与质量的最佳选择。下载最新签名安装包 →

ChatGPT 和 Claude 等云端 AI 模型功能强大，但代价是：你的消息会离开你的电脑，传输到第三方服务器。对许多用户来说，这是无法接受的。如果可以在 WhatsApp 上运行本地大模型，所有数据都不离开你的电脑，是不是更安心？

借助 Ollama 和 OpenClaw Easy，你完全可以做到。本教程会带你在本机安装本地 AI 模型、接入 WhatsApp，约 15 分钟内拥有一个完全私密的 AI 聊天机器人。无需 API key、不依赖云端、数据不外泄。

OpenClaw Easy 配置 Ollama 作为 AI 提供商并接入 WhatsApp

你需要准备什么

一台电脑，运行 macOS 或 Windows，至少 8 GB 内存（运行更大的模型推荐 16 GB 以上）。
Ollama — 免费、开源的本地大模型运行工具，下载地址 ollama.com。
OpenClaw Easy — 免费桌面应用，把本地模型连接到 WhatsApp。
手机上的 WhatsApp。
15 分钟 — 大部分时间用来下载模型。

为什么要在 WhatsApp 上运行本地大模型？

相比云端 API，使用本地模型有几个非常有吸引力的理由：

完全隐私 — 你的消息、提示词、AI 回复永远不会离开你的电脑，连 API 提供商也接触不到。
零成本 — 没有 API 调用费、没有 token 计费、没有订阅。模型下载完后，运行完全免费。
支持离线 — 即便没有互联网，AI 也能工作（WhatsApp 本身需要联网，但推理在本地进行）。
数据主权 — 对企业、医疗、法律等敏感行业，数据本地化不是可选项 — 而是硬性要求。
无速率限制 — 云端 API 有调用频率和用量上限，本地模型完全没有这些限制。

分步教程：将本地大模型接入 WhatsApp

1 安装 Ollama

Ollama 是本地运行开源大模型最简单的方式，下载地址 ollama.com。

macOS — 下载 .dmg 拖到"应用程序"。
Windows — 下载 .exe 安装程序并运行。

安装完成后，Ollama 会作为后台服务运行，通过本地 API http://localhost:11434 对外提供模型服务。

2 下载一个模型

打开终端（macOS 上的 Terminal，Windows 上的命令提示符或 PowerShell），下载一个模型。以下是几个常用选择：

ollama pull llama3.2

或者其他模型：

ollama pull qwen2.5
ollama pull deepseek-r1
ollama pull mistral
ollama pull phi3

不同模型的下载体积差别较大。Llama 3.2（8B）约 4.7 GB；Phi-3 等小模型约 2.3 GB；Qwen 2.5（72B）等超大模型则需要 40+ GB 并要求高配硬件。

提示：建议从 llama3.2 或 qwen2.5:7b 开始 — 在质量和速度上比较均衡。之后想体验更大的模型再换也来得及。Qwen 系列对中文支持非常友好。

3 确认 Ollama 正常运行

模型下载完成后，确认 Ollama 服务正常：

ollama list

你应该能在列表中看到已下载的模型。也可以直接测试一下：

ollama run llama3.2 "Hello, who are you?"

如果能收到 AI 的回复，说明 Ollama 工作正常，可以连接 OpenClaw Easy 了。

4 下载并打开 OpenClaw Easy

前往 OpenClaw Easy 下载页，根据系统下载 macOS 或 Windows 版本。安装完成后打开应用。

5 将 Ollama 配置为 AI 提供商

在 OpenClaw Easy 中：

进入侧边栏的 AI Provider。
选择 Local LLM（或 Ollama，取决于应用版本）。
将端点设置为 http://localhost:11434（Ollama 默认地址）。

OpenClaw Easy 会自动识别你在 Ollama 中已下载的模型。

AI Provider 设置 — 选择 Local LLM 并配置 Ollama 端点

6 选择你的模型

进入侧边栏的 Agent Config。在模型下拉框中，你能看到所有已通过 Ollama 下载的模型，挑一个使用 — 比如 llama3.2。

7 连接 WhatsApp

接下来连接 WhatsApp：

进入侧边栏的 Channels。
点击 WhatsApp。
用手机扫描二维码（WhatsApp > 设置 > 已链接设备 > 链接设备）。

本地大模型就上线了。给它发一条消息试试 — AI 的回复完全在你的电脑上生成。

如何选择合适的本地模型

不同模型差别很大。下表比较了几个常见的 Ollama 模型、它们的特点以及硬件要求：

模型	体积	最低内存	适用场景
Llama 3.2 (8B)	4.7 GB	8 GB	通用聊天、问答，速度和质量均衡
Qwen 2.5 (7B)	4.4 GB	8 GB	多语言（中文友好）、代码、推理
DeepSeek-R1 (7B)	4.7 GB	8 GB	逻辑推理、数学、谜题
Mistral (7B)	4.1 GB	8 GB	响应快、常识问答
Phi-3 (3.8B)	2.3 GB	4 GB	轻量级，适合配置较低的机器
Llama 3.1 (70B)	40 GB	48 GB	接近云端水平，但需要高配硬件

提示：如果你的 Mac 是 Apple Silicon（M1/M2/M3/M4），本地推理性能非常优秀 — 得益于统一内存架构，8 GB 内存的机器也能顺畅运行 7B 模型。Windows 上如果有独立 NVIDIA GPU（支持 CUDA），速度会显著提升。

本地大模型 + WhatsApp 性能调优建议

本地模型与云端 API 的使用体验有所不同。以下是几个让体验更顺畅的小建议：

控制回复长度

本地模型生成速度比云端 API 慢。在 OpenClaw Easy 的 Agent Config 中设置一个合理的最大回复长度。WhatsApp 对话场景下，150-300 tokens 通常比较合适 — 既能给出有用回答，又能保持响应速度。

速度优先则选小模型

在 M2 MacBook Air 上，一个 7B 模型大约能产生 20-30 tokens/秒，约等于 100 字的回复需要 2-3 秒。如果觉得慢，可以试试更小的 Phi-3（3.8B），同样硬件下速度几乎翻倍。

关闭其他占用大的程序

本地推理对 CPU 和内存的占用很高。如果同时运行其他大型应用，AI 响应会变慢。为获得最佳性能，使用 AI 机器人期间尽量减少后台程序。

使用量化模型

Ollama 默认使用量化（压缩）后的模型，但你也可以选择不同的量化等级。默认的 Q4 量化在质量和体积上比较均衡。如果内存够用且想要更好质量，可以尝试 Q8 版本。

本地大模型 vs 云端 API：什么时候选哪个？

本地模型并不是所有场景下的最佳选择。下面这份对照帮你决定：

选择本地大模型的场景：

隐私是硬性要求（医疗、法律、金融等敏感对话）。
希望首次配置后零成本运行。
需要离线使用。
想尝鲜各种开源模型。
硬件配置不错（8GB+ 内存，最好是 Apple Silicon 或 NVIDIA GPU）。

选择云端 API 的场景：

对回答质量要求极高（ChatGPT、Claude 仍领先于大多数本地模型）。
追求响应速度 — 云端 API 通常 1 秒内就能返回结果。
硬件配置有限（老笔记本、内存小）。
需要使用最新、最大的模型（100B+ 参数）。

好消息是，OpenClaw Easy 同时支持本地和云端两种模式。你可以先用本地模型，之后切换到云端 API（反之亦然），且无需重新连接 WhatsApp。

常见问题

能同时使用多个模型吗？

Ollama 可以同时服务多个模型，但 OpenClaw Easy 每个 Agent 配置只使用一个模型。你可以随时在 Agent Config 中切换模型，切换立即生效。

Ollama 会用我的 GPU 吗？

如果有 GPU，会自动使用。Apple Silicon 的 macOS 上，Ollama 自动使用统一内存架构下的 GPU；Windows 和 Linux 上，则通过 CUDA 调用 NVIDIA GPU。纯 CPU 推理也能跑，但大模型上明显较慢。

需要多少磁盘空间？

取决于模型。一个 7B 模型约 4-5 GB。你可以下载多个模型并随时切换。如果磁盘紧张，建议一次只保留一个模型。

本地大模型也能用于 Telegram 或 Discord 吗？

当然可以。在 OpenClaw Easy 中将 Ollama 配置为 AI 提供商后，它适用于所有渠道 — WhatsApp、Telegram、Discord、Slack 等。AI 提供商与消息渠道是相互独立的。

电脑进入睡眠时会怎样？

Ollama 和 OpenClaw Easy 都会暂停。睡眠期间收到的消息会在唤醒后处理。如果想让机器人 7x24 在线，请在系统设置中阻止电脑进入睡眠。

下一步

你现在已经在 WhatsApp 上拥有了一个完全私密的本地 AI 聊天机器人。接下来可以尝试：

试试不同模型 — 下载 Qwen、DeepSeek、Mistral 对比回答质量。中文场景下推荐优先试 Qwen 2.5。
接入更多渠道 — 把本地 AI 接到 Telegram、Discord 或 Slack。
定时执行 AI 任务 — 配置 cron 任务让 AI 按计划发送消息。
了解更多隐私话题 — 阅读为什么本地优先的 AI 很重要。
使用桌面 AI 应用 — 看看 2026 年最好的免费 AI 桌面应用。

过去要在 WhatsApp 上运行本地大模型，需要写代码、部署服务器、掌握不少技术。有了 Ollama 和 OpenClaw Easy，15 分钟就能搞定。免费下载 OpenClaw Easy，现在就试试。

如何通过 Ollama 在 WhatsApp 上运行本地大模型