在 Android 上运行 Llama 3.2:使用 Ollama 的分步指南
运行时/cgo
Meta 在其开发者大会上发布了 Llama 3.2,它凭借其多模态功能以及针对高通和联发科移动硬件优化的模型,重新定义了设备端 AI。Llama 3.2 拥有四种变体——多模态模型(11B 和 90B 参数)以及纯文本模型(1B 和 3B 参数),为 Android 设备带来了强大的 AI 能力,从而打造出私密、高效且响应迅速的应用程序。轻量级的 1B 和 3B 模型尤其适用于移动设备,在文本生成和多语言任务方面表现出色,而更大型的模型则在图像理解和图表推理方面表现出色。
在本篇博文中,我们将带您了解使用Termux和Ollama在 Android 设备上运行 Llama 3.2 的全新流程。最新的改进简化了设置,使本地部署这些模型变得前所未有的轻松。我们将重点介绍实用的入门步骤,探讨性能考量,并重点介绍本地 AI 为何能够带来颠覆性的变革。
为什么要在本地运行 Llama 3.2?
在 Android 设备上运行 Llama 3.2 等 AI 模型有两个主要优势:
- 即时处理:所有计算都在设备上进行,消除了云延迟。
- 增强隐私:您的数据保留在您的设备上,确保机密性。
借助 Termux 提供的 Linux 环境和 Ollama 简化的模型管理,您可以利用 Llama 3.2 的功能,而无需依赖云基础设施。
先决条件
在深入研究之前,请确保您已:
- 至少具有 2GB RAM 的 Android 设备(建议 3B 型号使用 4GB+)。
- 稳定的互联网连接,用于下载 Termux、Ollama 和 Llama 3.2 模型。
- 1B 或 3B 模型和依赖项有大约 2-3GB 的可用存储空间。
在 Android 上运行 Llama 3.2 的分步指南
步骤1:安装Termux
Termux 是一个终端模拟器,无需 root 访问权限即可在 Android 上创建 Linux 环境。
- 下载 Termux:
- 访问 Termux GitHub 发布页面并下载最新的 APK(例如
termux-app_v0.119.0+
或更新)。 - 避免使用 Google Play Store 版本,因为它可能已经过时。
- 访问 Termux GitHub 发布页面并下载最新的 APK(例如
- 安装APK:
- 打开下载的文件并按照提示安装 Termux。
- 启动 Termux:
- 打开应用程序以访问终端。
第 2 步:设置 Termux 环境
配置 Termux 以确保它已为 Ollama 和 Llama 3.2 做好准备。
- 授予存储访问权限:
termux-setup-storage
这允许 Termux 访问您设备的存储以进行文件管理。
- 更新包:
pkg update
pkg upgrade
Y
当提示将 Termux 及其软件包更新到最新版本时输入。
步骤3:安装Ollama
Ollama 是一个运行大型语言模型的平台,现在可以直接在 Termux 存储库中使用,与需要手动编译的旧方法相比,简化了流程。
- 安装Ollama:
pkg install ollama
此命令安装预先构建的 Ollama 二进制文件,从而无需手动克隆和构建存储库。
步骤4:启动Ollama服务器
运行 Ollama 服务器来管理模型请求。
- 启动服务器:
ollama serve &
服务器在后台运行&
,释放终端以执行进一步的命令。
步骤5:运行Llama 3.2
根据您设备的功能选择 Llama 3.2 型号并运行它。
- 选择型号:
- 1B 型号(
llama3.2:1b
,~1.3GB):适用于具有 2GB+ RAM 的低规格设备。 - 3B 型号(
llama3.2:3b
,~2.0GB):适用于具有 4GB+ RAM 的设备以获得更好的性能。 - 11B 和 90B 型号由于其尺寸(7.9GB 和 55GB)和资源需求,对于大多数 Android 设备来说并不实用。
- 1B 型号(
- 运行模型:对于 3B 模型:
ollama run llama3.2:3b
对于 1B 模型(如果性能较慢):
ollama run llama3.2:1b
首次运行时,模型将会下载。下载完成后,您可以直接在终端中与其交互。
- 可选详细模式:添加
--verbose
详细日志,例如ollama run llama3.2:3b --verbose
。
步骤 6:与 Llama 3.2 交互
模型加载后,您将看到一个提示,您可以在其中输入查询。例如:
- 输入:“将一篇 500 字的文章概括为 50 个字。”
- 输出:Llama 3.2 将根据您的输入生成简明的摘要。
尝试文本生成、问答或多语言翻译等任务。1B 和 3B 模型针对此类基于文本的任务进行了优化。
步骤 7:优化性能
性能取决于您设备的硬件。以下是确保设备顺畅运行的技巧:
- 关闭后台应用程序:关闭繁重的应用程序以释放 RAM。
- 使用 1B 模型:如果 3B 模型滞后(例如,在较旧的设备上),请切换到 1B 模型以获得更快的响应。
- 测试设备:1B 型号在中端设备(例如 2GB RAM)上运行流畅,而 3B 型号在配备 4GB+ RAM 的三星 S21 Ultra 等高端设备上表现良好。
步骤 8:可选清理
试验后,进行清理以节省空间或简化访问。
- 删除不必要的文件:
chmod -R 700 ~/go
rm -r ~/go
这将清除所有残留的与 Go 相关的文件。
- 移动 Ollama 二进制:
cp ollama/ollama /data/data/com.termux/files/usr/bin/
这使得它ollama
可以全局访问,因此您可以从任何目录运行它。
常见问题故障排除
- 性能下降:请切换到 1B 型号或关闭其他应用程序。内存小于 4GB 的设备可能无法运行 3B 型号。
- 安装错误:请确保先运行
pkg update
并pkg upgrade
安装。如果pkg install ollama
失败,请检查网络连接或重新安装 Termux。 - 模型下载卡住:请检查存储空间是否可用,然后重试。Ollama 模型较大(1B/3B 模型大小为 1.3-2.0GB)。
- 详细日志:用于
--verbose
诊断模型执行期间的问题。
对于特定于设备的问题(例如,Pixel 设备更新后响应缓慢),请查看 Reddit 或 Termux GitHub 等社区论坛。
为什么这很重要
Llama 3.2 能够在 Android 设备上运行,标志着 AI 大众化迈出了重要一步。通过利用 Termux 和 Ollama,开发者和爱好者可以:
- 构建在本地处理数据的隐私优先应用程序。
- 为摘要、翻译或聊天机器人等任务创建离线 AI 工具。
- 在消费级硬件上试验人工智能,减少对云服务的依赖。
1B 和 3B 模型对于移动设备来说尤其令人兴奋,可以在低连接区域实现设备内置个人助理或教育工具等用例。
结论
得益于简化的pkg install ollama
方法,现在使用 Termux 和 Ollama 在 Android 上运行 Llama 3.2 比以往任何时候都更加便捷。无论您是探索设备端 AI 的开发者,还是对本地 LLM 感兴趣的爱好者,本指南都能帮助您快速上手。凭借针对移动设备优化的模型和精简的设置,Llama 3.2 为快速、安全且私密的 AI 应用打开了大门。
如需了解更多详情,请访问 Ollama 网站或浏览 Termux GitHub 上的社区讨论。请在下方评论区分享你的经验或疑问——祝你 AI 探索愉快!
文章来源:https://dev.to/koolkamalkishor/running-llama-32-on-android-a-step-by-step-guide-using-ollama-54ig