在 Android 上运行 Llama 3.2：使用 Ollama 的分步指南

运行时/cgo

Meta 在其开发者大会上发布了 Llama 3.2，它凭借其多模态功能以及针对高通和联发科移动硬件优化的模型，重新定义了设备端 AI。Llama 3.2 拥有四种变体——多模态模型（11B 和 90B 参数）以及纯文本模型（1B 和 3B 参数），为 Android 设备带来了强大的 AI 能力，从而打造出私密、高效且响应迅速的应用程序。轻量级的 1B 和 3B 模型尤其适用于移动设备，在文本生成和多语言任务方面表现出色，而更大型的模型则在图像理解和图表推理方面表现出色。

在本篇博文中，我们将带您了解使用Termux和Ollama在 Android 设备上运行 Llama 3.2 的全新流程。最新的改进简化了设置，使本地部署这些模型变得前所未有的轻松。我们将重点介绍实用的入门步骤，探讨性能考量，并重点介绍本地 AI 为何能够带来颠覆性的变革。

为什么要在本地运行 Llama 3.2？

在 Android 设备上运行 Llama 3.2 等 AI 模型有两个主要优势：

即时处理：所有计算都在设备上进行，消除了云延迟。
增强隐私：您的数据保留在您的设备上，确保机密性。

借助 Termux 提供的 Linux 环境和 Ollama 简化的模型管理，您可以利用 Llama 3.2 的功能，而无需依赖云基础设施。

先决条件

在深入研究之前，请确保您已：

至少具有 2GB RAM 的 Android 设备（建议 3B 型号使用 4GB+）。
稳定的互联网连接，用于下载 Termux、Ollama 和 Llama 3.2 模型。
1B 或 3B 模型和依赖项有大约 2-3GB 的可用存储空间。

在 Android 上运行 Llama 3.2 的分步指南

步骤1：安装Termux

Termux 是一个终端模拟器，无需 root 访问权限即可在 Android 上创建 Linux 环境。

下载 Termux：
- 访问 Termux GitHub 发布页面并下载最新的 APK（例如termux-app_v0.119.0+或更新）。
- 避免使用 Google Play Store 版本，因为它可能已经过时。
安装APK：
- 打开下载的文件并按照提示安装 Termux。
启动 Termux：
- 打开应用程序以访问终端。

第 2 步：设置 Termux 环境

配置 Termux 以确保它已为 Ollama 和 Llama 3.2 做好准备。

授予存储访问权限：

   termux-setup-storage

这允许 Termux 访问您设备的存储以进行文件管理。

更新包：

   pkg update
   pkg upgrade

Y当提示将 Termux 及其软件包更新到最新版本时输入。

步骤3：安装Ollama

Ollama 是一个运行大型语言模型的平台，现在可以直接在 Termux 存储库中使用，与需要手动编译的旧方法相比，简化了流程。

安装Ollama：

   pkg install ollama

此命令安装预先构建的 Ollama 二进制文件，从而无需手动克隆和构建存储库。

步骤4：启动Ollama服务器

运行 Ollama 服务器来管理模型请求。

启动服务器：

   ollama serve &

服务器在后台运行&，释放终端以执行进一步的命令。

步骤5：运行Llama 3.2

根据您设备的功能选择 Llama 3.2 型号并运行它。

选择型号：
- 1B 型号（llama3.2:1b，~1.3GB）：适用于具有 2GB+ RAM 的低规格设备。
- 3B 型号（llama3.2:3b，~2.0GB）：适用于具有 4GB+ RAM 的设备以获得更好的性能。
- 11B 和 90B 型号由于其尺寸（7.9GB 和 55GB）和资源需求，对于大多数 Android 设备来说并不实用。
运行模型：对于 3B 模型：

   ollama run llama3.2:3b

对于 1B 模型（如果性能较慢）：

   ollama run llama3.2:1b

首次运行时，模型将会下载。下载完成后，您可以直接在终端中与其交互。

可选详细模式：添加--verbose详细日志，例如ollama run llama3.2:3b --verbose。

步骤 6：与 Llama 3.2 交互

模型加载后，您将看到一个提示，您可以在其中输入查询。例如：

输入：“将一篇 500 字的文章概括为 50 个字。”
输出：Llama 3.2 将根据您的输入生成简明的摘要。

尝试文本生成、问答或多语言翻译等任务。1B 和 3B 模型针对此类基于文本的任务进行了优化。

步骤 7：优化性能

性能取决于您设备的硬件。以下是确保设备顺畅运行的技巧：

关闭后台应用程序：关闭繁重的应用程序以释放 RAM。
使用 1B 模型：如果 3B 模型滞后（例如，在较旧的设备上），请切换到 1B 模型以获得更快的响应。
测试设备：1B 型号在中端设备（例如 2GB RAM）上运行流畅，而 3B 型号在配备 4GB+ RAM 的三星 S21 Ultra 等高端设备上表现良好。

步骤 8：可选清理

试验后，进行清理以节省空间或简化访问。

删除不必要的文件：

   chmod -R 700 ~/go
   rm -r ~/go

这将清除所有残留的与 Go 相关的文件。

移动 Ollama 二进制：

   cp ollama/ollama /data/data/com.termux/files/usr/bin/

这使得它ollama可以全局访问，因此您可以从任何目录运行它。

常见问题故障排除

性能下降：请切换到 1B 型号或关闭其他应用程序。内存小于 4GB 的设备可能无法运行 3B 型号。
安装错误：请确保先运行pkg update并pkg upgrade安装。如果pkg install ollama失败，请检查网络连接或重新安装 Termux。
模型下载卡住：请检查存储空间是否可用，然后重试。Ollama 模型较大（1B/3B 模型大小为 1.3-2.0GB）。
详细日志：用于--verbose诊断模型执行期间的问题。

对于特定于设备的问题（例如，Pixel 设备更新后响应缓慢），请查看 Reddit 或 Termux GitHub 等社区论坛。

为什么这很重要

Llama 3.2 能够在 Android 设备上运行，标志着 AI 大众化迈出了重要一步。通过利用 Termux 和 Ollama，开发者和爱好者可以：

构建在本地处理数据的隐私优先应用程序。
为摘要、翻译或聊天机器人等任务创建离线 AI 工具。
在消费级硬件上试验人工智能，减少对云服务的依赖。

1B 和 3B 模型对于移动设备来说尤其令人兴奋，可以在低连接区域实现设备内置个人助理或教育工具等用例。

结论

得益于简化的pkg install ollama方法，现在使用 Termux 和 Ollama 在 Android 上运行 Llama 3.2 比以往任何时候都更加便捷。无论您是探索设备端 AI 的开发者，还是对本地 LLM 感兴趣的爱好者，本指南都能帮助您快速上手。凭借针对移动设备优化的模型和精简的设置，Llama 3.2 为快速、安全且私密的 AI 应用打开了大门。

如需了解更多详情，请访问 Ollama 网站或浏览 Termux GitHub 上的社区讨论。请在下方评论区分享你的经验或疑问——祝你 AI 探索愉快！

文章来源：https://dev.to/koolkamalkishor/running-llama-32-on-android-a-step-by-step-guide-using-ollama-54ig

在 Android 上运行 Llama 3.2：使用 Ollama 运行时/cgo 的分步指南