客户端大模型进展怎样了？

2024-12-8

近期苹果发布的新品，无论是 iPhone 还是 Mac，都一改之前挤牙膏的风格，在最低配机器上都加大了内存，目的很明确，就是支撑 iPhone 和 Mac 上的端 AI 大模型。过去一年，AI手机、AI电脑的概念也一度在炒，在之前写的文章也说过，在客户端上跑大模型，一定是未来趋势。那目前端上大模型情况怎样？

应用近况

总的来说，各家陆续出了不少小模型，相关工具链也能支持它们在客户端上跑起来，但可用的应用几乎没见到。

不少手机厂商都号称接入了端模型，但实际上没搜到相关具体应用，Apple Intelligence 还在路上，演示的能力似乎大多是云端模型，不确定本地小模型能做的事。Google Pixel 8 也没有接入Gemini nano，小米14上没有MiLM，小爱完全靠云端模型，OPPO find7 号称端侧模型用于生成通话摘要等一系列能力，但似乎得联网，不确定端模型在上面起到的作用有多大，真正能离线用的也只有图片消除功能。

为什么雷声大雨点小？

完全体 LLM 近一年的应用场景也有限，端上也就更少了，当前阶段业界精力还是主要投入在研发最好的模型上，很难顾得上端的优化。
现在的硬件和模型优化程度还不允许 LLM 在端上有作为。端设备基本都对体积和功耗敏感，这两者都限制了硬件能提供的最大性能，7B的模型硬件支持不好，3B的效果不好。

我在 Macbook pro M1 上试跑了下，感受是：3B级别的小模型基本不可用，7B/8B级别的模型速度太慢，资源占用也太大：

llama3.2 3B模型，大小2G，推理速度 62 token/s，翻译/总结/简单的指令理解，都有很大偏差，基本不可用。3B 这个级别或更小的模型，目前看起来需要针对特定任务做微调才能有作用，通用能力不太行。
llama 3.1 8B模型，大小15G，推理速度约 8 token/s，基本问答/翻译/总结可用，但速度太慢，资源要求太高。（这篇文章估算了推理速度，与实测差不多）

LLM 端推理引擎

客户端 LLM 应用还没到时候，但不妨碍大家对这个方向的投入热情，相关的工具链有比较大的进展。

这块工具链的核心是推理引擎，LLM 的训练和推理一般都用 PyTorch，它在GPU适配/加速/生态上都是最好的，但在客户端跑模型，有一些其他诉求：

在 CPU 上推理的能力，以及能适配多种 GPU 加速
量化技术，需要更小的模型、更低的资源消耗
可以轻量编译部署到多种客户端环境

所以需要另一种推理引擎，目前用得最多的是 llama.cpp。

llama.cpp 是 C++ 开发的 LLM 推理引擎，最开始只用于 meta 的 Llama 模型推理，后来扩展到更多模型，包括 Mistral / Gemma / Phi / QWen 等基本所有开源的 LLM，也包括基于 LLM 的多模态模型 llava。llama.cpp 是个人开源项目，基于同个作者的 ggml，在它基础上加了相关大模型推理的功能，token 化 / 缓存管理等。

llama.cpp 可以跑在基本所有主流操作系统上，Android、iOS、Linux、Windows、macOS，甚至 WebAssembly上也提供支持，支持各种 GPU / CPU / NPU 推理。

基于 llama.cpp，上层包装了很多应用，可以方便地在桌面端和移动端跑各种 LLM 模型，桌面端上使用最多的是 ollama，近期 LMStudio 也很不错，移动端上可以用 pocketPal。

上述这些都是包装了模型下载管理和聊天的壳，目前比较少见到基于 llama.cpp 包装更上层垂类场景的应用。有些些 Mac AI 应用会同时提供线上 GPT 接口以及本地 ollama 接口，LLM 处理可以在本地进行，例如做音频视频转文字和总结的 MemoAI，这也可能是后续 Mac/PC 本地 AI 应用的标配。

除了llama.cpp，还有类似的mlc-llm，也是全平台和多种 GPU 支持。还有专为苹果芯片优化的LM Studio MLX，不多介绍了。

LLM 以外

在实际应用中，端 LLM 还没能用起来，但一些厂商为了推 AI 手机 / AI 设备的概念，经常会包装进一些其他的 AI 能力，比如图片消除能力、语音唤醒识别能力。目前端 AI 真正能在实际场景中应用得好的，也还是这些多媒体图片/语音处理类的小模型，跟 LLM 无关。

常见的图片处理比如杂物擦除、图片超清、背景去除等，都有很多小模型，转换为 ONNX 或其他推理引擎支持的格式就可以在端上跑。

ONNX 是一种标准开放的模型格式，PyTorch / TensorFlow 等各大深度学习框架训练的模型都可以转为 ONNX 格式，然后用统一的 ONNX Runtime 推理引擎部署在多种硬件和操作系统上，目前大多数端上推理引擎也都支持 ONNX 格式做推理，腾讯的 ncnn/TNN，阿里的MNN，小米的 mace 等都支持 ONNX 格式。

理论上只要模型不大，对硬件运算要求没有特别高，转化为 ONNX 格式后在端上都能很好地使用，很多特定的多媒体能力很符合这个条件，例如杂物擦除MI-GAN，只有590万个参数，直接跑在浏览器上 / APP 上都没问题，效果也不差。还有其他很多基于 GAN 的模型，图片超清Real-ESRGAN，老照片修复 GFPGAN 等，运算要求都不高，跑在端上没什么问题。IOPaint 这个项目可以看到比较多类似的模型。

如果不考虑多平台部署，把模型转为平台自带推理引擎支持的格式，是能更大程度优化性能的，例如可以将模型转为 CoreML 格式跑在 iOS/Mac 上，但相对比较少，大家更倾向于跨平台的方案。iOS 上比较有名的端生图 APP DrawThings 就是将 Stable Diffusion 转为 CoreML 格式并量化后跑在端上。也有把 SD 转为 ONNX 格式去端上跑的，但还没看到比较好的应用。

一些遐想

端模型的应用，从硬件上分两种：

AI 硬件

有些场景可以不受设备大小限制、甚至续航功率限制，可以做得比较大，车机系统是一种，这是最好最大的应用场景，端上大模型 AI 应用会最先产生在这个领域，FSD也可以认为是端 AI 的一种。
还有一些可能得 AI 教育硬件，陪伴的玩偶等，本身也足够塞个大运算量芯片和大电池。一些刚需的硬件，比如导盲眼镜，也可以是连着口袋里一个不小的计算设备，这些算是后续可能的端上大模型的应用场景。
但除了车载系统以外，其他 AI 硬件要采用这种方式，发展会比较难。技术体验是一回事，还有商业模式的问题。
这些设备是自带硬件端上跑，还是云端跑，其实就是买断制和订阅制的区别。在端上跑需要用户一次性付出较高的硬件成本，但后续没有其他额外的成本。云端跑初期用户付出的硬件成本低，甚至厂家也愿意赔钱卖机器，但后期是可以用订阅服务制长期收费。从这角度看，用户和商家基本都会选择订阅制，对双方都更友好。所以端大模型要在 AI 硬件上流行起来，还比较难，除非是有些场景对隐私和实时性要求就是很高。

手机电脑

另一种就是利用已有设备，不需要用户额外花钱买硬件，那就还是回到设备大小、续航功耗、发热、机型覆盖等限制，有些场景为了省成本可以先用起来，PC / Mac 陆续可以有一些应用场景，例如上面提到的连接 ollama 的 MemoAI，浏览器上的 AI 搜索也非常适合端上 LLM 去做，但可能这几年会一直处于小场景尝试的阶段，要到主流的程度还早得很，也可能一直不会是主流，手机更是了。

分类:技术文章 Tags:AI

上一篇：谁在用 AI 图片生成

下一篇：带文字的 AI 图片生成是怎么做的？

匿名