AI 瞎想 – LUI交互/新计算机

2024-6-29

LUI 交互

LUI (Language User Interface，自然语言 or 输入框为主的交互) 有几大缺点：

效率低（打字）or 隐私性差（语音）。
说话是填空题（要动脑），GUI 是选择题（可无脑选）。
难以精确表达。

这三点都是成本，如果一些场景想尝试 LUI 代替部分 GUI，需要时刻想好，如果用户得到的体验大于这几点成本，那就是合适的场景，否则不要勉强。

用 LUI 操作使用工具，模型能力（识别/执行能力）得在这个垂直领域靠近 AGI（代指跟人的识别和执行能力一致），或者能在这领域内限定在尽量小的范围内靠近 AGI，否则交互过程中模型不理解/无法执行带来的挫败，加上第一二点的成本，用户得到的体验大概率是负的。

微软copilot 尝试了GUI 为主，LUI为辅的方式。剪映的对话式剪辑尝试了以 LUI 为中心，GUI 为辅或者没有 GUI 的方式。目前看起来都没达到预期。原因自然是模型能力还达不到，识别和执行能力差。

视频剪辑/PPT制作领域都太大，在这个大垂直领域模型要做到 AGI 的程度还太早，也是高估了短期模型能力的进步速度，需要把领域范围限定得更小，在这范围内用户的输入都能很好理解和执行，才可能跑通。

假如模型真达到 AGI 的程度，跟人的能力一样，是否视频剪辑用 LUI 是最好的方式？想象中不一定，工具能力不会是无限的，总有个范围，这个范围 GUI 能清楚地告诉你，LUI 很难，到时可能会有其他演化的交互配合 LUI。

新计算机

最近学习 transformer，看那些向量/矩阵的乘法，有种在学数字电路原理的感觉，要作类比的话，模型就是新的计算机，transformer 像芯片，SFT 像汇编，prompt 像 c 语言，往上 langchain/coze 是高级语言的尝试。原计算机是确定性计算，模型是概率性的模拟人脑的计算机。

但模型并没有遵循摩尔定律，18 个月性能翻一翻，GPU 运算能力确实每年性能都在暴涨，但模型的性能不是计算速度，而是理解能力。GPT-3.5 出来已经 18 个月了，GPT-4 已经 15 个月，模型能力的进步很有限，在这过程最大的变化只是开源模型逐渐追上，以及基于模型上层搭建的应用和生态上，基础模型能力没有大的突破。

我们预期模型性能能持续增强，基础是 Scaling Law，Llama3 训练中的最大参数量模型是4000亿，传闻 GPT4 参数量是1万亿，而人类大脑神经元突触连接有1000万亿（来源Wikipedia，也有说100万亿的），神经网络本身就是模仿大脑的构造，如果做类比有 100-1000 倍的差距，有很大的空间。Scaling Law 目前看还没收敛，能继续往这条路走，只是技术上的承接还没看到规律，无法形成新的摩尔定律，所以大家很期待 GPT-5，它能一定程度上让人判断模型的摩尔定律大概是什么节奏和速度。

图生成和视频生成领域，反而在过去18个月里有非常明显的提升，因为相对 LLM 它还在早期，而图像和视频的特性导致它早期也能有很好的应用。若 LLM 不顺利，图片视频能持续保持这提升速度，更有可能成为这几年的重点。

分类:互联网 Tags:AI

上一篇：手机能跑图生成和 LLM 大模型吗

下一篇：Transformer 里的 Q K V 是什么

AI 瞎想 – LUI交互/新计算机

LUI 交互

新计算机

分类目录

标签云