谁在用 AI 图片生成

2024-9-23

AIGC 图片生成的技术，基本是22年开始爆发，Midjourney 2022年7月推出，Stable Diffusion 2022年8月推出，至今两年发展迅速，已经广泛在很多场景应用，但这个市场上是谁在用图片生成，用来做什么，一直以来在我认知里都有些模糊，这篇文章做下相关调研。

线上线下所有用到图片的地方，都有 AI 图片生成的应用空间，而 AI 图片生成的能力，也会创造出新的领域和行业，就目前能看到的已经在应用的场景，归归类可以分为：生产力工具、大众娱乐、探索创作。

ToB：生产力工具

把 AI 图片生成能力作为实际工作中的生产力工具，用在各领域的内容生产，替换原来的工作流，效率有量级上的提升，同时也有因为 AI 图生成带来的新的领域，例如自媒体。

这里的用户大部分是设计师，全球设计师 9000w，包含建筑设计、室内设计、工业设计、服装设计、产品设计、平面设计等，Adobe 付费订阅人数2650w（2022年），是非常大的市场。

电商

电商有大量的市场，为了展示、介绍、美化不同种类的商品，对图片有巨大的诉求，是AI图片（以及视频）最好的应用场景。

模特图：模特换衣、模特生成、在线试衣，专门服务服饰品类的工具，全球电商服饰品类市场规模六千亿美元，这让它对应的工具需求也足够大，能搜到的有几十家公司专门在做，例如Botika、VModel.AI、摹小仙、千面AI模特、ZMO.ai、linkfox，美图秀秀/醒图等也有相关工具。入门门槛低，但效果的调优是wu’zhi’jing的，不同角度/动作/不同衣服穿上后的自然度等都需要不断调优。

换模特换衣
商品图：上传商品图，AI 可以帮你生成商品在不同环境下的宣传图，免去摆拍。相对于直接抠图→套模板，AI生成质量高，可定制程度也高，可以创造符合商品的各种背景，商品能更好融入对应背景、环境的光线阴影、颜色、高保真，这里的效果调优也是无止尽。同样有非常多公司在做，photoecom、灵动AI 、PicCopilot。综合性的图片工具大多也会加入这个功能，比如 photoroom。

灵动AI photoroom
其他长尾：电商很庞大，除了上述两个类，整个上下游各个品类还有不少细小长尾的 AI 图片生成需求，例如 T恤定制、衣服花纹生成、款式生成、站外营销图等。
从发展趋势看，电商平台如果自身有余力，都会去做这样的工具，嵌入到自己平台内，整个工作流更顺，像淘宝千牛自己就做了。但竞争是无止境的，所有商家都用平台提供的工具，质量品质同质化后，就会有个性化或追求更好效果的诉求，外部工具一直会有机会。

素材

素材应该是需求第二大的领域，活动图、海报、封面插图(文章/播客/杂志)、PPT，日常工作很多场景会用到，以前是搜图片找素材拼接，但如果是商用场景，一不小心有侵权的风险，素材是需要付费的，AI 图生成目前没有这个问题，而中国的版权图片市场规模在2020年是34亿，在高速复合增长。素材生成的诉求很泛，不太依赖可控生成，应该大部分都用图生成质量最好的 Midjourney，海报生成因为涉及文字，ideogram.ai 有较大的优势。


ideogram海报	营销素材	壁纸

自媒体

AI 图片生成的能力会被一些自媒体创作者用于创作有趣的内容，带来流量，进而接商单。例如影视/动漫 IP 二创、自制IP形象（宠物打工、宠物时装秀等）、扩图玩梗、表情包等，会不断有各种有趣的玩法持续出现。


高质量图	扩图，玩梗	玩法	影视IP二创	自制IP

其他

游戏设计：首当其冲是游戏原画，AI 图片生成出来的质量，跟外包原画师已经没有太大差异，或者质量更好，去年就传出游戏公司大规模砍原画外包的新闻。同时游戏内容本身需要大量的角色、场景设计，对于质量要求不高的 2D 游戏，AI图生成已经可以很好满足需求。

角色生成游戏原画
建筑设计：借助 SD ControlNet 的能力，很容易做到建筑线稿设计图转绘为效果图，渲染不同风格，也不需要有多少微调的工作，各工作室自己可以部署。对于建筑灵感，直接用 Midjourney 看起来也是足够。

概念设计线稿转绘
漫画/绘本故事：核心是模型角色保持的能力。儿童绘本故事门槛很低，网上也有大量应用的教程，大众对质量的要求也没那么高，这是 AI 图生成目前擅长的。漫画门槛高一些，核心是故事、分镜的质量，生图所占的比例其实不高，所以如果用 AI 大规模生产，质量堪忧，但也有一些精品，比如这个。针对漫画有一些独立的产品和模型，例如dashtoon、Comic Factory、comicsmaker、llamagen等。

武侠漫画 Comic Factory
动画/短剧：同样借助角色保持能力，生成图片后转成视频形式去消费，这也是后续内容制作的趋势。目前还没看到大规模成熟的应用，短剧类 midreal 相对小众，月活几万的级别。小说转动画视频有不少产品在尝试剪映的故事成片、极虎漫剪、漫剪猫等，规模比较小，但作为生产力工具，付费率是挺高的，做出来的内容有一定消费价值。

ToC：大众娱乐

图片特效

大众用户日常社交对图片是刚需，AI 图片生成在这个领域的应用是最广泛和成熟的，跑出很多爆款产品，Top 的是 Remini（23年MAU 8000w+，收入6643万美元），其他也有非常多产品冒出，AIMirror/FaceAPP/Lensa/Prisma等。

这个领域不断会有爆品出现，理论上不会一家独大，每个产品都有机会，逻辑是：出效果爆款→社交媒体传播全网引爆→大量用户使用&付费→热点几周后消退，用户少量留存，大量流失→找下一个爆款→找到进入下一个循环，找不到产品逐渐消亡。典型的持续活下来的产品是Remini，消亡的是妙鸭。

具体应用上，姑且分为 AI 写真和特效。

AI写真：人像 P 图是刚需，AI写真算是这个刚需的分支，火过很多产品，国内的妙鸭，海外Remini，还有一大波专门做这块的垂类产品 PhotoAI、星绘等。妙鸭虽然火一波以后销声匿迹，但这个需求是长期可持续的，photoAI 是独立开发者的产品，月流水已经到17万美元。主要用于各社交软件头像、linkedin商务照等。
特效：比如风格化的黏土风格、盲盒公仔、迪斯尼风等，还有其他例如换发型、换性别、变老变年轻、扩图等特效。


Remini 众多特效	星绘 AI 写真	ailabtools 换性别、年龄

新场景

另一类 ToC 的应用，是把 AI 图片生成能力作为全新产品的一部分嵌入，跟产品形态有较强的绑定。

陪伴类产品：纯 LLM 文字陪伴发展下去肯定是结合图片生成/视频生成，让人更沉浸式，可以衍生抽卡、剧情图、虚拟女友形象等。产品非常多，MiniMax 的星野/Talkie、candy.ai、dreamgf.ai 等，AI 陪伴还在爆发增长期，AI 生图在这个领域有很大应用空间。
教育类产品：DoDoboo 将儿童涂鸦实时转为绘画作品，激发儿童创造力。是一个尝试性的应用场景，没有很成功，但 AI 教育是万亿级别市场，儿童教育领域本身注重创造力想象力的培养，AI 图片生成就是想象力的呈现，是有机会创造或融入更多教育产品。
NSFW：成人产品，比较特殊，市场自然是巨大的，待分析。


Talkie	DoDoboo

探索创作

除了上述 ToB 和 ToC 两类非常明确的应用场景外，AI图生成还衍生出另一波探索型用户。他们不是为工作，无商业目的，单纯喜欢玩 AI 创作，他们可能不会画画，AI 让他们可以不需要学习绘画技能，就能创作出好的作品，这对有创作欲的人有很强的吸引力。

Midjourney 付费用户中，只有 32% 的用户目的是工作或实际需求，68%的用户是为了娱乐。一方面因为 Midjourney 可控性不足，导致很难在真实生产环境使用，较少覆盖上述 ToB/ToC 的那部分用户，另一方面也能看出，纯粹探索 AI 玩图片生成的人群规模也不小，24 年 Q2 Midjourney 月活 600万+，24 年预计收入预计超过 3 亿美元。


Midjourney	Midjourney	thehybridportraits 高端定制

图片生成技术，跟摄影技术有点像：

没有摄影时，只能通过超高的绘画技术记录现实画面，门槛很高，摄影技术让人人拥有记录现实的能力，只需要按个按钮。
而没有图片生成技术时，也只能通过绘画技术记录和创作现实没有的画面，把心中想象的创意具象化，图片生成技术让人人拥有创作的能力，只需要输入文字。
除此以外，还有一些相似点：
1. 人人能用，但专业才能用得好：AIGC跟相机一样只是技术，日常拍照人人能拍，要拍出好的照片，不是人人能做到，即使摄影看起来只是按下快门，调下参数。图片生成随便输入 prompt 人人能创作图片，但要创作出好的作品，也不会是人人都能做到，即使看起来只需要输入文字。
2. 大众需要，商业也需要：摄影可以记录生活，这是大众需要的，也可以杂质配图、做商业广告等，这是商业需要的。图片生成也一样。
3. 新的艺术形式：摄影单独是一种艺术形式，相信 AI 图片生成也会带来独有的新的艺术形式，只是目前还未成型，摄影从诞生到成为一种艺术形式，也花了60年。跟画画与摄影不同的是，AI 图片生成创作，是有双向交互的，它不是定死的画笔或相机，创作过程中，AI 创作出来的内容会牵引下一步创作动作，不是一步到位，也不是忠实呈现自己脑里所想、呈现现实世界已有的东西，AI 不仅是工具，作品是人与 AI 的共创，有可能是新的艺术形式。

但跟摄影不同的是，图片生成技术，也许无法像拍照一样普及率那么高，摄像头记录美好生活是高频刚需，但创作不是，纯 AI 创作最终还是属于少部分创作者，就像能称为摄影师的只是少部分人。AI 技术进步是赋予了不会画画但有创意的一波人更强的能力，就像抖音最终赋予的也是少部分创作者展示他们才华的能力一样。

创作无法普及到大众，但创作出来的内容是能普及的，内容消费是大众刚需，至于这波创作者能否创作出跟摄像头相媲美的另一个维度的内容，支撑起一个 AI 内容消费社区，有待探索。

最后

生产工具、大众娱乐、探索创作，这三类图片生成的应用，差距还是比较大的。

生产工具，需要深入到场景做微调，不断优化效果、深入工作流。
大众娱乐，需要的是制造爆款的能力。
探索创作，需要有最好的基础模型能力，以及做好社区运营。

目前看起来没有一个产品能大面积覆盖这几个场景，未来会不会有？只要团队能满足这些条件，能造出一个超级应用满足所有图生成的诉求，大众认知上是没问题的，像上个时代的 Photoshop。

分类:互联网 Tags:AI

上一篇：什么是多模态大模型

下一篇：客户端大模型进展怎样了？

匿名

2024年11月13日 14:09

大众娱乐方向，后期重点可能还是创作者生态上吧，类似 remini 这种靠自己创作模板驱动运营，在市场中后期估计竞争力和数量上会降低不少

匿名

2024年11月20日 11:45

偶然想到多年前的『伊书』，查询一番发现是前鹅厂同事，祝好

谁在用 AI 图片生成

ToB：生产力工具

电商

素材

自媒体

其他

ToC：大众娱乐

图片特效

新场景

探索创作

最后

分类目录

标签云


换模特	换衣


灵动AI	photoroom


角色生成	游戏原画


概念设计	线稿转绘