六大主流Agent横向测评,能打的只有两个半
【来源:虎嗅网】
一、这些 Agent 真能留下来吗?
Karpathy 说:“未来十年是 Agent 的十年。”
这话听起来有点像 VC 忽悠人的 Slogan。
不但句式完整,想象力很足,甚至还带那么点规划。
不过,我深以为然。
因为现在 Token 越来越便宜, MCP 越来越丰富,用户也越来越能接受长耗时的 AI 过程。
过去半年,我们眼见着一个个 Agent 产品从 Demo 走向 B/C 端 …
Manus、扣子空间、Lovart、Flowith Neo、Skywork,还有最近开源的超级麦吉。
邀请码被炒到几千块,内测还没上线,就有企业问能不能搞私有化部署。
只不过,我越用越在想,这么多 Agent,到底什么样的产品能在大浪淘沙之后留下来?
我自己拆解产品价值时,会考虑这样一条公式:产品价值 = 能力 × 信任 × 频率
-
能力:你到底能帮用户做成什么事?有没有形成稳定、可交付的产物?
-
信任:用户愿不愿意让你接手这件事?过程是否可控、行为是否可解释?
-
频率:你是不是在用户需要的场景里,随手就能调用?
每个维度最高分是 3 分;分为高中低与 0。
基础线是 8 分,超过 8 分属于好 Agent, 低于 8 分属于存疑产品。
公式参考了很多一线投资人的观点:
-
Reid Hoffman 说过,“未来我们每个人身边都有多个 AI 伙伴,它们组成一个能和你共事的Team”,但前提是:你信它、你能管它、你能复用它。
-
a16z 提醒创业者,Agent 的进化路径从 Copilot 到独立 Agent,需要从能不能接住需求开始。
-
红杉资本甚至用“Always-On Economy”来描述 Agent 的未来形态,但前提依然是:你有没有能力、你值不值得信任、你是否活在用户的日常操作里。
所以,Agent 产品不是谁跑得快、干得像人,就能活得下来。
而是谁在这三个维度上,每个都不能是零。
二、拆解代表性 Agent
那到底哪些产品“能力 × 信任 × 频率”的乘积够大,真的有留下来的可能?
我选了六个过去半年被频繁提及、在 B/C 端都有真实用户使用的 Agent 产品:Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及超级麦吉。
试着给这几个产品套一下上面的公式,试着从这三件事看清它们各自的关键点:
1. 能力:它到底帮你完成了什么任务?
2. 信任:做得质量能不能一次生成?
3. 频率:它能不能更高频地承接你的需求?
评分是个人主观评分,如果有不同意见,欢迎在评论区讨论。
Ps. 如果你不想看对各个产品的拆解,可以快速滑动到后面的思考部分。
Manus:爆得快,掉得也很快
我第一次看到 Manus,是那天晚上卡兹克在群里的直播。
用一句话描述任务,它就能自动拆解、规划、执行,再拼出一个完整的结果页面,甚至会自动写总结。
那一瞬间,我确实动心了:这是不是已经比 Copilot 更像 Agent了!
但真正用下去之后,我发现:
-
它只能在独立网页上跑流程,入口重,没法嵌进任何我日常工作的地方;
-
流程跑到一半,经常上下文断掉,中间卡住一环,等了好久,回头就挂了;
-
它能做事,但我说不上它做得是不是我真正想要的:我给命题,他还结果。
然后……这个结果,是不是你心里那个目标?难说。
后来它限流,我就再也没点开了。
它确实给了“能用”的场景,但没留下“好用”的理由。
Manus 的问题不在于交互多牛,而在于我用了一次,却没有信心打开第二次。
用“能力 × 信任 × 频率”的评估公式来看看它:
-
能力一般,成功率基本上在 20% 以下,给 1 分;
-
信任也有暴露,中间步骤、引用内容都可查,给 2 分;
-
但 Manus 很难融入用户的工作环境中,满血版不支持国内网络环境,给 1 分。
最终分数是 2 分,基本上可以归到玩具一类。
但是但是!Manus 的意义还是得单独拿出来说。
它让很多用户第一次意识到,甚至是让 AI 产品从业者意识到:Agent 不是更聪明的对话,而是更完整的动作链。
你可以说它只是缝合怪、demo 感太重,但它确实让我们看见了一个新的范式。
Agent 不再是 Chat bot,而是你说一个任务,它替你走完全流程。
就像硅谷 101 那篇文章标题写的:Manus 不够好,但天快亮了。
这个视频链接放在了文末的参考资料里,值得一看。
扣子空间:路线对,链路完整,但还在找用户留存的理由
扣子空间我之前单独写过一篇测评与拆解。
那时我的判断是,它的意义不在于“用起来多聪明”,而在于:它是我第一次看到有 Agent 系统能真的把“MCP 调用、任务编排、结果交付”稳定地跑完。
因为这件事不是谁想做就能做的,MCP 接入只是门槛,更大的难题在于:
-
有没有很好的调度系统可以帮助跑完全流程;
-
有没有工程化机制能兜住各种异常;
-
有没有能做出全链的基础架构。
它做得不完美,体验还不够顺滑,但它的路径清晰,方向可信。
拉回现在这套“能力 × 信任 × 频率”的评估公式,再来看看它:
-
能力没问题,链路完整、MCP 体系化使用,给 3 分;
-
信任也有暴露,中间步骤、引用内容都可查,给 2 分;
-
频率稍弱,它更多是被挂在扣子空间的页面里,需要用户收藏页面,给 2 分。如果哪天扣子空间合并到了飞书中… 那就是 3 分。
最终得分 12 分,属于后续如果更新了版本,我会愿意积极尝试的水平。
我甚至觉得,如果今年内会出现一款杀手级 All In One 的 Agent 应用,扣子空间的胜率很大。
因为……豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力,几乎占尽了天时地利人和。
而且,在架构上,扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。
虽然迭代路径清晰,架构完整,但它要留下来,可能还得回答一个问题:由于扣子空间是通用 Agent,在哪个任务场景里,用户能第一时间想起你?
至少到现在,我还没建立起这个直觉。
Lovart:直接给你交稿
Lovart 是为数不多我真正当作生产力工具的 Agent。也是我真的用钱投票的产品。
因为它实实在在做到了直接交稿:
-
我提需求,它自己拆成任务;
-
中间怎么画、用什么风格、怎么配色、怎么分层,它全程自己决定;
我全靠 Lovart 设计出我公众号的主视觉。
这真·是生产力工具。
它带来的价值,是我不具备的“关于设计的 Know How”。
我不需要再思考 prompt 写得够不够好,反正没有它好,我只用表达目标。
我之前专门写过一篇拆解它的文章,里面分析了它如何用 KnowHow 构建流程、生成统一风格的 MBTI 套图、如何自选工具链和标准化交付结构。
如果用“能力 × 信任 × 频率”这个公式评分:
-
能力:几乎是“以交付为核心的整合型能力”,不是拼拼图而是真能做成事,我给 3 分;
-
信任:在于你知道它交得出来,哪怕你点“生成”前会犹豫,但点完后大概率会满意,同样给 3 分;
-
频率:目前还是偏工具型,入口依赖用户主动保存并打开,我给 2 分。
总分 18 分,属于优秀 Agent。
我很喜欢 Lovart,它几乎能满足我的大部分设计场景,我只需要发起多次任务,然后收割结果。
很多人说它是个缝合怪,但我觉得它是缝合得特别好的缝合怪。
我认,我充。截图会员身份以示支持。
Flowith Neo:交互非常独特的 Agent
在没出 Agent 的时候,我就很喜欢这样的交互了。
我在和 Chat bot 对话的过程中,会基于某个节点进行新提问, Flowith 将这部分具象化了。
Neo 发布之后,我觉得是真的是遵循了好 Planning 、Action 范式的 Agent。
比如,我让它分析:
它没有二次确认,上手自己开始拆:
-
筛选股票、抓市场新闻、汇总分析;
-
一步步走工作流、结构化生成、分模块输出。
页面上的每个流程节点都能看到内容,生成速度很不错,最后把结果汇总形成报告。
这在很大程度上缓解了我对掌控 AI 的焦虑。
但仔细拆开之后,我发现它有两个关键能力特别牛:
-
一个是并发。不是并行调用几次这种Level,而是它可以在一个任务里同时开启N个执行链,互不冲突、稳定输出;
-
另一个是并发之后的串联机制。并发带来的超长上下文,如何才能不超出模型的 Token 上限?
这个是很令人头痛的工程化瓶颈,而 Neo 在这一步做得很好,能把并发节点自动组织、排序、压缩起来,甚至推给下一步模型继续用。
它能把推理结构具象化,这是一种很酷的 AI 设计,我很喜欢。
不过,我不能代表所有用户,这个酷酷的交互,对大部分基础用户来说,很多用户并不需要一个画布,他们只要一个开始,一个结束。
因为画布的交互不是所有普通用户都能玩明白的,自由的画布反而会让人无所适从。
所以如果你真有任务需要 Agent 跑流程,那它值得一试。但如果你想找一个每天都能给你干活的搭子,它可能还不够顺手。
如果用“能力 × 信任 × 频率”来拆:
-
能力没得说,它能拆能跑、执行链完整、支持高并发,后处理能力也在线,给 3 分;
-
信任也可以,流程透明、失败可查、输出有状态,给 3 分;
-
频率偏低,太开放的命题让我不知道他能做哪些,给 1 分。
总分 9 分;我对它的评价可能更多是一个玩具。
哦对,刚刚我给它的命题,它真的给我推荐了。
好的,相信你,我建仓了……Flowith 你最好靠谱一点……
Skywork:Manus Pro Ultra,办公界的Lovart
Skywork 是我目前看到的“办公场景最强”的 Agent 产品。
虽然它长得像 Manus,但我得说一句公道话:它比 Manus 强太多了。
其实很多 Agent 产品的基本形态都像 Manus,可见:Manus 还是走得挺超前。
但 Skywork 不是简单的模板,它是把 Manus 的产品框架理解、吃透,再结合用户的真实需求,重新做了一遍。
在用户交互、任务结构、执行逻辑这几件事上,它彻底补上了“能用”与“好用”之间的Gap。
我测试它的时候,是让它分析“金山办公股票值不值得买”,并给我做个 PPT。
一句话输入之后,它并不会立刻开跑,而是先确认任务范围:
-
明确分析维度(财务、行业、风险、时间跨度);
-
分模块列出任务计划:公司概况、主营业务、行业对比、竞争格局、投资建议;
-
接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面,自动抓数;
-
最后通过 HTML 生成一组完整的页面,然后再把 HTML 转成完整的 PPT。
-
更离谱的是,它加了溯源功能!
没有废话、不炫技,没有找点资料糊弄我一脸,老老实实查数据、跑引用、出图表、做 PPT。
虽然中间因为访问来源太多,被反爬挂了一两个链接,但对最终结果几乎没影响。
我觉得,这也是 Skywork 的真正价值所在:它不是 ChatBot,不是 CoPilot,也不是 Flowith 那种玩流程自由的系统。
它就是一个班味很重的牛马 Agent,知道我要啥的 Agent。
如果说 Lovart 是最懂设计的 AI ,那 Skywork 就是最懂写 PPT 的 AI。
接下来, 我想说:它强调的不是充满个性,而是稳定 & 可信。
因为:
-
PPT 是有架构的;
-
推荐理由是清楚的,甚至每段带引用;
-
执行链是可查的,数据来源可回溯;
-
输出文件是能直接用的,而不是那种表演型的 Agent。
这也让我用完它之后,特别认同红杉资本的那句判断:“你最好给客户一个端到端的解决方案,而不是把工具怼到他脸上。”
国内著名投资人朱啸虎也有类似的观点:AI 即服务,工具是卖不出价钱的,用户买的是结果。
引用我在年初推文的这段话,我觉得现在还是没有改变的:
用户对 AI 产品的付费动力,看起来买的是工具的能力,但本质是为 AIGC 的产物付费;是为优质的内容买单。
Skywork 给的就是一个完整、能交、能解释、能改的结果。
如果按“能力 × 信任 × 频率”来拆解:
-
能力不在多,而在准。它知道你要一份什么样的稿子,也知道怎么分步骤完成它,我给 3 分;
-
信任值很高,每一段都有出处、有结构、不跑题、能兜底,我给 3 分;
-
频率不算日常,但凡你要做个材料,天工肯定是我首选的外包对象,我给 2 分。
天工在我心里是 18 分,很优秀。
可以看看天工生成的报告,对于我的需求而言,这份报告已经完成了 90%
这个 PPT 甚至超越了大部分普通用户的 PPT 设计水平。
内容质量在今天的 Agent 产品产物里已经是鹤立鸡群。
超级麦吉:融入到 OA 里的 Agent
麦吉是我特地加入的一个 Agent。
它代表着另一类我们平时看不到的,真正跑在 B 端系统里的 Agent。
如果你是创业团队,需要协作软件,推荐你试试麦吉,它很接近我理想中 AI 驱动型产品的形态。
甚至它也有深度研究 & 生成 HTML 或者 PPTX。它的界面和天工很像,只不过它开源得更早。
开源的结果就是:如果一些闭源产品的产品力赶不上他,那它们对于小团队而言的吸引力就会降低。
不同于 Flowith、Lovart 那样强调 AIGC ,麦吉关注的是 OA 里那些没人愿意干,但又天天需要人干的事情,谁来替你干?
比如:
-
发票识别、校验、归档:我每次都在Q快结束的时候,匆匆报销……
-
审批流程的权限路径判断,不需要你手动添加审批人;
-
企业内报表的匹配、统计,还有解读以及可视化;
-
供应链表单的结构化填写、字段关联与表单转化……
麦吉是我目前看到最“安静”的 Agent。没有大入口,只有当流程需要它的时候,它才会自己出现。
比如直接发起出差申请:
或者 AI 智能审批:
测试的时候,我甚至不觉得这玩意是 Agent,但它确实很有用。
它的有用是融合到 OA 里的,是真·提能增效。
毕竟能让你:
-
不需要再重复填同一张表;
-
不需要手动发催办;
-
也不用因为一张差旅单在 OA 系统里点 N 个按钮。
这也是为什么我愿意把它放进……
所以,麦吉和 AIGC Agent 的不一样在于,Agent 不是一定要交付内容才能成立,有时候它可以是替你跑流程的 Agent。
所以如果按“能力 × 信任 × 频率”来拆:
-
能力是流程执行的能力,而不是基模的 AIGC 能力, 产品团队做好了转换,我给 3 分;
-
信任必须是系统级的,它必须极度可靠、权限明确,否则就是公司级的弃用,我给 2 分;
-
频率极高,只要公司流程在,麦吉就要在,不需要员工主动点开;这种在 OA 环境里,妥妥的 3 分。
同样是 18 分。
上面这些产品拆完之后,我的判断更明确了一些:
有的 Agent 看起来花里胡哨,显得是大聪明,但我不愿用第二次;
有的 Agent UI 平平无奇,但我每次写材料还是会想起它;
有的需要你通过入口进入,主动发起,有的则是直接嵌在 OA 流程里被动调用。
它们功能各异、路径不同,但仍然可以用三个问题把它们串起来:它能不能完成一次完整的任务?用户愿不愿意再问第二次?它是不是你想用的时候,能快速出现?
回到公式:产品价值 = 能力 × 信任 × 频率。
这三项,不是哪一项强就能顶掉其他的,而是三项一乘,只要有一项是 0,结果就是 0。
不是谁功能最多,谁就能留下来;也不是谁最像真人,谁就能占据用户心智。而是谁的三项乘积不为零。
不过,在拆解的产品中,有的是通用 Agent,有的是垂类 Agent。
光聊 Agent 可能不太好理解,所以后面我计划使用专才和通才进行分析。
如果我们把 Agent 比作真人,通用 Agent 就是通才,啥都能干点(可能还不错),但很少能自己干到底;垂类 Agent 就是某个领域的专家, 可能交流 0 分,但干活满分。
你不一定每天找它,有的时候甚至很怕和它交流……但真正要搞点啥的时候,还是得它来处理。
我自己的判断是:至少在现在这个阶段,真正能留下来的,一定是垂类(专才)Agent。它们把场景吃透了,流程做稳了,结果也能直接交上去。
因为通用 Agent 缺少垂类场景的 KnowHow ,看起来啥都能做,但真要交付一个稳定、可控、可交付的结果,就开始不够看了。
但话说回来,我也不是没想过另一个问题:这些所谓的流程结构、行业 KnowHow,会不会只是一个暂时性的优势?
毕竟通用模型在变,基模越来越强,现在已经能深度思考、调MCP、结构化输出,甚至还是多模态N 合一。
那如果再往前走一步,是不是这些专才 Agent 做的事,也很快能被通用模型在升级之后顺手一锅端?
因为 Know How 只有在没公开出来之前才是 Know How。
想到这里,自己 diss 一下:如果 Claude 4 能天生跑 OA 流程 、GPT-4o 能写报告、千问能直接对话输出语音,那我为什么还需要一个专职搞流程,专门写报告、专门汇报的 Agent?
三、专才Agent会被通才模型淘汰吗?
这问题也不是没想过。
尤其是最近用 GPT-4o 写出超长文本、Claude 4 写工具插件、千问Omni 对话之后……
那么,如果通才模型越来越强,是不是像 Lovart、Skywork 这种专职小工最终都会被大模型全能选手干翻?
如果有一天基模就能干完这些,那我们还要这些工程化的 Agent 干嘛?
不过后来用着这些产品,我就不那么疑惑了。
我觉得:基模取代不了工程化的 Agent。
因为从能力的深度看,基模和工程化的 Agent 就是不一样的。
模型越来越强,能做不等于能做好
确实,大模型现在已经能完成很多以前需要工具组合的任务:
-
GPT-4o 可以直接输出排好格式的内容,甚至语气拟人;
-
Claude 能写出很牛逼的局部代码;
-
通义千问也能做多模态的输出。
它们在结果层面越来越像人,但有个关键问题是:它们能干,但你不一定敢用。
Karpathy 也在 Microsoft Build 2023 大会上面说过,像 AutoGPT 这类早期 Agent 最大的问题,不是模型逻辑能力不够,而是上下文窗口有限、记忆机制不稳定,这导致行为链条很容易断掉。
任务跑着跑着就忘了初衷,或者走偏了方向,最后做出来的结果也很难持续优化。他认为,真正让 Agent 跑起来的关键,是构建长期记忆和可持续行为路径。
虽然现在已经通过工程化手段,部分解决了这些问题,比如通过 TODO List:
但这些短板仍然会导致模型在部分场景下虽然跑出了结果,但你不敢用,因为你怕里面的部分数据是错的。
说得更直白一点:它们能跑出一个结果,但不能承接你的责任。
不是它不敢,是你不敢……
这不是能力问题,而是执行条件不达标的问题。
真正的专才Agent,不完全来自基模的能力
吴恩达在 2024 年演讲中也提到,与其追求通用智能的全能幻想,不如务实打通一个场景、一个行业、一个流程。
他强调,Agent 要落地,得先能跑通一个任务流、一个标准化结果、一套刚需逻辑。
Lovart 能留下来,不是因为图生得比别人好多少,而是它真的能替设计师交稿;因为你完全可以拿Lovart 的提示词给别的大模型生成,效果也不错。
Skywork 能留下来,是因为它的文档真的可以直接交给老板看,而不是整一些花里胡哨的交互。
对于用户而言,我其实不在乎哪个模型更强,而在乎我不用担心背锅。
比如,我在上课的时候,经常悄悄让 AI 帮我翻译翻译里面的内容。
直到有一天……我发现 Claude 大翻车了:
真·大翻车:Claude 4 Sonnet 的表现甚至不如32B的 Qwen 2.5 VL。
你要韩语不行,就别给我整幻觉啊。
这是个很典型的Case:大模型的能力是有边界的,现阶段或许不存在六边形战士大模型。
然而,作为用户,我没办法区分,大模型这条短板是不是刚好是我需要的功能。
所以我不在乎这个基模是不是行业 SOTA,我只在乎,在这个场景下,它要不要让我背锅。而具有 KnowHow 的开发者,能帮我挑选最合适的基模。
红杉资本在《Agents on the Brain》一文里指出:
当前的 Agent 产品存在三个严重短板:任务执行力差、成本高、没有记忆与学习能力。GPT 模型虽有“链式推理”的能力,但落到执行环节常常掉链子、进入死循环,或者完成不了任务。
他们认为,真正能跑起来的 Agent,必须补齐交付稳定性和流程可靠性,而不是只展示生成能力。
我觉得这个评价落在专才 Agent 身上刚刚好。
我认同的一种未来是:通才吃长尾,专才守高峰
通才模型适合处理探索型任务:陪聊、发散、草稿、灵感抓取……
它的优势是广度,是可配置性,是你在不知道自己想干嘛的时候帮你找思路。
但专才 Agent 的优势在于:
-
你已经知道你要干嘛;
-
它能接得住,跑得完;
-
干完了你不会再补第二遍。
就比如一个横店剧组:大模型帮你搞完剧本和大纲,但具体怎么分镜、怎么布景、怎么选角、怎么剪辑,还是要一个懂节奏的 AI 落地团队来做事。
Agent 的角色就是那个落地团队,团队的价值就在于能不能把这个需求,稳定地跑出第二次、第三次。
因为不需要它多么有创意,而是要它能稳到让制片人放心。
这才是专才 Agent 不可能被通用模型淘汰的理由。
四、信任是不是 Agent 的护城河,还是被高估了?
刚刚我们说到,Agent 能不能留下来,不是看它有多强,而是看它能不能完成一件事、交出一个结果、撑住一次又一次的重用。
而支撑这一切的底层,其实就是一句话:用户信不信它能做好。
对于随意的问答场景或个人使用场景,你可以很轻松地说出一句话,让 AI 开始生成。
但如果这段内容是要发给客户、提交审批、变成合同,或者挂在系统里给所有人看的,你可能就不那么放心了。
这一刻,模型的 AIGC 的能力和效果都不再是关键,信任感才是决定它能不能跑进生产环境的条件。
信任,来自中途的可解释与可干预
信任不是功能属性,而是你敢不敢交出方向盘的前提。
就比如:你愿意把一个活交给下属,是因为你知道他干得了,也会让你随时知道进度。
朝请示晚汇报,事情跑在哪个节点上你心里有数。
Agent 也是一样的。
真正让用户信任一个 Agent,是因为:
-
你能一眼看懂它做了什么;
-
如果它错了,你能快速干预或撤回;
-
它知道你要什么结果,它知道在边界内怎么做,你能看清楚。
我们回头看看这几款 Agent:这些产品信任感的来源,靠的是每一次运行任务。
那 ChatGPT 的爆火又该怎么解释?
你可能会挑战我的观点:“不对啊,ChatGPT 天天胡说八道,Claude 也有幻觉,但大家不是照样在用?”
确实。
在轻度交互、工具型使用的场景里,用户的容忍度确实很高:
-
写个总结,先糊一版再说,反正要改;
-
起个标题,不满意就换,纯当炼丹呗;
-
写日报,没人细看,只求交差就行。
这些任务对准确性的要求不高,AI 只是个搭手的 Copilot 。
人类参与多、控制权在自己手里、错了也能自己找齐。
但问题也在这里:只要人类需要频繁参与,那效率就起不来,质量也不稳定。
再加上人的状态是波动的:今天累了、感冒了、心情不好,甚至和谁吵了一架,都可能影响最后的产出。
加之工具还需要学习曲线,哪怕是一个小功能,能不能用起来、用得好,都要看个人的熟练度。
不同的人用同一个 AI 工具,结果可能差得非常远。
这张图是很经典的人和 AI 的交互形态。
现在大部分人还停留在图中的第一和第二阶段:嵌入阶段和 Copilot 阶段。也就是 AI 给你建议,人类再手动决策、手动执行、手动收尾。
这些是有监督的 AI 交互, AI 干得再弱鸡,人类串流程能灵活处理完所有的异常。
但只要提及 AI 自动化流程,过程中没有人监督,最终的产物约等于交付物,希望 AI 帮助人类真正提能增效的时候,一切就不一样了。
这时候用户不会关注创意程度,而会考虑:“我能不能交作业?”
你值不值得被用户花钱,也取决于信任的折损率
最近很多 Agent 产品开始尝试商业化。
Lovart、天工、Flowith 开始使用积分机制。
Lovart 十刀约等于 1000 积分;天工、Flowith 等十刀约等于10000积分。
然后按照任务复杂度、模型消耗计费。这不就是点券吗?
既然是点券付费,那每一个任务就对应好相应的价格。
比如 Lovart 平均每个任务大概花费 300 积分,就是 3 刀(人民币约 21.5 元);天工每个任务花费约 500 积分,大概一刀(人民币 7.2 元)。
这里不仅包括了货币的汇率,对于用户而言,还有产品能力的汇率。
不同厂商的 AI Agent 计费方式(汇率)不同,他们的 Agent 能力汇率也不同。
比如在同样需求,同等汇率下, A 工具一次就能完成, B 工具要三次; 那 B 工具的点券开销就是 A 的三倍。
对于国内的消费水平来说,说实在话,这是有点贵的。因为许多用户还停留在看个视频都需要找闺蜜借会员的阶段。
让他们花 7 块钱买一个 PPT,虽然不是不行,但除非你能证明它值得花这个钱。
这种游戏化的付费逻辑,本质上就是和用户对赌。用户每点击一次开始,就是用信任的筹码下注。
如果 1 次生成能用,用户就愿意继续点;如果 3 次都不行,用户可能就不点了;在大部分时候,用户不会把所有积分花完,他会在心里先下线这个工具,并打上这个产品不能用的标签。
这个时候再谈用户召回,就很难了。
所以,在产品上线初期,哪怕是体验模式,模型能力都得拉满。
不然一旦用户开始流失,就真的失去了。
毕竟市面上有这么多 AI Agent 应用,用谁不是用?
可见,这不是功能问题,是信任消失的问题。
不是你最终能否做到,而是你有没有给我信心再爱一次。
如果 AI 产品要收费做商业化,就等于用你的产品力和用户的需求对赌。
用户要用你完成一件重要的事,你能不能 Hold 住,能不能被信任一次,再被信任一次,这才能决定你在他心里能不能留下来。
五、不是入口,而是用户心智
我们前面说了很多 Agent 的执行力和可信度。
但你要真想留下来,还得回答一个更现实的问题:
用户怎么开始第一次?下一次他怎么记得住?不被别人截胡?
你跑得再稳、设计再好,如果没人点开你,那一切免谈。
这是我拆完这几款产品之后,越想越清楚的一件事:很多 Agent 可能会死在用不上、想不到、记不住。
这也是为什么我会把“使用频率”单独写进公式里:产品价值 = 能力 × 信任 × 使用频率。
工具再牛、用户再信任,使用频率低,或者入口深,不顺手……这是个乘法公式,一旦有一项为 0,结果就归零。
所以我现在更倾向于这么看这个问题:
真正能留下来的 Agent,不一定天天被用,但一定会在该它上的时候,能被用户记起来,然后快速点开,不被别的应用截胡。
守得住地盘也是很重要的能力。
举个例子,当我在系统里拖拽一份文档的时候,ima 和豆包都抢着想要截胡对文件的解读权…
它们的 UI 还重叠着……在那一刻,我甚至有点想笑。
可以想见,接下来就是各种产品的入口之争。
说不定,桌面端很可能会出现新一轮的入口大战。
所以你不但需要得到用户信任、绑定好动作,在用户出手前,还得准备好承接。
那这岂不是流量为王,流量玩晒?是不是没有平台入口就没机会了?
这个问题我本来想给个理想主义的答案,但现实比这更残酷一点。
因为如果不能破圈,就没有流量;没有流量,你再好,也只有被大厂抄家的命。
这个行业就是这样:
平台不挂你,你就进不了用户;没人点开你,你连数据都积不出来;
大厂看见你做得不错,复制你流程、重写提示词、挂进他们的入口,成本几乎为零;
你产品效果好,别人跑得红,最后用户还是用红的。
因为红的最无脑,而且无脑的 70 分结果对很多用户而言就够了。他们不需要你 95 分的产品。
如果要创业,入口和能力同样重要。
在创业之前就要想明白:要么想办法快速起量,要么加入流量池。不能想着酒香不怕巷子深。
没入口、没触点、没流量,你连跑一遍流程的资格都没有。
讲到这儿,最近一个视频我很认同:你不红就是原罪,红了什么都对。
做得再踏实,没人看见,就是没人用;没人用,就是没用。
系统再完整,没流量触达,也只能活在 demo 里。
所以你要红,要卷视觉,要抓爆点,要造动图,要抢叙事窗口。
但红只是前提,接下来得活下去,所以要能跑流程、跑得起第二次、出错还能兜底。
这个行业已经不缺 AI 展示,而是缺真正能跑业务的 AI。
红是运气,活下来才是实力。
写这一篇内容,其实没想给谁建议。
只是希望把自己的想法记录下来的碎碎念。
我现在再看 Agent,看的不是它有多强,而是到底谁能留下来?
写到最后我只剩一个答案:谁能被顺手用上,谁就多活一轮;谁能不让我兜底,谁就值得再被试一次;谁能把结果写进业务流程,谁就能慢慢变成系统里的一部分。
其他都是彩头。
参考资料:
红杉资本:永远在线的经济:AI 在未来 5-7 年的真正影响
https://www.sequoiacap.com/article/always-on-economy/
红杉资本:Agents on the Brain
https://www.sequoiacap.com/article/ai-agents-perspective/
a16z:每个白领角色都会有一个AI Agent
https://a16z.com/ai-copilot-ai-agent-white-collar-roles/
硅谷 101:
https://mp.weixin.qq.com/s/Xh1wtgSpgkZXrCtZrNQI8w
朱啸虎分享:
https://www.bilibili.com/video/BV1rjZ4YFEG2
红杉资本闭门会:
https://www.bilibili.com/video/BV1uq5KzpESr
本文来自微信公众号:洛小山,作者:洛小山