六大主流Agent横向测评,能打的只有两个半

【来源:虎嗅网】

一、这些 Agent 真能留下来吗?

Karpathy 说:“未来十年是 Agent 的十年。”

这话听起来有点像 VC 忽悠人的 Slogan。

不但句式完整,想象力很足,甚至还带那么点规划。

不过,我深以为然。

因为现在 Token 越来越便宜, MCP 越来越丰富,用户也越来越能接受长耗时的 AI 过程。

过去半年,我们眼见着一个个 Agent 产品从 Demo 走向 B/C 端 …

Manus、扣子空间、Lovart、Flowith Neo、Skywork,还有最近开源的超级麦吉。

邀请码被炒到几千块,内测还没上线,就有企业问能不能搞私有化部署。

只不过,我越用越在想,这么多 Agent,到底什么样的产品能在大浪淘沙之后留下来?

我自己拆解产品价值时,会考虑这样一条公式:产品价值 = 能力 × 信任 × 频率

  • 能力:你到底能帮用户做成什么事?有没有形成稳定、可交付的产物?

  • 信任:用户愿不愿意让你接手这件事?过程是否可控、行为是否可解释?

  • 频率:你是不是在用户需要的场景里,随手就能调用?

每个维度最高分是 3 分;分为高中低与 0。

基础线是 8 分,超过 8 分属于好 Agent, 低于 8 分属于存疑产品。

公式参考了很多一线投资人的观点:

  • Reid Hoffman 说过,“未来我们每个人身边都有多个 AI 伙伴,它们组成一个能和你共事的Team”,但前提是:你信它、你能管它、你能复用它。

  • a16z 提醒创业者,Agent 的进化路径从 Copilot 到独立 Agent,需要从能不能接住需求开始。

  • 红杉资本甚至用“Always-On Economy”来描述 Agent 的未来形态,但前提依然是:你有没有能力、你值不值得信任、你是否活在用户的日常操作里。

所以,Agent 产品不是谁跑得快、干得像人,就能活得下来。

而是谁在这三个维度上,每个都不能是零。

二、拆解代表性 Agent

那到底哪些产品“能力 × 信任 × 频率”的乘积够大,真的有留下来的可能?

我选了六个过去半年被频繁提及、在 B/C 端都有真实用户使用的 Agent 产品:Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及超级麦吉。

试着给这几个产品套一下上面的公式,试着从这三件事看清它们各自的关键点:

1. 能力:它到底帮你完成了什么任务?

2. 信任:做得质量能不能一次生成?

3. 频率:它能不能更高频地承接你的需求?

评分是个人主观评分,如果有不同意见,欢迎在评论区讨论。

Ps. 如果你不想看对各个产品的拆解,可以快速滑动到后面的思考部分。

Manus:爆得快,掉得也很快

我第一次看到 Manus,是那天晚上卡兹克在群里的直播。

用一句话描述任务,它就能自动拆解、规划、执行,再拼出一个完整的结果页面,甚至会自动写总结。

那一瞬间,我确实动心了:这是不是已经比 Copilot 更像 Agent了!

但真正用下去之后,我发现:

  • 它只能在独立网页上跑流程,入口重,没法嵌进任何我日常工作的地方;

  • 流程跑到一半,经常上下文断掉,中间卡住一环,等了好久,回头就挂了;

  • 它能做事,但我说不上它做得是不是我真正想要的:我给命题,他还结果。

然后……这个结果,是不是你心里那个目标?难说。

后来它限流,我就再也没点开了。

它确实给了“能用”的场景,但没留下“好用”的理由。

Manus 的问题不在于交互多牛,而在于我用了一次,却没有信心打开第二次。

用“能力 × 信任 × 频率”的评估公式来看看它:

  • 能力一般,成功率基本上在 20% 以下,给 1 分;

  • 信任也有暴露,中间步骤、引用内容都可查,给 2 分;

  • 但 Manus 很难融入用户的工作环境中,满血版不支持国内网络环境,给 1 分。

最终分数是 2 分,基本上可以归到玩具一类。

但是但是!Manus 的意义还是得单独拿出来说。

它让很多用户第一次意识到,甚至是让 AI 产品从业者意识到:Agent 不是更聪明的对话,而是更完整的动作链。

你可以说它只是缝合怪、demo 感太重,但它确实让我们看见了一个新的范式。

Agent 不再是 Chat bot,而是你说一个任务,它替你走完全流程。

就像硅谷 101 那篇文章标题写的:Manus 不够好,但天快亮了。

这个视频链接放在了文末的参考资料里,值得一看。

扣子空间:路线对,链路完整,但还在找用户留存的理由

扣子空间我之前单独写过一篇测评与拆解。

那时我的判断是,它的意义不在于“用起来多聪明”,而在于:它是我第一次看到有 Agent 系统能真的把“MCP 调用、任务编排、结果交付”稳定地跑完。

因为这件事不是谁想做就能做的,MCP 接入只是门槛,更大的难题在于:

  • 有没有很好的调度系统可以帮助跑完全流程;

  • 有没有工程化机制能兜住各种异常;

  • 有没有能做出全链的基础架构。

它做得不完美,体验还不够顺滑,但它的路径清晰,方向可信。

拉回现在这套“能力 × 信任 × 频率”的评估公式,再来看看它:

  • 能力没问题,链路完整、MCP 体系化使用,给 3 分;

  • 信任也有暴露,中间步骤、引用内容都可查,给 2 分;

  • 频率稍弱,它更多是被挂在扣子空间的页面里,需要用户收藏页面,给 2 分。如果哪天扣子空间合并到了飞书中… 那就是 3 分。

最终得分 12 分,属于后续如果更新了版本,我会愿意积极尝试的水平。

我甚至觉得,如果今年内会出现一款杀手级 All In One 的 Agent 应用,扣子空间的胜率很大。

因为……豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力,几乎占尽了天时地利人和。

而且,在架构上,扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。

虽然迭代路径清晰,架构完整,但它要留下来,可能还得回答一个问题:由于扣子空间是通用 Agent,在哪个任务场景里,用户能第一时间想起你?

至少到现在,我还没建立起这个直觉。

Lovart:直接给你交稿

Lovart 是为数不多我真正当作生产力工具的 Agent。也是我真的用钱投票的产品。

因为它实实在在做到了直接交稿:

  • 我提需求,它自己拆成任务;

  • 中间怎么画、用什么风格、怎么配色、怎么分层,它全程自己决定;

我全靠 Lovart 设计出我公众号的主视觉。

这真·是生产力工具。

它带来的价值,是我不具备的“关于设计的 Know How”。

我不需要再思考 prompt 写得够不够好,反正没有它好,我只用表达目标。

我之前专门写过一篇拆解它的文章,里面分析了它如何用 KnowHow 构建流程、生成统一风格的 MBTI 套图、如何自选工具链和标准化交付结构。

如果用“能力 × 信任 × 频率”这个公式评分:

  • 能力:几乎是“以交付为核心的整合型能力”,不是拼拼图而是真能做成事,我给 3 分;

  • 信任:在于你知道它交得出来,哪怕你点“生成”前会犹豫,但点完后大概率会满意,同样给 3 分;

  • 频率:目前还是偏工具型,入口依赖用户主动保存并打开,我给 2 分。

总分 18 分,属于优秀 Agent。

我很喜欢 Lovart,它几乎能满足我的大部分设计场景,我只需要发起多次任务,然后收割结果。

很多人说它是个缝合怪,但我觉得它是缝合得特别好的缝合怪。

我认,我充。截图会员身份以示支持。

Flowith Neo:交互非常独特的 Agent

在没出 Agent 的时候,我就很喜欢这样的交互了。

我在和 Chat bot 对话的过程中,会基于某个节点进行新提问, Flowith 将这部分具象化了。

Neo 发布之后,我觉得是真的是遵循了好 Planning 、Action 范式的 Agent。

比如,我让它分析:

它没有二次确认,上手自己开始拆:

  • 筛选股票、抓市场新闻、汇总分析;

  • 一步步走工作流、结构化生成、分模块输出。

页面上的每个流程节点都能看到内容,生成速度很不错,最后把结果汇总形成报告。

这在很大程度上缓解了我对掌控 AI 的焦虑。

但仔细拆开之后,我发现它有两个关键能力特别牛:

  • 一个是并发。不是并行调用几次这种Level,而是它可以在一个任务里同时开启N个执行链,互不冲突、稳定输出;

  • 另一个是并发之后的串联机制。并发带来的超长上下文,如何才能不超出模型的 Token 上限?

这个是很令人头痛的工程化瓶颈,而 Neo 在这一步做得很好,能把并发节点自动组织、排序、压缩起来,甚至推给下一步模型继续用。

它能把推理结构具象化,这是一种很酷的 AI 设计,我很喜欢。

不过,我不能代表所有用户,这个酷酷的交互,对大部分基础用户来说,很多用户并不需要一个画布,他们只要一个开始,一个结束。

因为画布的交互不是所有普通用户都能玩明白的,自由的画布反而会让人无所适从。

所以如果你真有任务需要 Agent 跑流程,那它值得一试。但如果你想找一个每天都能给你干活的搭子,它可能还不够顺手。

如果用“能力 × 信任 × 频率”来拆:

  • 能力没得说,它能拆能跑、执行链完整、支持高并发,后处理能力也在线,给 3 分;

  • 信任也可以,流程透明、失败可查、输出有状态,给 3 分;

  • 频率偏低,太开放的命题让我不知道他能做哪些,给 1 分。

总分 9 分;我对它的评价可能更多是一个玩具。

哦对,刚刚我给它的命题,它真的给我推荐了。

好的,相信你,我建仓了……Flowith 你最好靠谱一点……

Skywork:Manus Pro Ultra,办公界的Lovart

Skywork 是我目前看到的“办公场景最强”的 Agent 产品。

虽然它长得像 Manus,但我得说一句公道话:它比 Manus 强太多了。

其实很多 Agent 产品的基本形态都像 Manus,可见:Manus 还是走得挺超前。

但 Skywork 不是简单的模板,它是把 Manus 的产品框架理解、吃透,再结合用户的真实需求,重新做了一遍。

在用户交互、任务结构、执行逻辑这几件事上,它彻底补上了“能用”与“好用”之间的Gap。

我测试它的时候,是让它分析“金山办公股票值不值得买”,并给我做个 PPT。

一句话输入之后,它并不会立刻开跑,而是先确认任务范围:

  • 明确分析维度(财务、行业、风险、时间跨度)

  • 分模块列出任务计划:公司概况、主营业务、行业对比、竞争格局、投资建议;

  • 接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面,自动抓数;

  • 最后通过 HTML 生成一组完整的页面,然后再把 HTML 转成完整的 PPT。

  • 更离谱的是,它加了溯源功能!

没有废话、不炫技,没有找点资料糊弄我一脸,老老实实查数据、跑引用、出图表、做 PPT。

虽然中间因为访问来源太多,被反爬挂了一两个链接,但对最终结果几乎没影响。

我觉得,这也是 Skywork 的真正价值所在:它不是 ChatBot,不是 CoPilot,也不是 Flowith 那种玩流程自由的系统。


它就是一个班味很重的牛马 Agent,知道我要啥的 Agent。

如果说 Lovart 是最懂设计的 AI ,那 Skywork 就是最懂写 PPT 的 AI。

接下来, 我想说:它强调的不是充满个性,而是稳定 & 可信。

因为:

  • PPT 是有架构的;

  • 推荐理由是清楚的,甚至每段带引用;

  • 执行链是可查的,数据来源可回溯;

  • 输出文件是能直接用的,而不是那种表演型的 Agent。

这也让我用完它之后,特别认同红杉资本的那句判断:“你最好给客户一个端到端的解决方案,而不是把工具怼到他脸上。

国内著名投资人朱啸虎也有类似的观点:AI 即服务,工具是卖不出价钱的,用户买的是结果。

引用我在年初推文的这段话,我觉得现在还是没有改变的:

用户对 AI 产品的付费动力,看起来买的是工具的能力,但本质是为 AIGC 的产物付费;是为优质的内容买单。

Skywork 给的就是一个完整、能交、能解释、能改的结果。

如果按“能力 × 信任 × 频率”来拆解:

  • 能力不在多,而在准。它知道你要一份什么样的稿子,也知道怎么分步骤完成它,我给 3 分;

  • 信任值很高,每一段都有出处、有结构、不跑题、能兜底,我给 3 分;

  • 频率不算日常,但凡你要做个材料,天工肯定是我首选的外包对象,我给 2 分。

天工在我心里是 18 分,很优秀。

可以看看天工生成的报告,对于我的需求而言,这份报告已经完成了 90%

这个 PPT 甚至超越了大部分普通用户的 PPT 设计水平。

内容质量在今天的 Agent 产品产物里已经是鹤立鸡群。

超级麦吉:融入到 OA 里的 Agent

麦吉是我特地加入的一个 Agent。

它代表着另一类我们平时看不到的,真正跑在 B 端系统里的 Agent。

如果你是创业团队,需要协作软件,推荐你试试麦吉,它很接近我理想中 AI 驱动型产品的形态。

甚至它也有深度研究 & 生成 HTML 或者 PPTX。它的界面和天工很像,只不过它开源得更早。

开源的结果就是:如果一些闭源产品的产品力赶不上他,那它们对于小团队而言的吸引力就会降低。

不同于 Flowith、Lovart 那样强调 AIGC ,麦吉关注的是 OA 里那些没人愿意干,但又天天需要人干的事情,谁来替你干?

比如:

  • 发票识别、校验、归档:我每次都在Q快结束的时候,匆匆报销……

  • 审批流程的权限路径判断,不需要你手动添加审批人;

  • 企业内报表的匹配、统计,还有解读以及可视化;

  • 供应链表单的结构化填写、字段关联与表单转化……

麦吉是我目前看到最“安静”的 Agent。没有大入口,只有当流程需要它的时候,它才会自己出现。

比如直接发起出差申请:

或者 AI 智能审批:

测试的时候,我甚至不觉得这玩意是 Agent,但它确实很有用。

它的有用是融合到 OA 里的,是真·提能增效。

毕竟能让你:

  • 不需要再重复填同一张表;

  • 不需要手动发催办;

  • 也不用因为一张差旅单在 OA 系统里点 N 个按钮。

这也是为什么我愿意把它放进……

所以,麦吉和 AIGC Agent 的不一样在于,Agent 不是一定要交付内容才能成立,有时候它可以是替你跑流程的 Agent。

所以如果按“能力 × 信任 × 频率”来拆:

  • 能力是流程执行的能力,而不是基模的 AIGC 能力, 产品团队做好了转换,我给 3 分;

  • 信任必须是系统级的,它必须极度可靠、权限明确,否则就是公司级的弃用,我给 2 分;

  • 频率极高,只要公司流程在,麦吉就要在,不需要员工主动点开;这种在 OA 环境里,妥妥的 3 分。

同样是 18 分。

上面这些产品拆完之后,我的判断更明确了一些:

有的 Agent 看起来花里胡哨,显得是大聪明,但我不愿用第二次;

有的 Agent UI 平平无奇,但我每次写材料还是会想起它;

有的需要你通过入口进入,主动发起,有的则是直接嵌在 OA 流程里被动调用。

它们功能各异、路径不同,但仍然可以用三个问题把它们串起来:它能不能完成一次完整的任务?用户愿不愿意再问第二次?它是不是你想用的时候,能快速出现?

回到公式:产品价值 = 能力 × 信任 × 频率。

这三项,不是哪一项强就能顶掉其他的,而是三项一乘,只要有一项是 0,结果就是 0。

不是谁功能最多,谁就能留下来;也不是谁最像真人,谁就能占据用户心智。而是谁的三项乘积不为零。

不过,在拆解的产品中,有的是通用 Agent,有的是垂类 Agent。

光聊 Agent 可能不太好理解,所以后面我计划使用专才和通才进行分析。

如果我们把 Agent 比作真人,通用 Agent 就是通才,啥都能干点(可能还不错),但很少能自己干到底;垂类 Agent 就是某个领域的专家, 可能交流 0 分,但干活满分。

你不一定每天找它,有的时候甚至很怕和它交流……但真正要搞点啥的时候,还是得它来处理。

我自己的判断是:至少在现在这个阶段,真正能留下来的,一定是垂类(专才)Agent。它们把场景吃透了,流程做稳了,结果也能直接交上去。

因为通用 Agent 缺少垂类场景的 KnowHow ,看起来啥都能做,但真要交付一个稳定、可控、可交付的结果,就开始不够看了。

但话说回来,我也不是没想过另一个问题:这些所谓的流程结构、行业 KnowHow,会不会只是一个暂时性的优势?

毕竟通用模型在变,基模越来越强,现在已经能深度思考、调MCP、结构化输出,甚至还是多模态N 合一。

那如果再往前走一步,是不是这些专才 Agent 做的事,也很快能被通用模型在升级之后顺手一锅端?

因为 Know How 只有在没公开出来之前才是 Know How。

想到这里,自己 diss 一下:如果 Claude 4 能天生跑 OA 流程 、GPT-4o 能写报告、千问能直接对话输出语音,那我为什么还需要一个专职搞流程,专门写报告、专门汇报的 Agent?

三、专才Agent会被通才模型淘汰吗?

这问题也不是没想过。

尤其是最近用 GPT-4o 写出超长文本、Claude 4 写工具插件、千问Omni 对话之后……

那么,如果通才模型越来越强,是不是像 Lovart、Skywork 这种专职小工最终都会被大模型全能选手干翻?

如果有一天基模就能干完这些,那我们还要这些工程化的 Agent 干嘛?

不过后来用着这些产品,我就不那么疑惑了。

我觉得:基模取代不了工程化的 Agent。

因为从能力的深度看,基模和工程化的 Agent 就是不一样的。

模型越来越强,能做不等于能做好

确实,大模型现在已经能完成很多以前需要工具组合的任务:

  • GPT-4o 可以直接输出排好格式的内容,甚至语气拟人;

  • Claude 能写出很牛逼的局部代码;

  • 通义千问也能做多模态的输出。

它们在结果层面越来越像人,但有个关键问题是:它们能干,但你不一定敢用

Karpathy 也在 Microsoft Build 2023 大会上面说过,像 AutoGPT 这类早期 Agent 最大的问题,不是模型逻辑能力不够,而是上下文窗口有限、记忆机制不稳定,这导致行为链条很容易断掉。

任务跑着跑着就忘了初衷,或者走偏了方向,最后做出来的结果也很难持续优化。他认为,真正让 Agent 跑起来的关键,是构建长期记忆和可持续行为路径。

虽然现在已经通过工程化手段,部分解决了这些问题,比如通过 TODO List:

但这些短板仍然会导致模型在部分场景下虽然跑出了结果,但你不敢用,因为你怕里面的部分数据是错的。

说得更直白一点:它们能跑出一个结果,但不能承接你的责任。

不是它不敢,是你不敢……

这不是能力问题,而是执行条件不达标的问题。

真正的专才Agent,不完全来自基模的能力

吴恩达在 2024 年演讲中也提到,与其追求通用智能的全能幻想,不如务实打通一个场景、一个行业、一个流程。

他强调,Agent 要落地,得先能跑通一个任务流、一个标准化结果、一套刚需逻辑。

Lovart 能留下来,不是因为图生得比别人好多少,而是它真的能替设计师交稿;因为你完全可以拿Lovart 的提示词给别的大模型生成,效果也不错。

Skywork 能留下来,是因为它的文档真的可以直接交给老板看,而不是整一些花里胡哨的交互。

对于用户而言,我其实不在乎哪个模型更强,而在乎我不用担心背锅。

比如,我在上课的时候,经常悄悄让 AI 帮我翻译翻译里面的内容。

直到有一天……我发现 Claude 大翻车了:

真·大翻车:Claude 4 Sonnet 的表现甚至不如32B的 Qwen 2.5 VL。

你要韩语不行,就别给我整幻觉啊。

这是个很典型的Case:大模型的能力是有边界的,现阶段或许不存在六边形战士大模型。

然而,作为用户,我没办法区分,大模型这条短板是不是刚好是我需要的功能。

所以我不在乎这个基模是不是行业 SOTA,我只在乎,在这个场景下,它要不要让我背锅。而具有 KnowHow 的开发者,能帮我挑选最合适的基模。

红杉资本在《Agents on the Brain》一文里指出:

当前的 Agent 产品存在三个严重短板:任务执行力差、成本高、没有记忆与学习能力。GPT 模型虽有“链式推理”的能力,但落到执行环节常常掉链子、进入死循环,或者完成不了任务。

他们认为,真正能跑起来的 Agent,必须补齐交付稳定性和流程可靠性,而不是只展示生成能力。

我觉得这个评价落在专才 Agent 身上刚刚好。

我认同的一种未来是:通才吃长尾,专才守高峰

通才模型适合处理探索型任务:陪聊、发散、草稿、灵感抓取……

它的优势是广度,是可配置性,是你在不知道自己想干嘛的时候帮你找思路。

但专才 Agent 的优势在于:

  • 你已经知道你要干嘛;

  • 它能接得住,跑得完;

  • 干完了你不会再补第二遍。

就比如一个横店剧组:大模型帮你搞完剧本和大纲,但具体怎么分镜、怎么布景、怎么选角、怎么剪辑,还是要一个懂节奏的 AI 落地团队来做事。

Agent 的角色就是那个落地团队,团队的价值就在于能不能把这个需求,稳定地跑出第二次、第三次。

因为不需要它多么有创意,而是要它能稳到让制片人放心。

这才是专才 Agent 不可能被通用模型淘汰的理由。

四、信任是不是 Agent 的护城河,还是被高估了?

刚刚我们说到,Agent 能不能留下来,不是看它有多强,而是看它能不能完成一件事、交出一个结果、撑住一次又一次的重用。

而支撑这一切的底层,其实就是一句话:用户信不信它能做好。

对于随意的问答场景或个人使用场景,你可以很轻松地说出一句话,让 AI 开始生成。

但如果这段内容是要发给客户、提交审批、变成合同,或者挂在系统里给所有人看的,你可能就不那么放心了。

这一刻,模型的 AIGC 的能力和效果都不再是关键,信任感才是决定它能不能跑进生产环境的条件。

信任,来自中途的可解释与可干预

信任不是功能属性,而是你敢不敢交出方向盘的前提。

就比如:你愿意把一个活交给下属,是因为你知道他干得了,也会让你随时知道进度。

朝请示晚汇报,事情跑在哪个节点上你心里有数。

Agent 也是一样的。

真正让用户信任一个 Agent,是因为:

  • 你能一眼看懂它做了什么;

  • 如果它错了,你能快速干预或撤回;

  • 它知道你要什么结果,它知道在边界内怎么做,你能看清楚。

我们回头看看这几款 Agent:这些产品信任感的来源,靠的是每一次运行任务。

那 ChatGPT 的爆火又该怎么解释?

你可能会挑战我的观点:“不对啊,ChatGPT 天天胡说八道,Claude 也有幻觉,但大家不是照样在用?”

确实。

在轻度交互、工具型使用的场景里,用户的容忍度确实很高:

  • 写个总结,先糊一版再说,反正要改;

  • 起个标题,不满意就换,纯当炼丹呗;

  • 写日报,没人细看,只求交差就行。

这些任务对准确性的要求不高,AI 只是个搭手的 Copilot 。

人类参与多、控制权在自己手里、错了也能自己找齐。

但问题也在这里:只要人类需要频繁参与,那效率就起不来,质量也不稳定。

再加上人的状态是波动的:今天累了、感冒了、心情不好,甚至和谁吵了一架,都可能影响最后的产出。

加之工具还需要学习曲线,哪怕是一个小功能,能不能用起来、用得好,都要看个人的熟练度。

不同的人用同一个 AI 工具,结果可能差得非常远。

这张图是很经典的人和 AI 的交互形态。

现在大部分人还停留在图中的第一和第二阶段:嵌入阶段和 Copilot 阶段。也就是 AI 给你建议,人类再手动决策、手动执行、手动收尾。

这些是有监督的 AI 交互, AI 干得再弱鸡,人类串流程能灵活处理完所有的异常。

但只要提及 AI 自动化流程,过程中没有人监督,最终的产物约等于交付物,希望 AI 帮助人类真正提能增效的时候,一切就不一样了。

这时候用户不会关注创意程度,而会考虑:“我能不能交作业?”

你值不值得被用户花钱,也取决于信任的折损率

最近很多 Agent 产品开始尝试商业化。

Lovart、天工、Flowith 开始使用积分机制。

Lovart 十刀约等于 1000 积分;天工、Flowith 等十刀约等于10000积分。

然后按照任务复杂度、模型消耗计费。这不就是点券吗?

既然是点券付费,那每一个任务就对应好相应的价格。

比如 Lovart 平均每个任务大概花费 300 积分,就是 3 刀(人民币约 21.5 元);天工每个任务花费约 500 积分,大概一刀(人民币 7.2 元)

这里不仅包括了货币的汇率,对于用户而言,还有产品能力的汇率。

不同厂商的 AI Agent 计费方式(汇率)不同,他们的 Agent 能力汇率也不同。

比如在同样需求,同等汇率下, A 工具一次就能完成, B 工具要三次; 那 B 工具的点券开销就是 A 的三倍。

对于国内的消费水平来说,说实在话,这是有点贵的。因为许多用户还停留在看个视频都需要找闺蜜借会员的阶段。

让他们花 7 块钱买一个 PPT,虽然不是不行,但除非你能证明它值得花这个钱。

这种游戏化的付费逻辑,本质上就是和用户对赌。用户每点击一次开始,就是用信任的筹码下注。

如果 1 次生成能用,用户就愿意继续点;如果 3 次都不行,用户可能就不点了;在大部分时候,用户不会把所有积分花完,他会在心里先下线这个工具,并打上这个产品不能用的标签。

这个时候再谈用户召回,就很难了。

所以,在产品上线初期,哪怕是体验模式,模型能力都得拉满。

不然一旦用户开始流失,就真的失去了。

毕竟市面上有这么多 AI Agent 应用,用谁不是用?

可见,这不是功能问题,是信任消失的问题。

不是你最终能否做到,而是你有没有给我信心再爱一次。

如果 AI 产品要收费做商业化,就等于用你的产品力和用户的需求对赌。

用户要用你完成一件重要的事,你能不能 Hold 住,能不能被信任一次,再被信任一次,这才能决定你在他心里能不能留下来。

五、不是入口,而是用户心智

我们前面说了很多 Agent 的执行力和可信度。

但你要真想留下来,还得回答一个更现实的问题:

用户怎么开始第一次?下一次他怎么记得住?不被别人截胡?

你跑得再稳、设计再好,如果没人点开你,那一切免谈。

这是我拆完这几款产品之后,越想越清楚的一件事:很多 Agent 可能会死在用不上、想不到、记不住。

这也是为什么我会把“使用频率”单独写进公式里:产品价值 = 能力 × 信任 × 使用频率。

工具再牛、用户再信任,使用频率低,或者入口深,不顺手……这是个乘法公式,一旦有一项为 0,结果就归零。

所以我现在更倾向于这么看这个问题:

真正能留下来的 Agent,不一定天天被用,但一定会在该它上的时候,能被用户记起来,然后快速点开,不被别的应用截胡。

守得住地盘也是很重要的能力。

举个例子,当我在系统里拖拽一份文档的时候,ima 和豆包都抢着想要截胡对文件的解读权…

它们的 UI 还重叠着……在那一刻,我甚至有点想笑。

可以想见,接下来就是各种产品的入口之争。

说不定,桌面端很可能会出现新一轮的入口大战。

所以你不但需要得到用户信任、绑定好动作,在用户出手前,还得准备好承接。

那这岂不是流量为王,流量玩晒?是不是没有平台入口就没机会了?

这个问题我本来想给个理想主义的答案,但现实比这更残酷一点。

因为如果不能破圈,就没有流量;没有流量,你再好,也只有被大厂抄家的命。

这个行业就是这样:

平台不挂你,你就进不了用户;没人点开你,你连数据都积不出来;

大厂看见你做得不错,复制你流程、重写提示词、挂进他们的入口,成本几乎为零;

你产品效果好,别人跑得红,最后用户还是用红的。

因为红的最无脑,而且无脑的 70 分结果对很多用户而言就够了。他们不需要你 95 分的产品。

如果要创业,入口和能力同样重要。

在创业之前就要想明白:要么想办法快速起量,要么加入流量池。不能想着酒香不怕巷子深。

没入口、没触点、没流量,你连跑一遍流程的资格都没有。

讲到这儿,最近一个视频我很认同:你不红就是原罪,红了什么都对。

做得再踏实,没人看见,就是没人用;没人用,就是没用。

系统再完整,没流量触达,也只能活在 demo 里。

所以你要红,要卷视觉,要抓爆点,要造动图,要抢叙事窗口。

但红只是前提,接下来得活下去,所以要能跑流程、跑得起第二次、出错还能兜底。

这个行业已经不缺 AI 展示,而是缺真正能跑业务的 AI。

红是运气,活下来才是实力。

写这一篇内容,其实没想给谁建议。

只是希望把自己的想法记录下来的碎碎念。

我现在再看 Agent,看的不是它有多强,而是到底谁能留下来?

写到最后我只剩一个答案:谁能被顺手用上,谁就多活一轮;谁能不让我兜底,谁就值得再被试一次;谁能把结果写进业务流程,谁就能慢慢变成系统里的一部分。

其他都是彩头。

参考资料:

红杉资本:永远在线的经济:AI 在未来 5-7 年的真正影响

https://www.sequoiacap.com/article/always-on-economy/

红杉资本:Agents on the Brain

https://www.sequoiacap.com/article/ai-agents-perspective/

a16z:每个白领角色都会有一个AI Agent

https://a16z.com/ai-copilot-ai-agent-white-collar-roles/

硅谷 101:

https://mp.weixin.qq.com/s/Xh1wtgSpgkZXrCtZrNQI8w

朱啸虎分享:

https://www.bilibili.com/video/BV1rjZ4YFEG2

红杉资本闭门会:

https://www.bilibili.com/video/BV1uq5KzpESr

本文来自微信公众号:洛小山,作者:洛小山