六大主流Agent横向测评，能打的只有两个半

【来源：虎嗅网】

一、这些 Agent 真能留下来吗？

Karpathy 说：“未来十年是 Agent 的十年。”

这话听起来有点像 VC 忽悠人的 Slogan。

不但句式完整，想象力很足，甚至还带那么点规划。

不过，我深以为然。

因为现在 Token 越来越便宜， MCP 越来越丰富，用户也越来越能接受长耗时的 AI 过程。

过去半年，我们眼见着一个个 Agent 产品从 Demo 走向 B/C 端 …

Manus、扣子空间、Lovart、Flowith Neo、Skywork，还有最近开源的超级麦吉。

邀请码被炒到几千块，内测还没上线，就有企业问能不能搞私有化部署。

只不过，我越用越在想，这么多 Agent，到底什么样的产品能在大浪淘沙之后留下来？

我自己拆解产品价值时，会考虑这样一条公式：产品价值 = 能力 × 信任 × 频率

能力：你到底能帮用户做成什么事？有没有形成稳定、可交付的产物？

信任：用户愿不愿意让你接手这件事？过程是否可控、行为是否可解释？

频率：你是不是在用户需要的场景里，随手就能调用？

每个维度最高分是 3 分；分为高中低与 0。

基础线是 8 分，超过 8 分属于好 Agent，低于 8 分属于存疑产品。

公式参考了很多一线投资人的观点：

Reid Hoffman 说过，“未来我们每个人身边都有多个 AI 伙伴，它们组成一个能和你共事的Team”，但前提是：你信它、你能管它、你能复用它。

a16z 提醒创业者，Agent 的进化路径从 Copilot 到独立 Agent，需要从能不能接住需求开始。

红杉资本甚至用“Always-On Economy”来描述 Agent 的未来形态，但前提依然是：你有没有能力、你值不值得信任、你是否活在用户的日常操作里。

所以，Agent 产品不是谁跑得快、干得像人，就能活得下来。

而是谁在这三个维度上，每个都不能是零。

二、拆解代表性 Agent

那到底哪些产品“能力 × 信任 × 频率”的乘积够大，真的有留下来的可能？

我选了六个过去半年被频繁提及、在 B/C 端都有真实用户使用的 Agent 产品：Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及超级麦吉。

试着给这几个产品套一下上面的公式，试着从这三件事看清它们各自的关键点：

1. 能力：它到底帮你完成了什么任务？

2. 信任：做得质量能不能一次生成？

3. 频率：它能不能更高频地承接你的需求？

评分是个人主观评分，如果有不同意见，欢迎在评论区讨论。

Ps. 如果你不想看对各个产品的拆解，可以快速滑动到后面的思考部分。

Manus：爆得快，掉得也很快

我第一次看到 Manus，是那天晚上卡兹克在群里的直播。

用一句话描述任务，它就能自动拆解、规划、执行，再拼出一个完整的结果页面，甚至会自动写总结。

那一瞬间，我确实动心了：这是不是已经比 Copilot 更像 Agent了！

但真正用下去之后，我发现：

它只能在独立网页上跑流程，入口重，没法嵌进任何我日常工作的地方；

流程跑到一半，经常上下文断掉，中间卡住一环，等了好久，回头就挂了；

它能做事，但我说不上它做得是不是我真正想要的：我给命题，他还结果。

然后……这个结果，是不是你心里那个目标？难说。

后来它限流，我就再也没点开了。

它确实给了“能用”的场景，但没留下“好用”的理由。

Manus 的问题不在于交互多牛，而在于我用了一次，却没有信心打开第二次。

用“能力 × 信任 × 频率”的评估公式来看看它：

能力一般，成功率基本上在 20% 以下，给 1 分；

信任也有暴露，中间步骤、引用内容都可查，给 2 分；

但 Manus 很难融入用户的工作环境中，满血版不支持国内网络环境，给 1 分。

最终分数是 2 分，基本上可以归到玩具一类。

但是但是！Manus 的意义还是得单独拿出来说。

它让很多用户第一次意识到，甚至是让 AI 产品从业者意识到：Agent 不是更聪明的对话，而是更完整的动作链。

你可以说它只是缝合怪、demo 感太重，但它确实让我们看见了一个新的范式。

Agent 不再是 Chat bot，而是你说一个任务，它替你走完全流程。

就像硅谷 101 那篇文章标题写的：Manus 不够好，但天快亮了。

这个视频链接放在了文末的参考资料里，值得一看。

扣子空间：路线对，链路完整，但还在找用户留存的理由

扣子空间我之前单独写过一篇测评与拆解。

那时我的判断是，它的意义不在于“用起来多聪明”，而在于：它是我第一次看到有 Agent 系统能真的把“MCP 调用、任务编排、结果交付”稳定地跑完。

因为这件事不是谁想做就能做的，MCP 接入只是门槛，更大的难题在于：

有没有很好的调度系统可以帮助跑完全流程；
有没有工程化机制能兜住各种异常；
有没有能做出全链的基础架构。

它做得不完美，体验还不够顺滑，但它的路径清晰，方向可信。

拉回现在这套“能力 × 信任 × 频率”的评估公式，再来看看它：

能力没问题，链路完整、MCP 体系化使用，给 3 分；
信任也有暴露，中间步骤、引用内容都可查，给 2 分；
频率稍弱，它更多是被挂在扣子空间的页面里，需要用户收藏页面，给 2 分。如果哪天扣子空间合并到了飞书中… 那就是 3 分。

最终得分 12 分，属于后续如果更新了版本，我会愿意积极尝试的水平。

我甚至觉得，如果今年内会出现一款杀手级 All In One 的 Agent 应用，扣子空间的胜率很大。

因为……豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力，几乎占尽了天时地利人和。

而且，在架构上，扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。

虽然迭代路径清晰，架构完整，但它要留下来，可能还得回答一个问题：由于扣子空间是通用 Agent，在哪个任务场景里，用户能第一时间想起你？

至少到现在，我还没建立起这个直觉。

Lovart：直接给你交稿

Lovart 是为数不多我真正当作生产力工具的 Agent。也是我真的用钱投票的产品。

因为它实实在在做到了直接交稿：

我提需求，它自己拆成任务；
中间怎么画、用什么风格、怎么配色、怎么分层，它全程自己决定；

我全靠 Lovart 设计出我公众号的主视觉。

这真·是生产力工具。

它带来的价值，是我不具备的“关于设计的 Know How”。

我不需要再思考 prompt 写得够不够好，反正没有它好，我只用表达目标。

我之前专门写过一篇拆解它的文章，里面分析了它如何用 KnowHow 构建流程、生成统一风格的 MBTI 套图、如何自选工具链和标准化交付结构。

如果用“能力 × 信任 × 频率”这个公式评分：

能力：几乎是“以交付为核心的整合型能力”，不是拼拼图而是真能做成事，我给 3 分；

信任：在于你知道它交得出来，哪怕你点“生成”前会犹豫，但点完后大概率会满意，同样给 3 分；

频率：目前还是偏工具型，入口依赖用户主动保存并打开，我给 2 分。

总分 18 分，属于优秀 Agent。

我很喜欢 Lovart，它几乎能满足我的大部分设计场景，我只需要发起多次任务，然后收割结果。

很多人说它是个缝合怪，但我觉得它是缝合得特别好的缝合怪。

我认，我充。截图会员身份以示支持。

Flowith Neo：交互非常独特的 Agent

在没出 Agent 的时候，我就很喜欢这样的交互了。

我在和 Chat bot 对话的过程中，会基于某个节点进行新提问， Flowith 将这部分具象化了。

Neo 发布之后，我觉得是真的是遵循了好 Planning 、Action 范式的 Agent。

比如，我让它分析：

它没有二次确认，上手自己开始拆：

筛选股票、抓市场新闻、汇总分析；
一步步走工作流、结构化生成、分模块输出。

页面上的每个流程节点都能看到内容，生成速度很不错，最后把结果汇总形成报告。

这在很大程度上缓解了我对掌控 AI 的焦虑。

但仔细拆开之后，我发现它有两个关键能力特别牛：

一个是并发。不是并行调用几次这种Level，而是它可以在一个任务里同时开启N个执行链，互不冲突、稳定输出；

另一个是并发之后的串联机制。并发带来的超长上下文，如何才能不超出模型的 Token 上限？

这个是很令人头痛的工程化瓶颈，而 Neo 在这一步做得很好，能把并发节点自动组织、排序、压缩起来，甚至推给下一步模型继续用。

它能把推理结构具象化，这是一种很酷的 AI 设计，我很喜欢。

不过，我不能代表所有用户，这个酷酷的交互，对大部分基础用户来说，很多用户并不需要一个画布，他们只要一个开始，一个结束。

因为画布的交互不是所有普通用户都能玩明白的，自由的画布反而会让人无所适从。

所以如果你真有任务需要 Agent 跑流程，那它值得一试。但如果你想找一个每天都能给你干活的搭子，它可能还不够顺手。

如果用“能力 × 信任 × 频率”来拆：

能力没得说，它能拆能跑、执行链完整、支持高并发，后处理能力也在线，给 3 分；

信任也可以，流程透明、失败可查、输出有状态，给 3 分；

频率偏低，太开放的命题让我不知道他能做哪些，给 1 分。

总分 9 分；我对它的评价可能更多是一个玩具。

哦对，刚刚我给它的命题，它真的给我推荐了。

好的，相信你，我建仓了……Flowith 你最好靠谱一点……

Skywork：Manus Pro Ultra，办公界的Lovart

Skywork 是我目前看到的“办公场景最强”的 Agent 产品。

虽然它长得像 Manus，但我得说一句公道话：它比 Manus 强太多了。

其实很多 Agent 产品的基本形态都像 Manus，可见：Manus 还是走得挺超前。

但 Skywork 不是简单的模板，它是把 Manus 的产品框架理解、吃透，再结合用户的真实需求，重新做了一遍。

在用户交互、任务结构、执行逻辑这几件事上，它彻底补上了“能用”与“好用”之间的Gap。

我测试它的时候，是让它分析“金山办公股票值不值得买”，并给我做个 PPT。

一句话输入之后，它并不会立刻开跑，而是先确认任务范围：

明确分析维度（财务、行业、风险、时间跨度）；

分模块列出任务计划：公司概况、主营业务、行业对比、竞争格局、投资建议；

接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面，自动抓数；

最后通过 HTML 生成一组完整的页面，然后再把 HTML 转成完整的 PPT。

更离谱的是，它加了溯源功能！

没有废话、不炫技，没有找点资料糊弄我一脸，老老实实查数据、跑引用、出图表、做 PPT。

虽然中间因为访问来源太多，被反爬挂了一两个链接，但对最终结果几乎没影响。

我觉得，这也是 Skywork 的真正价值所在：它不是 ChatBot，不是 CoPilot，也不是 Flowith 那种玩流程自由的系统。

它就是一个班味很重的牛马 Agent，知道我要啥的 Agent。

如果说 Lovart 是最懂设计的 AI ，那 Skywork 就是最懂写 PPT 的 AI。

接下来，我想说：它强调的不是充满个性，而是稳定 & 可信。

因为：

PPT 是有架构的；

推荐理由是清楚的，甚至每段带引用；

执行链是可查的，数据来源可回溯；

输出文件是能直接用的，而不是那种表演型的 Agent。

这也让我用完它之后，特别认同红杉资本的那句判断：“你最好给客户一个端到端的解决方案，而不是把工具怼到他脸上。”

国内著名投资人朱啸虎也有类似的观点：AI 即服务，工具是卖不出价钱的，用户买的是结果。

引用我在年初推文的这段话，我觉得现在还是没有改变的：

用户对 AI 产品的付费动力，看起来买的是工具的能力，但本质是为 AIGC 的产物付费；是为优质的内容买单。

Skywork 给的就是一个完整、能交、能解释、能改的结果。

如果按“能力 × 信任 × 频率”来拆解：

能力不在多，而在准。它知道你要一份什么样的稿子，也知道怎么分步骤完成它，我给 3 分；

信任值很高，每一段都有出处、有结构、不跑题、能兜底，我给 3 分；

频率不算日常，但凡你要做个材料，天工肯定是我首选的外包对象，我给 2 分。

天工在我心里是 18 分，很优秀。

可以看看天工生成的报告，对于我的需求而言，这份报告已经完成了 90%

这个 PPT 甚至超越了大部分普通用户的 PPT 设计水平。

内容质量在今天的 Agent 产品产物里已经是鹤立鸡群。

超级麦吉：融入到 OA 里的 Agent

麦吉是我特地加入的一个 Agent。

它代表着另一类我们平时看不到的，真正跑在 B 端系统里的 Agent。

如果你是创业团队，需要协作软件，推荐你试试麦吉，它很接近我理想中 AI 驱动型产品的形态。

甚至它也有深度研究 & 生成 HTML 或者 PPTX。它的界面和天工很像，只不过它开源得更早。

开源的结果就是：如果一些闭源产品的产品力赶不上他，那它们对于小团队而言的吸引力就会降低。

不同于 Flowith、Lovart 那样强调 AIGC ，麦吉关注的是 OA 里那些没人愿意干，但又天天需要人干的事情，谁来替你干？

比如：

发票识别、校验、归档：我每次都在Q快结束的时候，匆匆报销……

审批流程的权限路径判断，不需要你手动添加审批人；

企业内报表的匹配、统计，还有解读以及可视化；

供应链表单的结构化填写、字段关联与表单转化……

麦吉是我目前看到最“安静”的 Agent。没有大入口，只有当流程需要它的时候，它才会自己出现。

比如直接发起出差申请：

或者 AI 智能审批：

测试的时候，我甚至不觉得这玩意是 Agent，但它确实很有用。

它的有用是融合到 OA 里的，是真·提能增效。

毕竟能让你：

不需要再重复填同一张表；
不需要手动发催办；
也不用因为一张差旅单在 OA 系统里点 N 个按钮。

这也是为什么我愿意把它放进……

所以，麦吉和 AIGC Agent 的不一样在于，Agent 不是一定要交付内容才能成立，有时候它可以是替你跑流程的 Agent。

所以如果按“能力 × 信任 × 频率”来拆：

能力是流程执行的能力，而不是基模的 AIGC 能力，产品团队做好了转换，我给 3 分；

信任必须是系统级的，它必须极度可靠、权限明确，否则就是公司级的弃用，我给 2 分；

频率极高，只要公司流程在，麦吉就要在，不需要员工主动点开；这种在 OA 环境里，妥妥的 3 分。

同样是 18 分。

上面这些产品拆完之后，我的判断更明确了一些：

有的 Agent 看起来花里胡哨，显得是大聪明，但我不愿用第二次；

有的 Agent UI 平平无奇，但我每次写材料还是会想起它；

有的需要你通过入口进入，主动发起，有的则是直接嵌在 OA 流程里被动调用。

它们功能各异、路径不同，但仍然可以用三个问题把它们串起来：它能不能完成一次完整的任务？用户愿不愿意再问第二次？它是不是你想用的时候，能快速出现？

回到公式：产品价值 = 能力 × 信任 × 频率。

这三项，不是哪一项强就能顶掉其他的，而是三项一乘，只要有一项是 0，结果就是 0。

不是谁功能最多，谁就能留下来；也不是谁最像真人，谁就能占据用户心智。而是谁的三项乘积不为零。

不过，在拆解的产品中，有的是通用 Agent，有的是垂类 Agent。

光聊 Agent 可能不太好理解，所以后面我计划使用专才和通才进行分析。

如果我们把 Agent 比作真人，通用 Agent 就是通才，啥都能干点（可能还不错），但很少能自己干到底；垂类 Agent 就是某个领域的专家，可能交流 0 分，但干活满分。

你不一定每天找它，有的时候甚至很怕和它交流……但真正要搞点啥的时候，还是得它来处理。

我自己的判断是：至少在现在这个阶段，真正能留下来的，一定是垂类（专才）Agent。它们把场景吃透了，流程做稳了，结果也能直接交上去。

因为通用 Agent 缺少垂类场景的 KnowHow ，看起来啥都能做，但真要交付一个稳定、可控、可交付的结果，就开始不够看了。

但话说回来，我也不是没想过另一个问题：这些所谓的流程结构、行业 KnowHow，会不会只是一个暂时性的优势？

毕竟通用模型在变，基模越来越强，现在已经能深度思考、调MCP、结构化输出，甚至还是多模态N 合一。

那如果再往前走一步，是不是这些专才 Agent 做的事，也很快能被通用模型在升级之后顺手一锅端？

因为 Know How 只有在没公开出来之前才是 Know How。

想到这里，自己 diss 一下：如果 Claude 4 能天生跑 OA 流程、GPT-4o 能写报告、千问能直接对话输出语音，那我为什么还需要一个专职搞流程，专门写报告、专门汇报的 Agent？

三、专才Agent会被通才模型淘汰吗？

这问题也不是没想过。

尤其是最近用 GPT-4o 写出超长文本、Claude 4 写工具插件、千问Omni 对话之后……

那么，如果通才模型越来越强，是不是像 Lovart、Skywork 这种专职小工最终都会被大模型全能选手干翻？

如果有一天基模就能干完这些，那我们还要这些工程化的 Agent 干嘛？

不过后来用着这些产品，我就不那么疑惑了。

我觉得：基模取代不了工程化的 Agent。

因为从能力的深度看，基模和工程化的 Agent 就是不一样的。

模型越来越强，能做不等于能做好

确实，大模型现在已经能完成很多以前需要工具组合的任务：

GPT-4o 可以直接输出排好格式的内容，甚至语气拟人；
Claude 能写出很牛逼的局部代码；
通义千问也能做多模态的输出。

它们在结果层面越来越像人，但有个关键问题是：它们能干，但你不一定敢用。

Karpathy 也在 Microsoft Build 2023 大会上面说过，像 AutoGPT 这类早期 Agent 最大的问题，不是模型逻辑能力不够，而是上下文窗口有限、记忆机制不稳定，这导致行为链条很容易断掉。

任务跑着跑着就忘了初衷，或者走偏了方向，最后做出来的结果也很难持续优化。他认为，真正让 Agent 跑起来的关键，是构建长期记忆和可持续行为路径。

虽然现在已经通过工程化手段，部分解决了这些问题，比如通过 TODO List：

但这些短板仍然会导致模型在部分场景下虽然跑出了结果，但你不敢用，因为你怕里面的部分数据是错的。

说得更直白一点：它们能跑出一个结果，但不能承接你的责任。

不是它不敢，是你不敢……

这不是能力问题，而是执行条件不达标的问题。

真正的专才Agent，不完全来自基模的能力

吴恩达在 2024 年演讲中也提到，与其追求通用智能的全能幻想，不如务实打通一个场景、一个行业、一个流程。

他强调，Agent 要落地，得先能跑通一个任务流、一个标准化结果、一套刚需逻辑。

Lovart 能留下来，不是因为图生得比别人好多少，而是它真的能替设计师交稿；因为你完全可以拿Lovart 的提示词给别的大模型生成，效果也不错。

Skywork 能留下来，是因为它的文档真的可以直接交给老板看，而不是整一些花里胡哨的交互。

对于用户而言，我其实不在乎哪个模型更强，而在乎我不用担心背锅。

比如，我在上课的时候，经常悄悄让 AI 帮我翻译翻译里面的内容。

直到有一天……我发现 Claude 大翻车了：

真·大翻车：Claude 4 Sonnet 的表现甚至不如32B的 Qwen 2.5 VL。

你要韩语不行，就别给我整幻觉啊。

这是个很典型的Case：大模型的能力是有边界的，现阶段或许不存在六边形战士大模型。

然而，作为用户，我没办法区分，大模型这条短板是不是刚好是我需要的功能。

所以我不在乎这个基模是不是行业 SOTA，我只在乎，在这个场景下，它要不要让我背锅。而具有 KnowHow 的开发者，能帮我挑选最合适的基模。

红杉资本在《Agents on the Brain》一文里指出：

当前的 Agent 产品存在三个严重短板：任务执行力差、成本高、没有记忆与学习能力。GPT 模型虽有“链式推理”的能力，但落到执行环节常常掉链子、进入死循环，或者完成不了任务。

他们认为，真正能跑起来的 Agent，必须补齐交付稳定性和流程可靠性，而不是只展示生成能力。

我觉得这个评价落在专才 Agent 身上刚刚好。

我认同的一种未来是：通才吃长尾，专才守高峰

通才模型适合处理探索型任务：陪聊、发散、草稿、灵感抓取……

它的优势是广度，是可配置性，是你在不知道自己想干嘛的时候帮你找思路。

但专才 Agent 的优势在于：

你已经知道你要干嘛；
它能接得住，跑得完；
干完了你不会再补第二遍。

就比如一个横店剧组：大模型帮你搞完剧本和大纲，但具体怎么分镜、怎么布景、怎么选角、怎么剪辑，还是要一个懂节奏的 AI 落地团队来做事。

Agent 的角色就是那个落地团队，团队的价值就在于能不能把这个需求，稳定地跑出第二次、第三次。

因为不需要它多么有创意，而是要它能稳到让制片人放心。

这才是专才 Agent 不可能被通用模型淘汰的理由。

四、信任是不是 Agent 的护城河，还是被高估了？

刚刚我们说到，Agent 能不能留下来，不是看它有多强，而是看它能不能完成一件事、交出一个结果、撑住一次又一次的重用。

而支撑这一切的底层，其实就是一句话：用户信不信它能做好。

对于随意的问答场景或个人使用场景，你可以很轻松地说出一句话，让 AI 开始生成。

但如果这段内容是要发给客户、提交审批、变成合同，或者挂在系统里给所有人看的，你可能就不那么放心了。

这一刻，模型的 AIGC 的能力和效果都不再是关键，信任感才是决定它能不能跑进生产环境的条件。

信任，来自中途的可解释与可干预

信任不是功能属性，而是你敢不敢交出方向盘的前提。

就比如：你愿意把一个活交给下属，是因为你知道他干得了，也会让你随时知道进度。

朝请示晚汇报，事情跑在哪个节点上你心里有数。

Agent 也是一样的。

真正让用户信任一个 Agent，是因为：

你能一眼看懂它做了什么；
如果它错了，你能快速干预或撤回；
它知道你要什么结果，它知道在边界内怎么做，你能看清楚。

我们回头看看这几款 Agent：这些产品信任感的来源，靠的是每一次运行任务。

那 ChatGPT 的爆火又该怎么解释？

你可能会挑战我的观点：“不对啊，ChatGPT 天天胡说八道，Claude 也有幻觉，但大家不是照样在用？”

确实。

在轻度交互、工具型使用的场景里，用户的容忍度确实很高：

写个总结，先糊一版再说，反正要改；
起个标题，不满意就换，纯当炼丹呗；
写日报，没人细看，只求交差就行。

这些任务对准确性的要求不高，AI 只是个搭手的 Copilot 。

人类参与多、控制权在自己手里、错了也能自己找齐。

但问题也在这里：只要人类需要频繁参与，那效率就起不来，质量也不稳定。

再加上人的状态是波动的：今天累了、感冒了、心情不好，甚至和谁吵了一架，都可能影响最后的产出。

加之工具还需要学习曲线，哪怕是一个小功能，能不能用起来、用得好，都要看个人的熟练度。

不同的人用同一个 AI 工具，结果可能差得非常远。

这张图是很经典的人和 AI 的交互形态。

现在大部分人还停留在图中的第一和第二阶段：嵌入阶段和 Copilot 阶段。也就是 AI 给你建议，人类再手动决策、手动执行、手动收尾。

这些是有监督的 AI 交互， AI 干得再弱鸡，人类串流程能灵活处理完所有的异常。

但只要提及 AI 自动化流程，过程中没有人监督，最终的产物约等于交付物，希望 AI 帮助人类真正提能增效的时候，一切就不一样了。

这时候用户不会关注创意程度，而会考虑：“我能不能交作业？”

你值不值得被用户花钱，也取决于信任的折损率

最近很多 Agent 产品开始尝试商业化。

Lovart、天工、Flowith 开始使用积分机制。

Lovart 十刀约等于 1000 积分；天工、Flowith 等十刀约等于10000积分。

然后按照任务复杂度、模型消耗计费。这不就是点券吗？

既然是点券付费，那每一个任务就对应好相应的价格。

比如 Lovart 平均每个任务大概花费 300 积分，就是 3 刀（人民币约 21.5 元）；天工每个任务花费约 500 积分，大概一刀（人民币 7.2 元）。

这里不仅包括了货币的汇率，对于用户而言，还有产品能力的汇率。

不同厂商的 AI Agent 计费方式（汇率）不同，他们的 Agent 能力汇率也不同。

比如在同样需求，同等汇率下， A 工具一次就能完成， B 工具要三次；那 B 工具的点券开销就是 A 的三倍。

对于国内的消费水平来说，说实在话，这是有点贵的。因为许多用户还停留在看个视频都需要找闺蜜借会员的阶段。

让他们花 7 块钱买一个 PPT，虽然不是不行，但除非你能证明它值得花这个钱。

这种游戏化的付费逻辑，本质上就是和用户对赌。用户每点击一次开始，就是用信任的筹码下注。

如果 1 次生成能用，用户就愿意继续点；如果 3 次都不行，用户可能就不点了；在大部分时候，用户不会把所有积分花完，他会在心里先下线这个工具，并打上这个产品不能用的标签。

这个时候再谈用户召回，就很难了。

所以，在产品上线初期，哪怕是体验模式，模型能力都得拉满。

不然一旦用户开始流失，就真的失去了。

毕竟市面上有这么多 AI Agent 应用，用谁不是用？

可见，这不是功能问题，是信任消失的问题。

不是你最终能否做到，而是你有没有给我信心再爱一次。

如果 AI 产品要收费做商业化，就等于用你的产品力和用户的需求对赌。

用户要用你完成一件重要的事，你能不能 Hold 住，能不能被信任一次，再被信任一次，这才能决定你在他心里能不能留下来。

五、不是入口，而是用户心智

我们前面说了很多 Agent 的执行力和可信度。

但你要真想留下来，还得回答一个更现实的问题：

用户怎么开始第一次？下一次他怎么记得住？不被别人截胡？

你跑得再稳、设计再好，如果没人点开你，那一切免谈。

这是我拆完这几款产品之后，越想越清楚的一件事：很多 Agent 可能会死在用不上、想不到、记不住。

这也是为什么我会把“使用频率”单独写进公式里：产品价值 = 能力 × 信任 × 使用频率。

工具再牛、用户再信任，使用频率低，或者入口深，不顺手……这是个乘法公式，一旦有一项为 0，结果就归零。

所以我现在更倾向于这么看这个问题：

真正能留下来的 Agent，不一定天天被用，但一定会在该它上的时候，能被用户记起来，然后快速点开，不被别的应用截胡。

守得住地盘也是很重要的能力。

举个例子，当我在系统里拖拽一份文档的时候，ima 和豆包都抢着想要截胡对文件的解读权…

它们的 UI 还重叠着……在那一刻，我甚至有点想笑。

可以想见，接下来就是各种产品的入口之争。

说不定，桌面端很可能会出现新一轮的入口大战。

所以你不但需要得到用户信任、绑定好动作，在用户出手前，还得准备好承接。

那这岂不是流量为王，流量玩晒？是不是没有平台入口就没机会了？

这个问题我本来想给个理想主义的答案，但现实比这更残酷一点。

因为如果不能破圈，就没有流量；没有流量，你再好，也只有被大厂抄家的命。

这个行业就是这样：

平台不挂你，你就进不了用户；没人点开你，你连数据都积不出来；

大厂看见你做得不错，复制你流程、重写提示词、挂进他们的入口，成本几乎为零；

你产品效果好，别人跑得红，最后用户还是用红的。

因为红的最无脑，而且无脑的 70 分结果对很多用户而言就够了。他们不需要你 95 分的产品。

如果要创业，入口和能力同样重要。

在创业之前就要想明白：要么想办法快速起量，要么加入流量池。不能想着酒香不怕巷子深。

没入口、没触点、没流量，你连跑一遍流程的资格都没有。

讲到这儿，最近一个视频我很认同：你不红就是原罪，红了什么都对。

做得再踏实，没人看见，就是没人用；没人用，就是没用。

系统再完整，没流量触达，也只能活在 demo 里。

所以你要红，要卷视觉，要抓爆点，要造动图，要抢叙事窗口。

但红只是前提，接下来得活下去，所以要能跑流程、跑得起第二次、出错还能兜底。

这个行业已经不缺 AI 展示，而是缺真正能跑业务的 AI。

红是运气，活下来才是实力。

写这一篇内容，其实没想给谁建议。

只是希望把自己的想法记录下来的碎碎念。

我现在再看 Agent，看的不是它有多强，而是到底谁能留下来？

写到最后我只剩一个答案：谁能被顺手用上，谁就多活一轮；谁能不让我兜底，谁就值得再被试一次；谁能把结果写进业务流程，谁就能慢慢变成系统里的一部分。

其他都是彩头。

参考资料：

红杉资本：永远在线的经济：AI 在未来 5-7 年的真正影响

https://www.sequoiacap.com/article/always-on-economy/

红杉资本：Agents on the Brain

https://www.sequoiacap.com/article/ai-agents-perspective/

a16z：每个白领角色都会有一个AI Agent

https://a16z.com/ai-copilot-ai-agent-white-collar-roles/

硅谷 101：

https://mp.weixin.qq.com/s/Xh1wtgSpgkZXrCtZrNQI8w

朱啸虎分享：

https://www.bilibili.com/video/BV1rjZ4YFEG2

红杉资本闭门会：

https://www.bilibili.com/video/BV1uq5KzpESr

本文来自微信公众号：洛小山，作者：洛小山

这个春节从上海到东北三线小城，消费者“不见了”

原创 “从0到1”与“从1到N”的投资方法论

用AI的这三年，想跟你分享9条心得

这个春节从上海到东北三线小城，消费者“不见了”

2026新选择:香树湾护理院地址及院内环境+费用明细+参观预约通道

每日龙虎榜 | 商品期货综合指数上涨3.25% 日内资金净流入431.17亿元

“史上最长春节假期”收官哪些文旅数据值得说道？

吴桂英陈博彰开展“新春第一访”

这个春节从上海到东北三线小城，消费者“不见了”

炳叔：买书修道，推荐《全球科技通史》

为什么抑郁的人总担心自己变贫穷？

炳叔：联想全球化之后，公关的七级浮屠

炳叔：你支持的是哪种华为？

这个春节从上海到东北三线小城，消费者“不见了”

2026新选择:香树湾护理院地址及院内环境+费用明细+参观预约通道

每日龙虎榜 | 商品期货综合指数上涨3.25% 日内资金净流入431.17亿元

“史上最长春节假期”收官哪些文旅数据值得说道？

吴桂英陈博彰开展“新春第一访”

这个春节从上海到东北三线小城，消费者“不见了”

2026新选择:香树湾护理院地址及院内环境+费用明细+参观预约通道

每日龙虎榜 | 商品期货综合指数上涨3.25% 日内资金净流入431.17亿元

“史上最长春节假期”收官哪些文旅数据值得说道？

吴桂英陈博彰开展“新春第一访”

更多你感兴趣的

你也许感兴趣