实测超火的AI浏览器Dia，我看到了浏览器未来的iPhone时刻

【来源：虎嗅网】

30年过去了，浏览器最大的变化可能是图标。

“互联网之父”蒂姆·伯纳斯-李1990年设计的基本交互模式——通过超链接（Hyperlink）实现网页之间的跳转，以及后面输入网址、等待加载、回到上一页等逻辑，在今天岿然不动。

都2025年了，我们还在用同样的姿势，对着屏幕傻傻地等待页面加载。

过去十年，我们见证过许多号称“要颠覆浏览器市场”的浏览器，Arc也是其中被誉为全村最有希望的种子选手，但却在拥有百万级用户，烧掉1.5亿美元后，母公司The Browser Company宣布停止更新，黯然退场。

去年，在完成5000万美元融资后，他们决定将重心转向开发一款名为Dia的原生AI浏览器。

创始人Josh Miller表示，Dia要构建一种完全不同类型的浏览器——一个更加主动、更强大、更以AI为中心、更加符合最初愿景的浏览器，可以称它为网络浏览器的iPhone，或者“互联网计算机”。

Arc浏览器在其早期和公测阶段使用了邀请码制度，显然The Browser Company从中尝到了甜头。

最近，这款名为Dia的浏览器终于上线，采用邀请码制，开始小范围开放体验。体验设备有一定限制，目前适用于配备Mac M1芯片或更高版本的macOS 14+。

在各家都在竞相将AI融入离用户最近的浏览器，Dia的表现能否脱颖而出，AI又该如何重塑浏览体验，这些都是我们想要探究的问题。

Google+Perplexity，Dia想用AI改变浏览器？

Dia的主页非常简洁，只有一个最为寻常不过的搜索框，甚至可以说清爽得有些不像样，但这也许正是浏览器最理想的样子：提问、获取答案、结束。而不是塞满热搜榜单，分散你的注意力。

输入问题后，Dia会弹出一个候选窗口，提供Google和Chat两个选项。

顾名思义，前者直接跳转到常规搜索引擎页面，后者则类似于Perplexity等AI搜索引擎，既能调用Dia自带的大模型直接给出答案，拥有独自的历史聊天记录，遇到复杂问题时，也会联网搜索。

“现在的宠物能坐高铁了吗”“马斯克现在管理着多少家企业”，Dia的回答质量属于不太稳定的那种，同一问题的几次回答，都在正确和出错之间反复横跳。

用英文提问，回答质量也不会显著提升，甚至它就把星链误认为独立公司。实测下来，Dia偶尔会在回答中附上图片；用中文提问时，有时也会意外触发英文回答。

输入框底部，你还能看到“Personalize Dia”，设置崇拜对象、喜欢的学习方式，以及Dia的回答风格，可以帮助Dia快速了解自己，起到调教AI人设的作用。

随手上传一个互联网梗图，Dia也能够轻松识别表情包的言外之意。文档总结很到位，10万字被梳理得清晰明了，但值得注意的是，文档大小限制在100M内，且实测不支持上传Doc格式文档。

左上角会显示出现了两个ChatGPT，应该是Bug

总结公众号文章，甩个链接即可。

值得注意的是，Dia浏览器使用的是Chromium引擎的特定版本。Chromium是一个开源项目，许多现代浏览器（包括Chrome）都基于它构建。

交互是最大亮点，但Dia还是个半成品

交互设计是Dia的一大亮点。传统AI插件主要以侧边栏、悬浮窗的形式呈现，涵盖AI聊天、翻译、网页总结等。右上角的Chat可以看作一个阉割版的AI插件，虽然功能稍显单薄，但在交互体验上却做得不错。

划词后，右侧就能直接提供查找或解释功能，整体操作流畅顺滑。

比如在知乎看到有人推荐线性代数书籍，我本来想评论一句“不明觉厉”，但写到一半卡住了，怎么办，这时候，放到光标处，光标就会变蓝变粗，点击会自动调出右侧Chat界面。

接着我简单描述了“看不懂，但我大受震撼”的想法，Dia就会浏览完整个页面，并给出几个评论方案。

这些建议甚至模仿了知乎热评区的轻松语气，简洁直白又人性化。确认无误后，点击“Insert”就能自动插入扩写左侧评论。

没时间看视频，总结视频内容也可以。这里有个小技巧，也能让它给出总结视频的字幕。不过，我让其生成Word或PDF文档后，却没有后续反馈。

另外，Dia还能通过点击“View菜单-Add Split View Pane”在浏览器内实现快速“分屏”，最多可同时分出4块屏幕。

不过，这个功能实用性有限：它仅显示搜索结果，点击具体网页仍会跳转到全屏模式，属实有点“中看不中用”。

Arc曾常被吐槽无法迁移Chrome书签，现在吸取教训的Dia提供了一键导入书签功能，支持无痛迁移。

没有像Arc那样“剑走偏锋”，Dia选择了更常规的横向标签页设计。你可以在输入框里添加各类网页标签，也能一口气将所有标签加入对话上下文，提升多标签页的信息联动能力。

类似ChatGPT调用GPTs的方式，Dia也支持通过@调用各个网页标签。

玩法很朴素，我挑选了过往几篇关于Ai Pin的文章，并让其总结Ai Pin值得吐槽的点，很快就得到了清晰的答案。

浏览器2.0时代已经开始，而Web，远未走向死亡

2010年，克里斯·安德森（Chris Anderson）与迈克尔·沃尔夫（Michael Wolff）在《连线》杂志共同撰写了《Web已死，Internet永生》一文。

文章犀利地指出，万维网（Web）在诞生二十年后正逐渐走向衰退，其原因在于传统的Web浏览模式逐渐被更简单、更流畅的服务所取代，尤其是应用程序（App）的崛起，更简洁、高效，能够直接满足他们的需求。

比如，打开一个新闻App就能立刻浏览头条，而无需在浏览器中输入网址、等待页面加载。这种“App优先”的趋势在过去十年中几乎主导了互联网产品的开发逻辑。

然而，生成式AI的崛起重新将产品开发的焦点拉回到Web模式。这种转变看似出人意料，却又合情合理。

AI交互本质上是以文本/对话为核心，Web界面天然支持复杂的文本输入输出，且能便于分享结果和协作。

生成式AI模型计算需求大、迭代速度快。在不确定哪种AI应用场景最有价值的探索期，Web平台能以最小成本覆盖所有设备用户，加速产品市场匹配验证。

并且，相比下载App的心理和实际成本，Web版本让用户可以“即点即用”，减少了用户尝试的障碍，这对于像ChatGPT这样天然陌生的产品也尤为重要。

浏览器的基本形态和功能已经维持了近三十年。1989年，蒂姆·伯纳斯-李（Sir Tim Berners-Lee）在CERN工作时，创建了万维网（WWW），以满足科学家、大学和其他研究机构之间共享信息的需求。

网页浏览器应运而生，但它的设计初衷是围绕文档展开的，这一底层逻辑至今没翻篇。

到后来的Netscape Navigator，再到如今的Chrome、Safari、Firefox和Opera，浏览器的核心元素（标签页、地址栏、收藏夹）表面形态不能说毫无变化，但也变化不大。

过去，我们通过搜索引擎获取信息的方式是这样的：输入关键词，得到十几个甚至几十个结果页面，然后一个个点击，浏览，判断，筛选，最终从海量信息中找到自己需要的那一小部分。

这个过程就像在图书馆里翻阅一摞摞的书籍，耗时且低效。在那个年代，找到信息的能力本身就是一种技能，甚至催生了“高级搜索技巧”这样的教程和课程。

后来，搜索引擎变得更加智能，界面设计和性能有所优化，比如标签页从单一窗口变为多任务管理工具，地址栏也整合了搜索功能，可这些变化，说到底还是修修补补，算不上脱胎换骨。

在沉浸式、空间计算和对话式AI方兴未艾的当下，我们仍然被迫使用基于30多年前文档范式设计的浏览器。与其说这是界面问题，倒不如说是整个信息交互模式的不匹配。

AI的狂飙突进，给浏览器体验的重塑撕开了一道口子。去年，AI插件热潮席卷而来，Kimi、Monica等玩家纷纷入局，带来了一些新玩法：不用离开页面，就能获取答案、完成任务，效率直线上升。

从目前体验上看，仍处于半成品的Dia在侧边栏交互、划词解释等细节上有些亮点，但说到底还是没跳出AI插件的范畴，更多是对现有功能的整合和打磨。

Josh Miller曾表示，传统浏览器的界面需求已经不再那么迫切，其底层结构将决定我们的未来。“大多数人以为我们在造浏览器，”Miller在一次对话中说，“其实我们造的是一个基于浏览器的系统。”

他的野心，是把浏览器从单纯的内容展示工具，变成一个类似操作系统的存在，管理个人偏好和行为，在系统层面实现跨设备的AI体验，而不用在每个应用里重复设定。

在早期演示中，Dia就展示了浏览器如何代表人类执行任务。

例如，Dia通过自己浏览亚马逊，找到这些物品并将它们添加到购物车中。这正是浏览器能做到的事——利用它对你所有Web应用和浏览数据的访问权限，替你完成任务。

尽管，如今的Dia距离这一目标尚有差距，但这种从被动响应到执行理念的转变，却与当下大火的Agent不谋而合。

在OpenAI推出的Operator，以及智谱最新发布的“沉思”Agent中，我们也看到浏览器开始代替用户采取行动，比如预订机票、比较产品价格、填写表单，甚至完成在线购物。

为了更好地了解这一趋势，不妨再来看看OpenAI前AI大神Andrej Karpathy提出的“LLM操作系统”设想：

LLM作为内核：LLM是整个系统的中心，类似于传统操作系统中的CPU，负责处理核心任务和协调其他组件。

存储体系：包括上下文窗口（类似RAM），用于存储当前正在处理的信息。

文件系统：用于长期存储数据，类似于传统计算机的硬盘。

向量数据库（embeddings/vector databases）：用于存储和检索嵌入向量，是LLM进行语义理解和检索的重要基础。

浏览器：作为I/O外设之一，用于访问互联网资源，获取实时信息。

多模态工具：支持处理文本、图像、音频等多种数据类型。

其他工具：如代码解释器、计算器等，用于辅助LLM完成复杂任务。

从根源上讲，浏览器自诞生之初便紧密贴合人类需求，为人类而生的属性贯穿始终。传统浏览器依赖的UI自动化工具（如Selenium）本质上是对人类操作的镜像模拟。

与图形化界面和手动操作有所不同，AI Agent需要通过代码访问和解析数据与网页进行自动化交互，而动态加载的内容、复杂的页面结构，以及反爬机制（如验证码）的普遍应用，都是亟待解决的几道难关。

浏览器服务商Browserbase创始人Paul Klein也曾给出一些技术思路：

开发开源、高效的浏览器，减少浏览器启动时的等待时间和安装所需的资源量，提升运行速度和部署便利性。

利用LLM快速定位网页数据，VLM基于截图识别元素，支持自然语言交互，无需复杂脚本，即使面对混淆或动态内容也能适应。

提供更可靠的SDK和API开发工具，简化开发流程，提高AI Agent使用体验。

更理想的状态是，AI Agent与浏览器/网站则需要通过标准化协议直接通信，跳过视觉交互环节，基于数据接口（如API、底层协议）实现自动化操作，完成从“人→界面→数据”到“机器→协议→数据”的直连。

这段时间频繁出现在大众视野的MCP，正是解决传统“人→界面→数据”模式瓶颈的一种方案。它通过客户端-服务器架构，将AI Agent（主机/客户端）与外部资源（服务器）连接起来，用协议取代了界面操作。

简单来说，你可以把MCP想象成一个“万能接口”，就像电脑上的USB-C接口一样。这个接口让AI模型能够轻松地连接到各种外部资源，比如文件、数据库、在线服务等。

通过MCP，AI助手不仅能获取数据，还能直接对数据进行操作，比如读取文件内容、更新数据库记录等。

浏览器会继续服务人类，但会越来越适配AI的需求。人类下达命令，Agent高效执行的协作模式将成为未来的常态。

从早期的命令行界面（CLI），到图形用户界面（GUI），再到如今迈向人机纯自然语言交互以及机器与机器的协议层交互，技术在复杂化，但交互方式却在不断简化。

现在，浏览器2.0时代已经开始，而Web，远未走向死亡。

“AI不会以应用程序的形式存在，也不会是一个按钮。我们相信它将是一个全新的环境——建立在Web浏览器之上，”Dia的官网如是说。

乐高智能积木上手：1700块，积木能说话会唱歌，值吗？

王位不保：非洲手机之王利润腰斩30亿

法拉奇在伊朗

埃及主要股指早盘下跌5.44%

广州期货党总支组织所属党支部开展高质量发展主题党日活动

上海福一养老院2026最新价格表:松江洞泾镇洞业路228号地址、电话查询

商品市场迎大考！“避风港”与“风险地”如何抉择？

惠通科技：拟使用不超2.50亿元部分闲置募集资金进行现金管理

埃及主要股指早盘下跌5.44%

炳叔：买书修道，推荐《全球科技通史》

为什么抑郁的人总担心自己变贫穷？

炳叔：联想全球化之后，公关的七级浮屠

炳叔：你支持的是哪种华为？

埃及主要股指早盘下跌5.44%

广州期货党总支组织所属党支部开展高质量发展主题党日活动

上海福一养老院2026最新价格表:松江洞泾镇洞业路228号地址、电话查询

商品市场迎大考！“避风港”与“风险地”如何抉择？

惠通科技：拟使用不超2.50亿元部分闲置募集资金进行现金管理

埃及主要股指早盘下跌5.44%

广州期货党总支组织所属党支部开展高质量发展主题党日活动

上海福一养老院2026最新价格表:松江洞泾镇洞业路228号地址、电话查询

商品市场迎大考！“避风港”与“风险地”如何抉择？

惠通科技：拟使用不超2.50亿元部分闲置募集资金进行现金管理

更多你感兴趣的

你也许感兴趣