Google Gemini 现在能帮你自动干活了：订票、填表、发邮件，一句话搞定

Zhihui Planet管理员

释放双眼，带上耳机，听听看~！

Google 终于把 Gemini 的任务自动化功能正式推出来了。简单来说，你现在可以让 Gemini 帮你完成一系列跨应用的操作，而不是只能回答个问题就结束。

举个例子，你可以说”帮我订一张下周五从北京到上海的机票，下午 2 点后的”，Gemini 会自己去航司网站搜索、比价、填好乘客信息，最后让你确认支付。或者”把我上周的会议笔记整理成文档，发给项目组所有人”，它能自动打开 Docs、整理内容、分享链接。

这个功能的底层逻辑是 Gemini 可以模拟人类在网页上的操作：点击、输入、滚动、选择。它不是调用 API，而是真的在”用”你的浏览器。这意味着理论上任何你能手动完成的网页操作，Gemini 都能帮你自动化。

传统的 RPA（机器人流程自动化）需要预先配置好每一步操作，遇到页面改版就歇菜。Gemini 的优势在于它能理解网页内容和上下文，有一定的容错能力。比如某个按钮从”提交”改成了”确认”，它大概率还是能认出来。

当然，Google 也加了安全限制：涉及支付、敏感信息操作时，Gemini 会停下来让你手动确认。它不会擅自花你的钱或者发不该发的邮件。

根据早期测试用户的反馈，Gemini 在处理简单任务时表现不错，但遇到复杂流程（比如需要多步骤验证、验证码、或者逻辑判断）时还是会卡壳。毕竟它本质上是个语言模型，不是专门为自动化设计的引擎。

还有个问题是速度。人类点几下鼠标几秒钟的事，Gemini 可能需要半分钟——它要理解指令、规划步骤、执行操作、确认结果。对于追求效率的场景，这可能不如自己动手快。

Gemini 的任务自动化是 AI 助手从”问答工具”向”执行代理”迈出的重要一步。虽然现在还不够完美，但方向是对的。想象一下，未来你早上起床说一句”帮我安排今天的行程”，AI 就能自动查邮件、看日历、订餐厅、叫车——这种科幻场景正在变成现实。

不过在那之前，我们还是得接受一个事实：AI 能帮你干活，但你还得在旁边盯着它别搞砸。

来源：The Verge（国外）

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证