Google 终于把 Gemini 的任务自动化功能正式推出来了。简单来说,你现在可以让 Gemini 帮你完成一系列跨应用的操作,而不是只能回答个问题就结束。
能干什么?
举个例子,你可以说”帮我订一张下周五从北京到上海的机票,下午 2 点后的”,Gemini 会自己去航司网站搜索、比价、填好乘客信息,最后让你确认支付。或者”把我上周的会议笔记整理成文档,发给项目组所有人”,它能自动打开 Docs、整理内容、分享链接。
这个功能的底层逻辑是 Gemini 可以模拟人类在网页上的操作:点击、输入、滚动、选择。它不是调用 API,而是真的在”用”你的浏览器。这意味着理论上任何你能手动完成的网页操作,Gemini 都能帮你自动化。
和传统自动化有什么区别?
传统的 RPA(机器人流程自动化)需要预先配置好每一步操作,遇到页面改版就歇菜。Gemini 的优势在于它能理解网页内容和上下文,有一定的容错能力。比如某个按钮从”提交”改成了”确认”,它大概率还是能认出来。
当然,Google 也加了安全限制:涉及支付、敏感信息操作时,Gemini 会停下来让你手动确认。它不会擅自花你的钱或者发不该发的邮件。
实际体验如何?
根据早期测试用户的反馈,Gemini 在处理简单任务时表现不错,但遇到复杂流程(比如需要多步骤验证、验证码、或者逻辑判断)时还是会卡壳。毕竟它本质上是个语言模型,不是专门为自动化设计的引擎。
还有个问题是速度。人类点几下鼠标几秒钟的事,Gemini 可能需要半分钟——它要理解指令、规划步骤、执行操作、确认结果。对于追求效率的场景,这可能不如自己动手快。
写在最后
Gemini 的任务自动化是 AI 助手从”问答工具”向”执行代理”迈出的重要一步。虽然现在还不够完美,但方向是对的。想象一下,未来你早上起床说一句”帮我安排今天的行程”,AI 就能自动查邮件、看日历、订餐厅、叫车——这种科幻场景正在变成现实。
不过在那之前,我们还是得接受一个事实:AI 能帮你干活,但你还得在旁边盯着它别搞砸。
来源:The Verge(国外)
