我在 Pixel 10 Pro 和 Galaxy S26 Ultra 上测试了 Gemini 新推出的任务自动化功能。这是首次让 Gemini 真正能够替用户打开并操作应用程序。当前功能还很有限,只能在少数外卖和网约车服务上使用,而且还处于测试阶段。总体体验是:慢、偶尔笨拙,但非常令人印象深刻。
它怎样工作
默认情况下,自动化会在后台运行。也就是说,启动后你可以继续用手机做别的事,它会偷偷地完成步骤。你也可以选择打开一个界面来实时观看它的操作。这时屏幕底部会显示文字,告诉你 Gemini 正在做什么,比如:“选择套餐的第二份鸡肉照烧半份”。我周六晚让它帮我点晚餐时,它就是这样一步步操作的。
有意思的是,当菜单把“鸡肉套餐”分成半份选项时,Gemini 能意识到两个半份等于一份,并自动把两个半份加入订单。这种现场推理很吸引人,至少比看聊天机器人背台词有趣得多。
但有时会卡壳
尽管如此,过程并不顺畅。有一次它在 Uber Eats 菜单上寻找一份在屏幕正中间的配菜“绿叶菜”,却绕了很多弯路。整个点餐过程大约耗时九分钟,最后才自己解决问题。观赏性强,但效率不高。如果你现在就要叫车或点外卖,人类通常还是更快。
安全与确认
现在的设计会在要最后确认下单或预约时暂停,等你复核后再点击确认。我认为这是理智的做法。我在多次测试中从未见过它擅自完成支付或下单。总体准确度令人惊讶,大部分情况下最终订单只需很少改动。
若失败,通常发生在开始的前一两分钟,原因多半是应用需要你处理的权限提示,或者配送地址仍停留在上次使用时的位置(比如还设置在内华达州)。遇到这类问题需要你手动解决,然后可以重新启动自动化。
一个能让我点赞的场景
最让我印象深刻的测试是与日历和邮件结合的场景。我在日历上添加了一个次日飞往旧金山的航班(用的是真实航班信息,但这是一次假想行程)。我让 Gemini 帮我安排一个能赶上航班的叫车时间。因为它可以访问我的日历和邮件,能读取航班信息。它需要一点额外提示,可能是因为航班信息没有按它预期出现在邮件里,但在我提示后,它建议在上午 11:30 或 11:45 出发(考虑到下午 1:45 的航班和我住得离机场近,这是合理的时间),我确认后,它在大约三分钟内完成了叫车预约。
这里要注意,某些服务并不把这称为“预定”或“安排”,而是用“保留”这样的词。这种语义差异说明新一代 AI 助手与传统语音助理的区别:用自然语言直接让 AI 去操作,比传统那种只能设置闹钟和放音乐的助手要有用得多。
对应用设计的启示
看着 Gemini 在现有以人为中心设计的应用里点击和滑动,有一点很明显:如果要为 AI 设计应用,界面将与现在的完全不同。现在的应用充斥着广告、图片和绕路的流程,这些对 AI 并没有实际价值。更有效的方法是给 AI 一个结构化数据库,而不是让它在视觉杂乱的界面中寻找信息。
业界正在探索这类方案,例如模型上下文协议(MCP)或 Android 的应用函数。这些方法能让应用更容易被 AI 使用。谷歌安卓负责人 Sameer Samat 表示,当没有这些更规范的接口时,Gemini 会采用推理驱动的方式去操作应用。
总结
- 优点: 能在后台替你操作应用,能读取日历和邮件来做复杂任务,最终结果通常准确。
- 缺点: 速度慢,有时会走弯路,偶尔需要人工干预才能继续。
现在的任务自动化像是一个试验品:有点笨拙且不完美,但确实展示了未来可能的使用方式。它不是立刻能替代你点餐或立刻叫车的工具,但作为一种新型的手机助手体验,已经足够引人注意。