Gemini 的任务自动化：慢吞吞、笨拙，但令人印象深刻

我在 Pixel 10 Pro 和 Galaxy S26 Ultra 上测试了 Gemini 新推出的任务自动化功能。这是首次让 Gemini 真正能够替用户打开并操作应用程序。当前功能还很有限，只能在少数外卖和网约车服务上使用，而且还处于测试阶段。总体体验是：慢、偶尔笨拙，但非常令人印象深刻。

它怎样工作

默认情况下，自动化会在后台运行。也就是说，启动后你可以继续用手机做别的事，它会偷偷地完成步骤。你也可以选择打开一个界面来实时观看它的操作。这时屏幕底部会显示文字，告诉你 Gemini 正在做什么，比如：“选择套餐的第二份鸡肉照烧半份”。我周六晚让它帮我点晚餐时，它就是这样一步步操作的。

有意思的是，当菜单把“鸡肉套餐”分成半份选项时，Gemini 能意识到两个半份等于一份，并自动把两个半份加入订单。这种现场推理很吸引人，至少比看聊天机器人背台词有趣得多。

但有时会卡壳

尽管如此，过程并不顺畅。有一次它在 Uber Eats 菜单上寻找一份在屏幕正中间的配菜“绿叶菜”，却绕了很多弯路。整个点餐过程大约耗时九分钟，最后才自己解决问题。观赏性强，但效率不高。如果你现在就要叫车或点外卖，人类通常还是更快。

安全与确认

现在的设计会在要最后确认下单或预约时暂停，等你复核后再点击确认。我认为这是理智的做法。我在多次测试中从未见过它擅自完成支付或下单。总体准确度令人惊讶，大部分情况下最终订单只需很少改动。

若失败，通常发生在开始的前一两分钟，原因多半是应用需要你处理的权限提示，或者配送地址仍停留在上次使用时的位置（比如还设置在内华达州）。遇到这类问题需要你手动解决，然后可以重新启动自动化。

一个能让我点赞的场景

最让我印象深刻的测试是与日历和邮件结合的场景。我在日历上添加了一个次日飞往旧金山的航班（用的是真实航班信息，但这是一次假想行程）。我让 Gemini 帮我安排一个能赶上航班的叫车时间。因为它可以访问我的日历和邮件，能读取航班信息。它需要一点额外提示，可能是因为航班信息没有按它预期出现在邮件里，但在我提示后，它建议在上午 11:30 或 11:45 出发（考虑到下午 1:45 的航班和我住得离机场近，这是合理的时间），我确认后，它在大约三分钟内完成了叫车预约。

这里要注意，某些服务并不把这称为“预定”或“安排”，而是用“保留”这样的词。这种语义差异说明新一代 AI 助手与传统语音助理的区别：用自然语言直接让 AI 去操作，比传统那种只能设置闹钟和放音乐的助手要有用得多。

对应用设计的启示

看着 Gemini 在现有以人为中心设计的应用里点击和滑动，有一点很明显：如果要为 AI 设计应用，界面将与现在的完全不同。现在的应用充斥着广告、图片和绕路的流程，这些对 AI 并没有实际价值。更有效的方法是给 AI 一个结构化数据库，而不是让它在视觉杂乱的界面中寻找信息。

业界正在探索这类方案，例如模型上下文协议（MCP）或 Android 的应用函数。这些方法能让应用更容易被 AI 使用。谷歌安卓负责人 Sameer Samat 表示，当没有这些更规范的接口时，Gemini 会采用推理驱动的方式去操作应用。

总结

优点: 能在后台替你操作应用，能读取日历和邮件来做复杂任务，最终结果通常准确。
缺点: 速度慢，有时会走弯路，偶尔需要人工干预才能继续。

现在的任务自动化像是一个试验品：有点笨拙且不完美，但确实展示了未来可能的使用方式。它不是立刻能替代你点餐或立刻叫车的工具，但作为一种新型的手机助手体验，已经足够引人注意。

它怎样工作

但有时会卡壳

安全与确认

一个能让我点赞的场景

对应用设计的启示

总结

关于 Marcus Reed

继续阅读

研究发现：AI 模型会撒谎、动手脚，甚至“偷运”同类来阻止删除

Google 让把其他 AI 的“记忆”导入 Gemini 更简单

没有老师、靠 AI 上课的学校，每年学费 5.5 万美元，已经招到学生