Introduction
J'ai testé la nouvelle fonctionnalité d'automatisation de tâches de Gemini sur un Pixel 10 Pro et sur un Galaxy S26 Ultra. Pour la première fois, Gemini peut interagir directement avec des applications à votre place. C'est limité aujourd'hui à quelques services de livraison de repas et de VTC, et c'est encore en beta. Résultat : c'est lent, parfois maladroit, et ça ne règle pas une urgence sur votre téléphone, mais c'est aussi franchement impressionnant.
Comment ça fonctionne
Gemini simule des actions dans les applications : il clique, fait défiler, choisit des éléments de menu. Par défaut l'automatisation tourne en arrière-plan. Si vous voulez regarder, il faut ouvrir une fenêtre dédiée et appuyer pour voir les étapes. Pendant qu'il travaille, du texte s'affiche en bas de l'écran pour indiquer ce qu'il fait, par exemple "Sélection d'une deuxième portion de poulet teriyaki pour le menu".
Conçu pour s'exécuter pendant que vous faites autre chose
La logique est claire : Gemini doit pouvoir agir pendant que vous utilisez votre téléphone ou que vous ne regardez pas l'écran. Si vous avez besoin d'un Uber immédiatement, vous restez plus rapide que l'IA. Mais l'idée est que Gemini gère des tâches en arrière-plan pendant que vous vérifiez autre chose, comme votre passeport pour la dixième fois.
Exemples pratiques
Commande de teriyaki
J'ai demandé un plat combiné au poulet. Le menu affichait des portions en demi-quantités, donc Gemini a compris et ajouté deux demi-portions pour constituer une portion entière. C'est le genre de raisonnement utile. En revanche, l'ensemble de l'opération a pris environ neuf minutes, avec quelques erreurs de navigation avant d'aboutir. Regarder l'IA tâtonner pour trouver un élément pourtant visible en haut de l'écran n'est pas très rassurant, mais c'est fascinant.
Réservation de VTC pour un vol
J'ai mis un événement sur mon calendrier pour un vol vers San Francisco le lendemain et j'ai demandé à Gemini de programmer un trajet vers l'aéroport. Comme l'IA a accès à mon calendrier et à mes mails, elle a retrouvé l'heure du vol, proposé des horaires de départ (par exemple 11:30 ou 11:45 pour un vol à 13:45), et après confirmation de ma part elle a réservé le trajet en environ trois minutes, sans intervention supplémentaire.
Ce qui marche bien et ce qui coince
- Sécurité et contrôle : Gemini s'arrête avant la confirmation finale. Dans mes tests il n'a jamais validé une commande sans que je vérifie. C'est la façon la plus raisonnable d'utiliser la fonction aujourd'hui.
- Précision : la plupart du temps l'IA compose correctement la commande ou la réservation. Les erreurs surviennent surtout en début de processus, par exemple quand l'application demande une permission ou que la localisation de livraison reste réglée sur un ancien lieu.
- Brittleness : l'IA peut bloquer sans expliquer clairement pourquoi. Il faut parfois intervenir pour corriger une permission ou modifier la destination, puis relancer l'automatisation.
Implications pour les développeurs d'apps
Regarder Gemini manipuler des interfaces conçues pour des humains montre bien une chose : si vous vouliez créer une application pensée pour une IA, elle ne ressemblerait pas aux apps actuelles. Les publicités, les grandes photos alléchantes et les éléments superflus gênent l'automatisation. L'approche idéale serait une base de données propre plutôt qu'une interface visuelle à analyser. L'industrie travaille sur des solutions (par exemple des protocoles d'intégration et des fonctions dédiées) qui rendraient ces interactions plus robustes.
En attendant, Gemini utilise le raisonnement visuel et logique quand une intégration plus directe n'existe pas. C'est utile, mais c'est aussi la version la plus fragile et la plus lente de ce que pourrait devenir l'automatisation d'apps.
Conclusion
Ce que j'ai vu n'est pas parfait. C'est lent, parfois hésitant, et pas encore prêt à remplacer une action humaine rapide. Pourtant, c'est une vraie première : un assistant IA qui agit dans des apps réelles sur un téléphone. C'est maladroit, mais prometteur. Si cela pousse les développeurs à proposer des interfaces plus adaptées aux assistants intelligents, on aura gagné du temps et de la fiabilité.
En bref : l'automatisation de Gemini n'est pas la solution miracle aujourd'hui, mais elle montre une direction crédible pour l'avenir des assistants mobiles.