Google AI Edge - IA on-device multiplateforme

(ai.google.dev)

14 points par GN⁺ 2025-06-02 | 1 commentaires | Partager sur WhatsApp

Google AI Edge simplifie le déploiement de modèles d’IA sur mobile, web et appareils embarqués
Son framework multiplateforme unifié permet d’exécuter le même modèle sur Android, iOS, le web et les environnements embarqués
Il offre une compatibilité avec divers frameworks de machine learning (JAX, Keras, PyTorch, TensorFlow)
Il propose des outils de développement avancés comme la visualisation et le débogage de conversion de modèles, ainsi que la création de pipelines personnalisés
Des environnements d’IA générative on-device comme Gemini Nano peuvent être utilisés sur Android et Chrome

Présentation de Google AI Edge

Google AI Edge est une solution de déploiement d’IA on-device et multiplateforme
C’est une plateforme qui permet de déployer et d’exécuter efficacement des modèles d’IA sur divers environnements, notamment les applications mobiles, web et embarquées.

Principales caractéristiques

Conservation sur l’appareil : les données restent localement privées, ce qui réduit la latence et permet un fonctionnement hors ligne
Prise en charge multiplateforme : le même modèle peut être exécuté sur Android, iOS, le web et les environnements embarqués
Compatibilité multi-frameworks : prise en charge de plusieurs frameworks de machine learning, dont JAX, Keras, PyTorch et TensorFlow
Pile IA edge complète : prise en charge intégrée de frameworks flexibles, de solutions clé en main et d’accélérateurs matériels

Solutions prêtes à l’emploi et framework flexible

API low-code pour les tâches d’IA courantes

Fournit des API multiplateformes low-code permettant de traiter facilement des tâches d’IA courantes comme l’IA générative, la vision, le texte et l’audio
Des solutions basées sur MediaPipe permettent une prise en main et une mise en œuvre rapides

Déploiement multiplateforme de modèles personnalisés

Les modèles d’IA existants entraînés avec JAX, Keras, PyTorch ou TensorFlow peuvent être exécutés avec de hautes performances sur Android, iOS, le web et les appareils embarqués
La prise en charge de LiteRT garantit une efficacité opérationnelle et une grande facilité de déploiement

Outils de conversion et de visualisation des modèles

Fournit des fonctionnalités permettant de visualiser le processus de conversion et de quantification des modèles
Un overlay de benchmark de performance permet le débogage des hotspots d’un projet IA

Construction de pipelines ML personnalisés

Il est possible de créer des pipelines fonctionnels complexes en enchaînant plusieurs modèles ML, y compris avec une logique de prétraitement et de post-traitement
Des pipelines accélérés basés sur GPU et NPU peuvent être exécutés sans bloquer le CPU

Gemini Nano sur Android et Chrome

Avec Gemini Nano, le plus récent modèle d’IA générative on-device de Google, il est possible d’intégrer des fonctions d’IA générative dans divers environnements comme Android et Chrome

Conclusion

Google AI Edge constitue une option solide pour le déploiement de technologies d’IA distribuées et on-device.
Grâce à sa compatibilité multiplateforme, à la prise en charge de nombreux frameworks, à ses outils de productivité pour le développement et à son environnement récent d’IA générative, il offre aux startups et à la communauté des développeurs IT une expérience d’adoption de l’IA à la fois efficace et puissante.

1 commentaires

GN⁺ 2025-06-02

Commentaires sur Hacker News

À mon avis, la combinaison tensorflow lite + mediapipe était excellente à une époque, mais donne l’impression d’avoir été quasiment abandonnée par Google ces 3 dernières années. Mediapipe n’a reçu presque aucune mise à jour significative, et beaucoup de modèles courants sont soit datés, soit lents. TF Lite prenait en charge des NPU comme l’ANU d’Apple, mais mediapipe ne le prenait pas du tout en charge. Et il y avait aussi beaucoup trop de confusion entre les marques MLKit, Firebase ML, TF lite, LiteRT, etc. À ce stade, je pense qu’il vaut mieux utiliser onnxruntime avec les bibliothèques hugging face transformers ou transformers.js, ou attendre qu’executorch gagne en maturité. Je n’ai quasiment jamais vu de modèles SOTA récents portés officiellement vers tensorflow lite / liteRT (SAM2, EfficientSAM, EdgeSAM, DFINE, DEIM, Whisper, Lite-Whisper, Kokoro, DepthAnythingV2, etc.) ; tout est essentiellement centré sur pytorch, même si les communautés ONNX et MLX restent importantes
On peut voir une galerie de cas d’usage ML/GenAI exécutés directement sur l’appareil sur https://github.com/google-ai-edge/gallery. On peut y essayer ou utiliser les modèles localement
Je trouve positif qu’il y ait de plus en plus de solutions pour le ML on-device. Cela dit, je ne sais pas si je m’en servirais facilement en dehors d’un cas d’usage précis que j’utilise déjà. Il est aussi difficile d’estimer à quel point il est compliqué d’ajouter un nouveau modèle acceptant des entrées et sorties arbitraires. J’utilise Onnx pour l’inférence de modèles sur différents appareils, et Onnx est vraiment bas niveau, ce qui permet d’appliquer à peu près n’importe quels poids. Pour beaucoup de tâches, on peut envelopper Onnx avec transformers.js, ce qui évite de refaire à la main les tâches répétitives comme le décodage (pas besoin d’implémenter soi-même la beam search). Une ressource plus complète, proche du guide mentionné plus haut, est https://github.com/huggingface/transformers.js-examples. Les différentes solutions que j’ai mentionnées sont visibles sur https://ai.google.dev/edge/mediapipe/solutions/guide
C’est juste TensorFlow Lite + MediaPipe reconditionné sous une nouvelle « marque »
- Je me demande si c’est la technologie utilisée sur https://3d.kalidoface.com/. Le fait que ça tourne sur l’appareil est impressionnant. C’est meilleur que pas mal de solutions commerciales de motion capture. En plus, alors que cette solution était déjà assez mature, elle a été marquée deprecated/unsupported il y a déjà 3 ans. C’est dommage que Google n’ait pas davantage exploité ou mis en avant cette technologie
Je me demande si quelqu’un a déjà utilisé cette solution. J’ai passé énormément de temps à galérer pour exporter des modèles pytorch personnalisés vers coreml, avec beaucoup de choses non prises en charge, des segfaults à répétition et toutes sortes d’erreurs absurdes. J’aimerais que quelqu’un me rassure sur le fait que cette solution n’est pas aussi pénible
- J’ai tout configuré et testé Gemma3 1B sur un Pixel 8a. Le fait que ça ait tourné en quelques minutes était appréciable, mais les performances étaient médiocres. Rien qu’avec une simple question, ça ne parsait même pas correctement, ça n’essayait pas vraiment de répondre, et son anglais était franchement mauvais. J’avais posé une question simple, du genre « comment ce modèle peut-il être assez petit pour tourner localement sur mon téléphone », et j’ai été tellement déçu que j’ai abandonné le modèle lui-même. À la base, je n’ai déjà pas de grandes attentes vis-à-vis de l’IA, mais j’ai tout de même été aussi déçu que ça
Je l’ai testé moi-même et, d’après ce que j’ai vu, cela servait essentiellement à reconstruire un modèle purement pytorch en modèle .tflite. Dans mon cas, je l’ai appliqué à un modèle finbert personnalisé, et la taille du modèle est restée quasiment la même. J’ai converti une version quantized, mais les sorties étaient très différentes. Si je me souviens bien, la documentation visait surtout les modèles pytorch standard, par exemple ceux de la famille torchvision.models. Donc si votre modèle appartient à cette catégorie, ce sera peut-être mieux. À noter que mon essai remonte à environ un an, donc j’ai peut-être eu la chance d’éviter un gros correctif de bug
Il y a plus de détails ici : https://ai.google.dev/edge/mediapipe/solutions/guide ; et le lien open source est https://github.com/google-ai-edge/mediapipe. À mes yeux, c’est en fait une manière unifiée de déployer des modèles d’IA qui tournent réellement sur l’appareil (edge). On peut supposer que ça occupe une position un peu comparable à « JavaScript dans la stack IA ». Je me demande qui est le public visé par cette technologie
- Certains modèles de mediapipe sont assez utiles, mais mediapipe lui-même est une technologie ancienne qui existe depuis 2019 environ. Il a toujours été centré sur l’exécution de l’IA en edge, surtout pour l’IA visuelle (par exemple le suivi du visage). Ce genre d’usage reste utile, mais pour la reconnaissance d’image et d’autres domaines, le monde a beaucoup changé depuis
- Pour le public cible, je pense qu’il s’agit des personnes qui veulent déployer des modèles de ML en cross-platform. En particulier lorsqu’il faut prendre en charge du code additionnel que le simple runtime TFLite ne suffit pas à couvrir. Des cas d’usage comme les LLM ou la vision par ordinateur s’y prêtent bien. Par exemple, si vous voulez déployer un reconnaisseur de gestes de la main, il faut gérer une chaîne complexe : prétraiter l’image d’entrée dans un espace colorimétrique et une taille spécifiques, copier l’image sur le GPU, exécuter un modèle TFLite de détection de main, redimensionner la sortie, exécuter un modèle TFLite de reconnaissance de geste, puis post-traiter le tout pour produire un résultat valide. Pour déployer cela à la fois sur iOS et Android, il faut énormément de code annexe au-delà de la simple exécution TFLite. L’approche choisie par Google dans Mediapipe consiste à empaqueter cette suite de pipelines et de nœuds de traitement communs sous forme de bibliothèque C++, puis à piocher les éléments nécessaires. Cette bibliothèque se compile en cross-platform et propose aussi des options d’accélération GPU. Je pense qu’en interne, Google a dû hésiter entre étendre le runtime TFLite avec ce genre de fonctions ou créer une bibliothèque séparée comme Mediapipe. Au final, ils semblent avoir choisi de laisser TFLite se concentrer sur le « calcul tensoriel » lui-même, et de déporter les tâches plus larges, comme les LLM ou le traitement d’image, vers une bibliothèque distincte
Je me demande si c’est un nouveau produit ou simplement une page marketing qui regroupe les technologies MediaPipe existantes sous un seul récit. Au départ, j’étais assez enthousiaste, mais j’étais perdu sur ce qu’était exactement « Google AI Edge ». Et après vérification, ça ressemble à un rebranding de https://developers.googleblog.com/en/introducing-mediapipe-solutions-for-on-device-machine-learning/ annoncé il y a environ 2 ans
C’est une solution qui a plusieurs années de retard sur ce qui existe déjà avec des frameworks comme CoreML ou TimyML. Et Google doit d’abord montrer qu’il ne va pas jeter le produit lui-même à la poubelle dès le prochain trimestre pour des raisons de résultats
- En réalité, ce n’est pas vrai. Les deux produits sont complètement différents. CoreML est limité à l’écosystème Apple et permet de convertir des modèles PyTorch en CoreML (.mlmodel) pour les exécuter avec les accélérateurs d’iOS/Mac. Google Mediapipe est une énorme bibliothèque C++ cross-platform (ios/android/web) pour exécuter des flux ML. Elle inclut Tensorflow Lite (désormais LiteRT) et peut aussi servir de processeur de graphes pour des tâches de prétraitement générales comme le redimensionnement d’image. Il existe bien un mème sur le fait que Google abandonne ses produits trop tôt, mais Mediapipe est open source, donc il faut au moins lui reconnaître cela. J’ai déjà construit un produit de vision par ordinateur iOS/Android à partir d’un fork de Mediapipe ; c’était très complexe, mais ça fonctionnait bien. C’est une solution cross-platform qu’on ne pourrait jamais créer avec CoreML
- TensorFlow Lite a déjà fait ses preuves sur des dizaines de milliards d’appareils au fil des années. Cette solution me semble être Mediapipe, rebrandé/étendu et regroupé avec lui. Google investit sérieusement dans le ML on-device depuis plus de 5 ans, donc cela ne semble pas être quelque chose qu’ils vont tuer du jour au lendemain. En revanche, le fait qu’ils changent souvent les noms crée effectivement de la confusion
- La partie IA générative n’existe pas dans l’écosystème Apple, si ? Si ça devenait comparable à ce que propose Google, ce serait un énorme changement. Personnellement, les fonctions liées au chat me paraissent très utiles. Et je me demande surtout quand Swift Assist va enfin sortir
- C’est simplement tensorflow lite rebrandé. Je l’utilise sur des edge devices depuis 2019. CoreML est aussi excellent
- CoreML est né du fait qu’Apple a vu TensorFlow et a décidé de créer quelque chose de similaire sans collaborer. TF existait déjà depuis 2 ans au moment de l’annonce de CoreML et c’était déjà un framework à succès. Encore aujourd’hui, CoreML n’est en pratique guère plus qu’une interface BLAS propriétaire et il n’est pas largement utilisé dans l’industrie. Le point de vue des développeurs iOS fait peur
On peut aussi faire ce genre de choses avec WebLLM

Google AI Edge - IA on-device multiplateforme

Présentation de Google AI Edge

Principales caractéristiques

Solutions prêtes à l’emploi et framework flexible

API low-code pour les tâches d’IA courantes

Déploiement multiplateforme de modèles personnalisés

Outils de conversion et de visualisation des modèles

Construction de pipelines ML personnalisés

Gemini Nano sur Android et Chrome

Conclusion

À lire aussi

1 commentaires

Commentaires sur Hacker News