Apple Intelligence pour iPhone, iPad et Mac

(apple.com)

1 points par GN⁺ 2024-06-11 | 1 commentaires | Partager sur WhatsApp

Apple a présenté Apple Intelligence, qui combine des modèles génératifs avec le contexte personnel pour intégrer la génération de texte et d’images ainsi que l’exécution de tâches entre applications à l’expérience native sur iPhone, iPad et Mac
iOS 18, iPadOS 18 et macOS Sequoia intègrent Writing Tools, les priorités et résumés dans Mail, les résumés de notifications, ainsi que l’enregistrement, la transcription et le résumé audio dans Notes et Phone
La partie image s’étend avec Image Playground, Genmoji, la recherche, Clean Up et Memories dans Photos, avec une utilisation possible dans les apps Apple et les apps tierces adoptant l’API
Siri s’étend pour prendre en charge la saisie de texte, la compréhension de l’écran, des centaines d’actions dans et entre les apps, des réponses sur l’utilisation des appareils et le traitement de requêtes fondées sur les informations présentes sur l’appareil
La protection de la vie privée repose sur le traitement on-device et Private Cloud Compute ; ChatGPT s’intègre à Siri et à Writing Tools avec l’autorisation de l’utilisateur, sur la base de GPT-4o, et la bêta sera proposée cet automne en anglais américain

Structure de base d’Apple Intelligence

Apple Intelligence est un système d’intelligence personnelle pour iPhone, iPad et Mac, qui combine les capacités des modèles génératifs avec le contexte personnel de l’utilisateur
Il est profondément intégré à iOS 18, iPadOS 18 et macOS Sequoia, et s’appuie sur Apple silicon pour effectuer les tâches suivantes
- compréhension et génération de texte et d’images
- exécution de tâches entre applications
- simplification et accélération des tâches du quotidien à partir du contexte personnel
Pour les requêtes plus complexes, Private Cloud Compute ajuste la capacité de calcul nécessaire entre le traitement on-device et des modèles hébergés sur des serveurs Apple silicon

Compréhension du langage et outils d’écriture

Les Writing Tools, intégrés à l’échelle du système, s’appliquent à presque tous les champs de rédaction dans Mail, Notes, Pages, les apps tierces et ailleurs sur iOS 18, iPadOS 18 et macOS Sequoia
Les fonctions d’assistance à l’écriture se concentrent sur l’amélioration d’un brouillon en fonction de son objectif et de son format
- Rewrite : propose plusieurs versions d’un texte rédigé et ajuste le ton en fonction du destinataire et de la tâche
- Proofread : vérifie la grammaire, le choix des mots et la structure des phrases, puis fournit des suggestions de correction avec explications
- Summarize : résume le texte sélectionné sous forme de paragraphe, de points clés, de tableau ou de liste
Mail reçoit Priority Messages, qui affiche les e-mails urgents en haut de la boîte de réception
- il est possible de consulter un résumé sans ouvrir l’e-mail
- pour les longs fils, un simple toucher permet d’afficher les détails pertinents
- Smart Reply suggère des réponses rapides et identifie les questions d’un e-mail pour aider à y répondre sans rien oublier
Les notifications bénéficient de Priority Notifications et d’une fonction de résumé afin de réduire les informations à traiter sur l’écran verrouillé
- les notifications importantes apparaissent en haut de la pile
- l’essentiel des longues notifications ou des notifications accumulées s’affiche sur l’écran verrouillé
- le nouveau mode Focus Reduce Interruptions n’affiche que les notifications susceptibles de nécessiter une attention immédiate
Dans les apps Notes et Phone, il est possible d’enregistrer, transcrire et résumer l’audio
- lorsqu’un enregistrement démarre pendant un appel, les participants sont automatiquement avertis
- à la fin de l’appel, Apple Intelligence résume les points essentiels

Génération d’images et fonctions d’expression

Image Playground permet de créer une image en quelques secondes, avec trois styles : Animation, Illustration et Sketch
Il peut être utilisé directement dans des apps comme Messages, et est aussi proposé sous forme d’app dédiée
- toutes les images sont générées on-device
- il est possible de choisir des concepts dans des catégories comme les thèmes, les vêtements, les accessoires ou les lieux
- une description peut être saisie pour définir l’image
- des personnes issues de la photothèque personnelle peuvent être intégrées à l’image
Dans Messages, des concepts personnalisés liés à la conversation sont suggérés
- par exemple, dans une conversation de groupe qui organise une randonnée, des concepts liés aux amis, à la destination et à l’activité peuvent être proposés
Dans Notes, Image Wand dans la palette d’outils Apple Pencil permet d’utiliser Image Playground
- il peut transformer une esquisse sommaire en image
- en sélectionnant un espace vide, il peut générer une image à partir du contexte environnant
Image Playground est aussi disponible dans Keynote, Freeform et Pages, ainsi que dans les apps tierces adoptant la nouvelle API Image Playground

Genmoji et fonctions de Photos

Genmoji permet de créer de nouvelles images de type emoji à partir d’une description
- lorsqu’une description est saisie, Genmoji et des options supplémentaires s’affichent
- il est possible de créer des Genmoji d’amis ou de membres de la famille à partir de photos
- ils peuvent être ajoutés en ligne dans un message, ou partagés sous forme de sticker ou de réaction Tapback
La recherche dans Photos prend en charge le langage naturel pour retrouver plus directement des scènes précises
- il est possible de rechercher des photos très spécifiques, comme “Maya skateboarding in a tie-dye shirt”
- la recherche vidéo peut retrouver un moment précis dans un clip et accéder directement au passage correspondant
Le nouvel outil Clean Up identifie et supprime les éléments gênants à l’arrière-plan d’une photo
- il est conçu pour éviter de modifier accidentellement le sujet principal
Dans Memories, lorsqu’un utilisateur saisit une description, Apple Intelligence sélectionne photos et vidéos, construit un scénario avec des chapitres thématiques et les assemble sous forme de film
- des suggestions de morceaux adaptés au souvenir sont aussi proposées via Apple Music
- les photos et vidéos de l’utilisateur restent privées sur l’appareil et ne sont pas partagées avec Apple ni avec d’autres personnes

Les évolutions de Siri

Siri est désormais plus profondément intégré à l’expérience système grâce à Apple Intelligence
Ses capacités de compréhension du langage sont renforcées, ce qui lui permet de suivre même si l’utilisateur hésite dans sa formulation et de conserver le contexte entre plusieurs requêtes
L’utilisateur peut taper à Siri et passer du texte à la voix selon la situation
Lorsque Siri est activé, un nouvel effet lumineux apparaît autour des bords de l’écran
Siri peut aussi répondre à des milliers de questions sur l’utilisation de l’iPhone, de l’iPad et du Mac
- planifier l’envoi d’un e-mail dans Mail
- répondre à des questions comme le passage du Light Mode au Dark Mode
Grâce à la compréhension de l’écran, Siri peut effectuer des actions liées aux informations visibles à l’écran
- il peut par exemple ajouter à une fiche contact une nouvelle adresse reçue dans Messages
Siri peut exécuter des centaines de nouvelles actions dans et entre les apps Apple et tierces
- ouvrir un article précis dans la Reading List
- traiter des demandes comme l’envoi à une personne donnée des photos du barbecue de samedi
Siri peut aussi traiter des requêtes personnalisées à partir des informations on-device de l’utilisateur
- il peut retrouver et lancer un podcast recommandé, même si l’utilisateur ne se souvient plus s’il l’a vu dans un SMS ou un e-mail
- il peut retrouver les informations d’un vol et les comparer au suivi en temps réel pour donner l’heure d’arrivée

Protection de la vie privée et Private Cloud Compute

Apple Intelligence repose sur une architecture conçue pour comprendre le contexte personnel tout en protégeant la vie privée de l’utilisateur
De nombreux modèles fonctionnent entièrement on-device
Pour les requêtes complexes nécessitant davantage de puissance, Private Cloud Compute est utilisé
- il exécute des modèles serveur plus grands sur des serveurs Apple silicon
- il est conçu pour empêcher le stockage ou l’exposition des données
Des experts indépendants peuvent inspecter le code exécuté sur les serveurs Apple silicon pour vérifier les garanties de protection de la vie privée
Private Cloud Compute garantit cryptographiquement que l’iPhone, l’iPad et le Mac ne communiquent qu’avec des serveurs exécutant des logiciels consignés publiquement et vérifiables

Intégration de ChatGPT

Apple intègre l’accès à ChatGPT dans l’expérience d’iOS 18, d’iPadOS 18 et de macOS Sequoia
L’utilisateur peut profiter de l’expertise de ChatGPT, de sa compréhension des images et des documents, sans passer par un outil séparé
Siri peut faire appel à ChatGPT lorsque cela est utile
- avant d’envoyer des questions, des documents ou des photos à ChatGPT, Siri demande l’autorisation de l’utilisateur
- après autorisation, Siri affiche directement la réponse
ChatGPT est aussi disponible dans les Writing Tools à l’échelle du système
- avec Compose, il peut générer du contenu pendant la rédaction
- les outils d’image de ChatGPT peuvent créer des images dans différents styles pour enrichir un texte
L’utilisation de ChatGPT inclut des protections de la vie privée
- l’adresse IP est masquée
- OpenAI ne stocke pas les requêtes
- si l’utilisateur relie son compte, la politique d’utilisation des données de ChatGPT s’applique
L’intégration de ChatGPT sera proposée plus tard cette année sur iOS 18, iPadOS 18 et macOS Sequoia, sur la base de GPT-4o
- l’accès gratuit est possible sans créer de compte
- les abonnés ChatGPT peuvent relier leur compte pour utiliser les fonctionnalités payantes

Calendrier de disponibilité et appareils pris en charge

Apple Intelligence sera proposé gratuitement aux utilisateurs
Une bêta sera disponible cet automne avec iOS 18, iPadOS 18 et macOS Sequoia, avec l’anglais américain comme langue initiale
Certaines fonctions, plateformes logicielles et langues supplémentaires seront déployées au cours de l’année suivante
Les appareils pris en charge sont les suivants
- iPhone 15 Pro
- iPhone 15 Pro Max
- iPad et Mac équipés d’une puce M1 ou ultérieure
Siri et la langue de l’appareil doivent être réglés sur l’anglais américain pour pouvoir l’utiliser
Plus d’informations sont disponibles sur apple.com/apple-intelligence

1 commentaires

GN⁺ 2024-06-11

Avis sur Hacker News

Les fonctionnalités d’IA personnelle qu’Apple a montrées aujourd’hui étaient vraiment impressionnantes.
Cela montre que la vraie puissance de l’IA grand public appartient aux propriétaires de plateformes qui contrôlent déjà la majeure partie de notre vie numérique — messages, e-mails, photos, apps — c’est-à-dire Apple ou Google, et Microsoft côté travail/vie quotidienne.
La façon dont Siri s’appuie sur le contexte des e-mails et des messages pour gérer le calendrier, les réservations ou les confirmations de vols semble vraiment utile. Je pensais bien que des fonctions d’intelligence personnelle finiraient par arriver, mais je ne m’attendais pas à ce qu’Apple frappe aussi fort, et l’effet de son écosystème pour attirer les gens est considérable.
J’ai aussi apprécié qu’ils aient pensé au cloud privé, à l’intégration de ChatGPT, au terrain de jeu de génération d’images et aux Genmoji ; cela pourrait devenir, comme l’a dit Craig, une fonctionnalité « pour nous tous ». En revanche, la génération d’images de personnes réelles est beaucoup trop proche de la vallée de l’étrange : recevoir une image d’anniversaire aussi froide et bâclée ne me ferait probablement pas plaisir.
- C’est un avantage de la façon dont Apple gère la propriété du produit, par contraste avec Google ou Microsoft.
  La convergence autour de l’IA va probablement mettre en évidence les défauts organisationnels de manière bien plus flagrante que les précédentes mutations technologiques. Personne ne veut une IA générative qui fonctionne uniquement dans Gmail, ni une autre IA qui fonctionne uniquement dans Messages ; les gens veulent une fonctionnalité de plateforme qui marche partout où l’on écrit du texte.
  Je ne suis pas sûr qu’aujourd’hui Google ou Microsoft soient capables, organisationnellement, de fournir quelque chose comme ça.
- Il est encore bien trop tôt pour juger, et il ne faut pas se laisser convaincre trop facilement par le marketing.
- Apple Intelligence me semble promise à un grand succès. iOS est clairement la bonne plateforme pour combiner une bonne expérience utilisateur et l’IA, et l’ajout de grands modèles de langage à Siri donne à l’équipe Siri l’occasion de se racheter rapidement de ses erreurs passées.
  Le calcul privé semble lui aussi très important. Au-delà de l’usage évident consistant à traiter les calculs lourds sur des serveurs cloud, cela pourrait ouvrir la voie à un interpréteur de code personnel — autrement dit à du vrai scripting sur iOS — et, à long terme, à la possibilité de développer sur iPadOS.
  Le fait qu’Apple utilise aussi ses propres puces dans ses serveurs est important. La bonne question n’est pas de savoir si c’est « suffisant », mais ce qu’ils vont faire, côté développeurs comme côté matériel, pour atteindre un niveau NVIDIA.
  J’ai l’impression que beaucoup de gens ne comprennent pas encore l’ampleur du sujet, parce qu’ils se focalisent seulement sur l’idée qu’Apple devrait entrer dans la course aux modèles de pointe. Le titre disant que Nadella s’inquiétait du partenariat entre Apple et OpenAI prend maintenant tout son sens.
- Une bonne partie de ce qui a été montré était impressionnante, et cela ressemble à la concrétisation de la promesse de l’assistant numérique personnel que les appareils informatiques personnels mettent en avant depuis des décennies.
  La question la plus importante est celle de la fiabilité. Le point clé est de savoir si cela fonctionnera correctement à chaque fois, ou si le système risque de comprendre complètement de travers et de mettre dans l’embarras l’utilisateur qui lui a fait confiance.
- Dans le contexte du traitement hors appareil, il faut aussi garder à l’esprit que la portée et l’influence des lois américaines sur la surveillance se sont récemment élargies.
  https://www.theguardian.com/us-news/2024/apr/16/house-fisa-g...
À part la recherche et l’amélioration de Siri, je ne suis pas certain de l’utilité des fonctionnalités génératives qu’Apple propose ici.
Si quelqu’un passe une heure à dessiner quelque chose pour l’anniversaire d’une personne et l’envoie, une grande partie de la valeur perçue par le destinataire ne vient pas de la qualité du dessin, mais du fait qu’il y a eu cet effort, ce temps consacré, et qu’il s’agit d’un résultat unique créé uniquement pour cette personne. C’est un peu la même différence de satisfaction entre utiliser quelque chose qu’on a fait soi-même et quelque chose qu’on a acheté.
L’image IA créée par Tania en quelques secondes peut être amusante au début, mais elle risque vite de devenir du spam qui remplit la conversation, sans rien y ajouter. Il en va de même pour inventer soi-même une histoire du soir dont son enfant est le héros.
Dans un monde où l’on peut tout avoir, tout finit par ne plus rien valoir.
- Avec mon enfant, nous avons construit un univers narratif assez élaboré et détaillé, qui commence toujours de la même manière et contient des personnages connus.
  Hier, en conduisant pour aller acheter un burrito, j’ai dicté à gpt-4o les points détaillés, y compris toute l’introduction de l’histoire, puis je lui ai demandé de raconter une nouvelle aventure à partir de ce contexte, et il s’en est extrêmement bien sorti. Je pouvais voir la réaction de mon enfant dans le rétroviseur, et cela n’a pas abîmé ce que nous avions déjà construit. Au contraire, cela m’a donné de nouvelles idées à réutiliser quand je raconterai moi-même les histoires.
  Si l’on s’appuie sur l’IA générative sans y apporter sa propre contribution personnelle et créative, le résultat ne sera probablement pas très intéressant ; mais si on la superpose à quelque chose que l’on continue de créer et d’accumuler, on peut obtenir des résultats remarquables.
  Dans ce sens, l’IA générative ressemble à un nouvel outil, comme si l’on ajoutait un synthétiseur après n’avoir utilisé que le piano ou l’orgue : plus on s’entraîne, mieux on sait s’en servir.
- On pourrait dire la même chose entre envoyer un message d’anniversaire et envoyer une lettre ou une carte manuscrite.
  Rien n’empêche encore aujourd’hui d’envoyer une carte manuscrite, et bien sûr elle sera reçue avec davantage de gratitude, mais les gens apprécient aussi les messages. C’est particulièrement vrai quand on est loin, ou quand la relation n’est pas très profonde.
- La valeur d’un cadeau ne dépend pas seulement de l’effort ou de l’argent qu’on y a mis. Si l’on a choisi quelque chose de bien, il y a aussi de la valeur dans le fait de bien choisir.
  Plus offrir un cadeau devient facile, plus le contexte deviendra important.
- Je pense que le même raisonnement s’applique quand on achète une carte chez Hallmark.
- Pour avoir reçu chaque jour quantité d’images « bonjour » de la part de proches, je comprends parfaitement ce sentiment.
  Il sera intéressant de voir si le spam IA, en particulier les emoji et stickers personnalisés, sera réutilisé ou simplement dispersé comme du plastique à usage unique.
La démo ressemblait à l’image que l’on se faisait de l’IA avant l’arrivée de ChatGPT : personnalisée, capable de comprendre le contexte, avec un mode d’interaction profondément intégré à tout le système.
L’explication sur la façon de traiter les tâches d’IA nécessitant un serveur tout en gardant les requêtes aussi privées que possible était également convaincante. Si cela tourne sur du matériel Apple et sur des logiciels serveur auditables, c’est sans doute presque ce qu’il y a de mieux pour ce type de tâches ; et ce serait encore mieux si c’était open source.
La démo où Siri comprend le contexte de « maman » à partir du contenu d’un e-mail envoyé par la mère, c’était exactement la scène que l’on imaginait dans le monde de l’IA. Les capacités d’IA pures du modèle lui-même finiront très probablement par se banaliser, et ce qui compte désormais, à mon avis, c’est l’intégration globale du modèle au matériel et au système.
L’expérience réelle après le lancement est une autre affaire, mais la vision à elle seule était impressionnante, et Apple montre une fois de plus qu’elle comprend l’expérience utilisateur. Les implications de cette annonce pourraient être bien plus importantes qu’il n’y paraît, avec notamment la possibilité de rendre l’informatique plus accessible aux personnes âgées.
- Tant que ces fonctions ne seront pas entre les mains des testeurs, on ne saura pas à quel point elles sont bonnes.
  Il est facile de produire une démo impressionnante où l’IA « peut tout faire », mais si cela s’écroule souvent dans la réalité, on finit simplement avec le Siri actuel. Il faut se souvenir de cette publicité d’il y a 12 ans : https://www.youtube.com/watch?v=sw1iwC7Zh24
  Parmi les promesses faites à l’époque, beaucoup restent encore difficiles à confier à Siri en toute confiance.
- Beaucoup trop de gens semblent avoir supposé que, parce que ChatGPT est une interface conversationnelle, l’IA devait être conçue de cette façon. C’est un peu comme penser que les ordinateurs resteront toujours en ligne de commande.
  Apple a plutôt bien fourni des interfaces graphiques adaptées à chaque usage pour ses fonctions d’IA, et il sera intéressant de voir comment cela s’approfondira.
- Honnêtement, les fonctions du type Siri qui comprend le contenu d’un e-mail de votre mère me paraissent toutes vraiment terrifiantes.
- Si cette fonction marche comme dans la démonstration, elle attirera les gens encore plus profondément dans l’écosystème.
  On en viendra à vouloir qu’elle comprenne notre vie, et comme tous les appareils devront pouvoir constituer notre contexte pour répondre à des événements ou à diverses questions, cela pourra conduire à des réflexions du genre : « Est-ce que je dois acheter une Apple TV au lieu d’un Chromecast pour que Siri sache aussi quel programme je regarde ? »
- Au final, j’ai l’impression que cela va élargir encore davantage le fossé défensif et rendre le verrouillage de plateforme plus douloureux, ce qui ne me plaît pas.
  Le prix de l’iPhone continue d’augmenter, et une fois profondément engagé dans cet écosystème, le calcul haute performance pourrait pratiquement ressembler à une forme d’extorsion. Il deviendra presque impossible de quitter l’univers Apple.
  Les concurrents ne disposent pas non plus de systèmes aussi intégrés, il leur sera donc difficile d’intégrer tout cela au même niveau.
Du point de vue du branding, c’est parfait. Quelque chose qui paraît « petit », comme une lettre dans le nom de l’entreprise, peut avoir un grand impact des décennies plus tard.
Ils peuvent s’approprier AI == Apple Intelligence, et le « AI for the rest of us » final saisissait bien ce moment tout en laissant entendre où Apple pourrait aller.
Apple va probablement acquérir une expertise dans la gestion d’une immense échelle d’usages par des utilisateurs plus occasionnels, pour créer des images créatives ou drôles, des emoji, travailler du texte et améliorer leur qualité de vie. Même si l’entreprise ne se place pas directement à la pointe des nouvelles technologies d’IA pour les intégrer immédiatement à ses fonctions utilisateur, elle devra s’en rapprocher pour prendre en charge cette échelle particulière.
Cette WWDC était impressionnante, et l’absence de nouvelles sur les Mac Studio, Mac Pro, M3 Ultra, M4 Ultra et M3/M4 Extreme m’a intrigué. Je m’attendais à ce qu’Apple utilise ses propres M2 Ultra, entre autres, pour de la capacité de calcul dans le cloud ; le fait que cela ait effectivement été mentionné était intéressant, et je me demande si d’autres détails suivront sur ce sujet.
- À mon avis, la plus grande annonce était le cloud de calcul privé basé sur Apple Silicon. Apple est en train de développer en interne l’expertise nécessaire pour viser NVIDIA.
- Ce qu’Apple a fait ici est malin, mais peut aussi prêter à confusion.
  D’un côté, l’entreprise semble dire « c’est à nous », mais de l’autre, elle ajoute une marque qui échappe à son contrôle. J’espère que les gens ne se mettront pas à abréger cela en ApI. Sinon, les résultats de recherche sur API seront pollués.
- J’ai l’impression qu’on nous a donné des miettes en vue de futures annonces matérielles. Par exemple, cela pourrait donner : « Nous sommes ravis d’annoncer le M4 Ultra, notre puissant processeur de dernière génération déjà utilisé dans notre cloud d’IA privé. »
- Rendre les initiales du produit inutilisables et impossibles à rechercher, c’est vraiment un coup malin. Apple l’a encore fait.
Je reste sceptique tant que je ne l’aurai pas vu fonctionner réellement.
D’un côté, Apple a un bon bilan en matière de protection de la vie privée et de traitement sur l’appareil, mais cette annonce comportait beaucoup trop de zones floues. On ne sait pas clairement selon quels critères l’exécution passe dans le cloud, comment le modèle personnel est utilisé sur plusieurs appareils, si cela signifie qu’il migre temporairement vers le cloud, ni ce qui change en mode invité.
Même la formulation « OpenAI ne stocke pas les requêtes » paraît volontairement opaque. J’espérais une approche de type apprentissage fédéré, où plusieurs appareils Apple seraient utilisés ensemble pour traiter les requêtes, mais il semble que le rasoir d’Ockham l’ait emporté ; on verra bien.
- Apple a aussi une longue histoire de « vous le tenez mal ». Je ne m’attends pas à un assistant IA extraordinaire, mais plutôt à quelque chose qui devine parfois correctement l’intention de l’utilisateur.
- Pour être juste, c’était une keynote, et les détails seront publiés dans les sessions.
- Ils ont tellement répété qu’ils avaient « un bon bilan en matière de protection de la vie privée » qu’ils ont fini par en faire une vérité.
- Il semble encore y avoir beaucoup de travail pour les prochains mois, et certaines fonctions pourraient être repoussées.
  On verra dans les bêtas comment les promesses d’Apple sont réellement mises en œuvre, mais pour ma part je les éviterai. C’est un peu dommage, mais pour l’instant, le flou joue en faveur d’Apple. Mieux vaut promettre moins et livrer davantage que trop promettre et décevoir.
- Il faudrait fournir un mécanisme permettant à l’utilisateur de voir quelles données sont téléversées.
Si j’ai bien compris, il y a trois cas : 1) l’IA sur l’appareil, 2) l’IA qui utilise les serveurs d’Apple, 3) l’IA qui utilise ChatGPT/OpenAI ou d’autres services à l’avenir
Le 1 semble passer au 2 s’il estime avoir besoin de puissance de traitement supplémentaire, et le 3 ne semble être appelé qu’avec l’autorisation explicite de l’utilisateur
Comme indiqué plus bas, d’autres fournisseurs devraient aussi être ajoutés plus tard
- Je ne vois pas de différence réelle entre le 2 et le 3. À partir du moment où les données quittent l’appareil, elles sont parties, et on ne peut ni les reprendre ni les contrôler
- La 3e étape semble destinée à prendre en charge d’autres modèles et fournisseurs par la suite
  Ce serait bien que tout serveur disposant d’une API standard simple soit pris en charge, afin de pouvoir faire tourner un Llama 3 auto-hébergé, ou autre chose qui sortira dans les 6 à 12 prochains mois
- Le 3 m’a semblé conçu pour des usages non personnels. En gros, des fonctions façon moteur de recherche
  Ça ressemble à quelque chose qu’on utiliserait pour chercher des résultats sportifs ou des informations, des films et leurs détails, ce genre de choses
- Le problème, c’est qu’Apple n’a pas précisé quand le 1 peut basculer vers le 2, ni si l’on peut désactiver cela de manière parfaitement claire
  Pour autant que je sache, le 1 pourrait aussi passer au 2 quand un gouvernement demande des données personnelles, ou quand le modèle publicitaire d’Apple a besoin de détails sensibles pour la personnalisation
- C’est aussi comme ça que je l’ai compris. J’aurais aimé qu’ils clarifient davantage la frontière entre le 1 et le 2, mais une fois que ce sera disponible, les YouTubeurs vont vite creuser le sujet en profondeur
Je l’ai aussi dit dans un autre fil, mais le simple fait que la génération d’images soit incluse, et l’attention qu’elle a reçue, me gêne pas mal
Je m’inquiète de la fiabilité si l’on se met à croire des informations importantes sans en vérifier la source ; pour des choses comme un vol, par exemple, cela pourrait mal tourner
Cela dit, le niveau de finition des fonctions et leur utilité réelle sont intéressants. Ce ne sont peut-être pas les plus spectaculaires, mais ce qu’ils ont montré est effectivement utile. J’aime aussi le fait que ChatGPT soit optionnel chaque fois que Siri juge qu’il peut être utile
La grande question est de savoir si l’on peut désactiver les composants en ligne, et ce qui se passe quand quelque chose ne peut pas être traité localement. Comme ils expliquent que les serveurs utilisent les mêmes puces, je me demande aussi si c’est parce que le modèle ne peut pas tourner localement, ou si c’est à cause du contexte
On ne voit pas très bien non plus si c’est au niveau de fonctionnalités entières ou de certaines requêtes, et cela peut vouloir dire qu’avec le temps, le niveau de traitement local et cloud variera selon le matériel
- Concernant la génération d’images, Image Playground semble prendre en charge trois styles : Animation, Illustration et Sketch
  On voit ce qui manque. Il n’y a pas de style photoréaliste
  Ça me paraît être un bon choix. Je ne suis pas fan de tout transformer en encore plus de mèmes et d’emojis, mais au moins c’est clairement inventé et orienté « fun ». Les enfants aimeront, et les adultes pourront aussi aimer
  Les gens pourront toujours créer des choses très inappropriées, donc il y aura des polémiques, mais le niveau de risque baisse
- Il semble que le contexte de provenance des informations soit affiché avec la réponse : messages, événements et autres éléments
  On peut donc vérifier rapidement si la réponse est correcte. C’est proche d’une recherche sémantique, mais avec une explication des résultats sous forme de texte plus flexible
- Je pense qu’il est très probable qu’avec le temps, le niveau de traitement local et cloud varie selon les appareils
  Apple a ajouté des serveurs par nécessité, comme une solution de secours, mais l’état idéal serait le moment où tous les appareils qu’ils vendent seraient capables d’exécuter tout cela localement pendant une durée suffisante, et où ils pourraient éteindre les serveurs
- Je m’inquiète de la capacité infinie qu’auront les adolescents, au cours des deux prochaines années pendant lesquelles Apple cherchera des moyens de contrôle, à contourner les garde-fous pour créer des images probablement inappropriées pour l’école
- Apple a caché cette échappatoire : ce sera d’abord disponible en anglais américain, puis déployé dans d’autres régions au fil de l’année suivante
  Cela pourrait ne jamais arriver. Les grands modèles de langage échouent rapidement à mesure qu’on s’éloigne des langues disposant de beaucoup de ressources
Ça a vraiment l’air génial
Ils ont dit que le modèle peut s’étendre vers le private cloud compute basé sur Apple Silicon, et que l’appareil de l’utilisateur vérifie l’exécution d’un « publicly verifiable software » pour empêcher toute mauvaise utilisation des données
Je me demande si le code côté serveur sera open source. Si oui, ce serait une bonne surprise. Je suis curieux de voir comment cela va évoluer
Si ça fonctionne comme annoncé, ce sera directement du « taisez-vous et prenez mon argent ». Siri semble enfin devenir ce qu’il aurait dû être, et je me demande aussi s’ils élargissent dès le départ le champ des actions possibles en s’appuyant sur le catalogue Shortcuts Actions
Les fonctions de génération d’images et d’emojis intégrées à Apple Photos et à d’autres parties du système ont aussi l’air vraiment excellentes. Il semble falloir un M1 ou plus récent pour Mac/iPad, et un iPhone 15 Pro pour l’iPhone
- Il n’est pas forcément nécessaire d’acheter un nouvel appareil. C’est rétrocompatible avec A17 Pro et les M1, M2, M3, M4
  L’intégration de services utilise les modèles existants, et donne l’impression d’étendre aux grands modèles de langage ou aux systèmes de la famille Stable Diffusion les API héritées à l’origine d’AppleScript. Mais avec le jeu et la poussée vers le cloud, ils semblent vouloir promouvoir le M4 aussi vite que possible
- Pour ceux que ça intéresse, il y a bien une intégration de ChatGPT
  Si le modèle sur l’appareil estime que « ChatGPT répondra mieux à ça », il demande à l’utilisateur s’il veut l’utiliser. D’après la description, cela semblait conçu pour permettre de brancher d’autres modèles au fil du temps
  En particulier, ChatGPT 4o peut être utilisé gratuitement sans créer de compte OpenAI
- Cette partie m’intrigue vraiment. C’était présenté comme « exécuter de grands modèles de langage dans le cloud », mais j’ai plutôt l’impression qu’ils ont enfoui l’essentiel
  Est-ce que cela signifie, de manière générale, qu’un client peut vérifier cryptographiquement le code exécuté sur le serveur ? Si oui, c’est extrêmement intéressant et utile même en dehors de ce cas d’usage
- Vu que l’intégration de ChatGPT ressemble à un appel d’API, cela ressemble à une couche d’orchestration tournant sur Apple Silicon
  Ce qui est exactement calculé dans le « private cloud compute » n’est pas clair
La partie où il demande « Puis-je utiliser ChatGPT pour cette tâche ? » paraît vraiment maladroite et pas du tout dans l’esprit Apple.
C’est une vieille expression, mais Steve Jobs se retournerait probablement dans sa tombe. Honnêtement, je ne comprends pas bien pourquoi c’est nécessaire.
Ils n’ont pas réussi à créer une intégration suffisamment cohérente ? Dans ce cas, cela veut-il dire que le reste n’est pas basé sur ChatGPT ? Quelle est la différence ? Du point de vue utilisateur, c’est assez déroutant.
- Je pense que c’était le choix le plus intelligent et le plus réaliste de toute la présentation.
  Devenir le meilleur dans l’IA sur l’appareil représente une énorme opportunité de marché. Vouloir tout faire soi-même serait aussi stupide que lancer Safari sans partenariat avec la page d’accueil de Google Search.
  Apple peut se concentrer sur ses points forts : le traitement sur l’appareil et l’intégration de l’IA dans l’expérience utilisateur sur toute la plateforme, sans compromettre la confidentialité. Et pour les domaines qui nécessitent d’envoyer des données vers de vastes fermes de serveurs externes et d’accéder à Internet, comme les requêtes de recherche IA, ils peuvent s’appuyer sur le leader du marché.
- Du point de vue utilisateur, c’est parfaitement clair.
  Si le système ne dit pas qu’il va « appeler un ami pour obtenir la réponse », cela signifie que c’est soit 100 % local, soit, dans le pire des cas, que cela reste entièrement privé et auditable au sein d’Apple Intelligence.
  Si je demande une recette de banana bread, ça ne me dérange pas que ça passe par ChatGPT, mais je pourrais ne pas vouloir envoyer des informations plus personnelles.
- C’est une frontière claire entre « mes données restent sur mon appareil ou dans l’écosystème Apple » et « mes données quittent Apple pour aller chez un tiers ».
- La confidentialité est au cœur de tout ce qu’Apple a annoncé. L’idée principale est que la plupart des questions reçoivent une réponse localement ou via le système Private Compute.
  Plus précisément, à la question « OpenAI voit-il mes données personnelles ou mes questions ? », la réponse est : « tout est traité sur l’iPhone ou dans Private Compute, sauf si vous autorisez explicitement une conversation avec OpenAI ».
- Apple met l’accent sur la confidentialité comme élément central de ses fonctionnalités d’IA, et dès que cela part vers ChatGPT, cette continuité est rompue.
  Au contraire, si cette invite de confirmation n’interrompait pas le flux et n’indiquait pas clairement quand un résultat ChatGPT est récupéré, j’aurais hésité à utiliser les nouvelles fonctionnalités d’IA.
Ça a vraiment l’air génial.
Ils ont dit que le modèle pouvait s’étendre à du private cloud compute basé sur Apple Silicon, et que l’appareil de l’utilisateur vérifiait l’exécution de « publicly verifiable software » afin d’empêcher toute utilisation abusive des données.
Je me demande si le code côté serveur sera open source. Si c’est le cas, ce serait une bonne surprise. Je suis curieux de voir comment cela va évoluer.
Si ça fonctionne comme annoncé, ce sera clairement un moment « taisez-vous et prenez mon argent ». Siri semble enfin devenir ce qu’il aurait toujours dû être, et je me demande aussi s’ils élargissent dès le départ l’éventail des actions possibles en s’appuyant sur le catalogue Shortcuts Actions.
Les fonctions de génération d’images et d’emojis intégrées à Apple Photos et à d’autres parties du système ont aussi l’air vraiment excellentes. Pour Mac/iPad, il semble falloir au moins un M1, et pour l’iPhone, un 15 Pro.
- Le code côté serveur ne sera pas open source, mais ils ont dit qu’il serait mis à disposition pour permettre à des experts indépendants de l’auditer.
- Apple a clairement indiqué qu’il fallait un iPhone 15 Pro ou plus récent, et au moins un M1 pour les autres appareils.

Apple Intelligence pour iPhone, iPad et Mac

Structure de base d’Apple Intelligence

Compréhension du langage et outils d’écriture

Génération d’images et fonctions d’expression

Genmoji et fonctions de Photos

Les évolutions de Siri

Protection de la vie privée et Private Cloud Compute

Intégration de ChatGPT

Calendrier de disponibilité et appareils pris en charge

À lire aussi

1 commentaires

Avis sur Hacker News