- Tout le monde sait désormais que Google Bard a donné une réponse erronée dans une publicité, mais Bing AI aussi a fourni une réponse complètement fausse dans sa démo, sans que personne ne s’en aperçoive
Aspirateurs pour animaux de compagnie
- En recherchant
Pet Vacuums, les inconvénients d’un produit étaient indiqués comme étant « aspiration faible, cordon court et bruyant »
- Je suis allé voir l’article de hgtv cité comme source, et il ne contient absolument rien de tout cela. Pire encore, le produit en question est « sans fil ». Un aspirateur portable « sans cordon »
Mexico Nightlife
- Bing a préparé un itinéraire de 5 jours à Mexico, puis on lui a demandé quoi faire le soir
- Le bar pour lequel une réservation serait possible sur le web n’a pas de site web
- La boîte de nuit censée être populaire auprès des jeunes n’a plus aucun avis depuis 2014/16. On dirait que tout à propos de cet endroit a été inventé par l’IA
- Le bar présenté comme séduisant est en fait le plus ancien bar gay du Mexique. Il a plus de 500 avis Google, mais il est tout de même indiqué comme n’ayant ni note ni avis, ce qui est frappant
- Sur 5 lieux recommandés, 1 seul était exact
Résumé des états financiers de Gap
- C’était l’erreur la plus grave de la démo, et elle était inattendue
- La marge brute (
Gross Margin) est indiquée à 37,4 %, mais il s’agit de la marge brute non ajustée (Unadjusted Gross Margin). La marge brute ajustée des coûts de dépréciation est de 38,7 %
- La marge opérationnelle est indiquée à 5,9 %, mais ce chiffre n’apparaît nulle part dans le document
- Le BPA dilué est également présenté comme étant de $1.6/$1.75, mais ces chiffres n’apparaissent pas dans le document. Il s’agit de $0.71/$0.77
- Pour les prévisions 2022, il est écrit que l’entreprise s’attend à une croissance du chiffre d’affaires net dans le bas des deux chiffres, alors qu’elle prévoit en réalité une baisse dans le milieu des chiffres à un seul chiffre
- Soit cela a été pris d’un autre document, soit cela a été complètement inventé
- Même chose pour la comparaison entre Gap et Lululemon
- Les chiffres de Lululemon non plus ne correspondent pas aux données sources
Conclusion
- Bing AI a certes réussi à capter l’attention des médias, mais il n’est en rien meilleur que Google Bard
- Il est difficile de croire que l’équipe Bing ait enregistré cette pré-démo avec des informations erronées
- Plus surprenant encore, c’est que cela ait été considéré comme un succès et que tout le monde soit monté dans le train des louanges à Bing AI sans même vérifier correctement
- Bing AI n’est pas capable d’extraire les chiffres exacts d’un document et, tout en prétendant avoir des sources, compose les informations à sa guise avec assurance
- C’est un produit qui n’est pas encore prêt et que ceux qui veulent des faits exacts ne devraient pas utiliser
7 commentaires
De mon côté aussi, en continuant à travailler sur le deep learning, je me dis que les modèles ont un problème d’over-confidence assez important, et on retrouve ici un problème similaire.
Le fait qu’il invente ses sources à sa guise était déjà très problématique avec ChatGPT, donc j’avais beaucoup d’attentes vis-à-vis de Bard…
Il faut sans doute le lire en lien avec « ChatGPT est le JPEG flou du Web ».
Ils ont vraiment réussi à créer une IA qui ressemble à une vraie personne.
C’est pareil avec ChatGPT. Sans expertise spécialisée, il donne souvent des réponses erronées qu’on ne remarque pas.
La différence, c’est que ChatGPT indique clairement, du côté d’OpenAI, qu’il n’est pas connecté à Internet, et que selon sa conception il refuse souvent de répondre à des questions comme celle du texte principal.
Oui, s’il ne sait pas, il devrait dire qu’il ne sait pas ; on dirait qu’il ment sans arrêt.