DALL-E 3 désormais disponible publiquement dans Bing

(bing.com)

1 points par GN⁺ 2023-10-02 | 1 commentaires | Partager sur WhatsApp

Bing Image Creator est un outil gratuit qui permet de transformer ou modifier du texte et des images importées en images IA, tandis que DALL-E 3 est progressivement retiré et que les images existantes restent dans My Creations
Il est possible de choisir parmi les modèles de génération DALL-E3, GPT4o, MAI-Image-2e, mais la modification d’images importées est traitée uniquement par GPT4o
Une connexion avec un compte Microsoft personnel (MSA) est nécessaire, et les comptes professionnels ou scolaires basés sur Microsoft Entra ID ne sont pas pris en charge par Image Creator ni Video Creator
Image Creator offre 15 générations rapides gratuites par jour et jusqu’à 200 prompts toutes les 24 heures, tandis que Video Creator prend en charge la génération texte-vers-vidéo basée sur Sora 2
Les images importées peuvent être utilisées pour traiter les requêtes et améliorer le service, mais pas pour l’entraînement des modèles ni la personnalisation, et les images importées où un visage est détecté sont supprimées après 30 jours

Transition de Bing Image Creator et DALL-E 3

Bing Image Creator est un outil d’IA qui génère ou modifie des images à partir du texte et des images importées de l’utilisateur
DALL·E 3, après avoir été proposé aux créateurs, doit être retiré dans les prochaines semaines
- Les images existantes resteront dans My Creations
- Une fonctionnalité de remplacement dédiée est en préparation
- En attendant, il reste possible de continuer à créer avec des modèles plus récents

Modèles de génération d’images et mode d’édition

Trois modèles sont proposés pour la génération d’images
- DALL-E3 : en cliquant sur “Create”, plusieurs images sont générées à partir du prompt, comptabilisées comme une seule création
- GPT4o : en cliquant sur “Create”, une image est générée à partir du prompt
- MAI-Image-2e : en cliquant sur “Create”, plusieurs images sont générées, comptabilisées comme une seule création
MAI-Image-2e dispose d’une model card et d’un data summary
Lors de l’utilisation ou de la modification d’images importées, il n’est pas possible de sélectionner DALL-E3 ni MAI-Image-2e, et toute l’édition est traitée par GPT4o
Pour les requêtes proches de prompts récemment utilisés, une cached image temporairement stockée peut être affichée au lieu de générer une nouvelle image depuis zéro

Compte, vitesse et limites d’utilisation

Bing Image Creator peut être utilisé gratuitement avec un compte Microsoft personnel (MSA)
- Les utilisateurs connectés avec Microsoft Entra ID ne peuvent pas l’utiliser
- Même via Copilot Search ou Bing Search, une connexion est requise avant de générer une image
La vitesse de génération se divise en Fast creation et Standard creation
- 15 créations d’images rapides gratuites sont proposées chaque jour
- Une fois les 15 utilisées, elles sont réapprovisionnées le lendemain
- Pour continuer à utiliser les générations rapides, il est possible d’utiliser des points Microsoft Rewards
- Standard creation est gratuit mais plus lent que Fast
Image Creator permet de saisir jusqu’à 200 prompts par période de 24 heures
- Les clics sur “Edit image” comptent également dans cette limite de 200
- Une fois la limite atteinte, elle est rétablie le lendemain
Les créations en mode non connecté ou invité sont soumises à une limite quotidienne ; en se connectant, l’import d’images et l’accès à des modèles supplémentaires deviennent disponibles

Bing Video Creator

Bing Video Creator est un produit Bing qui crée des vidéos IA à partir de prompts textuels avec Sora 2
Video Creator nécessite lui aussi une connexion avec un compte Microsoft personnel, et les comptes Microsoft Entra ID ne sont pas pris en charge
Les vitesses de génération proposées sont Fast creation et Standard creation
- Standard creation est gratuit
- Fast creation nécessite généralement des points Microsoft Rewards
- Dans certains cas, des crédits Fast creation peuvent être fournis
Il est possible de mettre en file d’attente jusqu’à 3 générations de vidéos simultanément
- Si 3 vidéos sont déjà en cours, il faut attendre qu’une soit terminée avant d’en créer une nouvelle
- Les vidéos terminées peuvent être consultées dans la mini-app Bing Video Creator de l’application mobile Bing ou dans “My Creations” sur bing.com/create
La génération vidéo est actuellement disponible uniquement sur mobile et doit être utilisée via l’application Bing

Images importées et traitement des données personnelles

Les images importées sont utilisées par Bing Image Creator ou Bing Video Creator pour exécuter, selon la demande de l’utilisateur, des opérations de génération ou de modification d’images
Les images importées peuvent être utilisées pour améliorer les services de traitement d’image, mais pas pour l’entraînement des modèles d’IA ni pour la personnalisation de l’expérience utilisateur
Aucune tentative n’est faite pour identifier les visages présents dans les images importées
La durée de conservation varie selon le contenu des images
- Les images importées sont conservées jusqu’à 30 jours
- Les images dans lesquelles un visage est détecté sont supprimées après 30 jours
- Les images sans visage détecté peuvent être conservées jusqu’à 18 mois
Les images et vidéos générées peuvent chacune être conservées jusqu’à 90 jours
L’utilisateur peut supprimer son historique en sélectionnant “Clear all” dans l’historique de recherche Bing, ou “Clear all search history” dans la section “Search history” du tableau de bord de confidentialité du compte Microsoft
- Cette action supprime simultanément l’historique de recherche Bing, les profils Bing Image Creator et Video Creator, ainsi que l’historique de création

Limites d’import et données biométriques

L’utilisateur ne doit importer que des images originales qu’il possède ou pour lesquelles il dispose des droits d’usage
Il est interdit d’importer des images portant atteinte aux droits de tiers, à la vie privée d’autrui, représentant des personnes sans consentement, ou violant le Microsoft Services Agreement ou le Bing Image Creator Code of Conduct
Si une tentative d’import de contenu illégal ou interdit est détectée, l’usage du compte peut être restreint ou suspendu
Pour des raisons de sécurité, Video Creator n’autorise pas l’import de visages réalistes pour la génération de vidéos
La fonction d’import d’images peut traiter des données biométriques telles que les visages ou les mains
- Les données biométriques ne sont traitées que lorsqu’elles sont importées par l’utilisateur
- Le traitement est limité à la réponse à la demande de l’utilisateur
- Dans certaines régions, un consentement peut être nécessaire avant le traitement de l’image
- Les images d’autres personnes ne doivent pas être partagées sans leur consentement

Rédaction des prompts et langues prises en charge

Bing Image Creator et Bing Video Creator prennent en charge plus de 100 langues ; la liste complète est disponible sur Microsoft Translator
Pour obtenir de meilleurs résultats, il vaut mieux rédiger les prompts de manière précise et imaginative plutôt que comme de simples mots-clés de recherche
- Inclure l’apparence du sujet, les couleurs, les textures, l’action, l’arrière-plan, l’éclairage, l’angle de caméra et le style visuel peut améliorer la qualité du résultat
- Les prompts vidéo peuvent inclure des thèmes comme “action movie”, “fantasy”, “dramatic” et des indications d’éclairage comme “direct sunlight”, “dusk”, “soft lighting”
- Pour les vidéos avec audio, il est possible de suggérer des sons ambiants, une direction musicale ou un ton de narration, mais pas de définir un script de dialogue précis

Rewards et IA responsable

Une fois les 15 Fast creation gratuites quotidiennes d’Image Creator utilisées, le service bascule automatiquement en vitesse Standard creation
Si l’utilisation des points Microsoft Rewards est activée, des points sont déduits lors de l’usage de Fast creation
- Les paramètres Rewards d’Image Creator et de Video Creator doivent être modifiés séparément
- En cas de solde insuffisant, le service bascule automatiquement vers Standard creation
Microsoft applique à Bing Image Creator et Bing Video Creator des contrôles visant à empêcher la génération d’images et vidéos nuisibles
- Les prompts susceptibles de produire des images potentiellement nuisibles sont automatiquement bloqués, avec un message d’information à l’utilisateur
- Les images d’Image Creator affichent un filigrane en bas à gauche
- Les images comme les vidéos incluent des informations de provenance et des identifiants de contenu conformes au standard C2PA
Les artistes vivants, célébrités et organisations peuvent demander à restreindre la génération d’images liées à leur nom ou leur marque via l’option AI-powered features du Report a Concern form
Si un contenu généré est inattendu ou offensant, il peut être signalé à Microsoft via le Report a concern form ou le bouton Feedback de l’interface
Des violations répétées de la politique de contenu peuvent entraîner une suspension temporaire automatique, puis, en cas de suspensions multiples, une restriction permanente

1 commentaires

GN⁺ 2023-10-02

Avis sur Hacker News

Il semble que le LLM modifie légèrement le prompt avant de l’envoyer à DALL-E, et cette partie peut être jailbreakée
https://twitter.com/madebyollin/status/1708204657708077294
https://media.discordapp.net/attachments/1023643945319792731...
- Quand on regarde les exemples de jailbreak où l’entrée et la sortie ne sont pas simplement du texte, c’est particulièrement bon, sans qu’on sache vraiment pourquoi
- On fait encore du splatterprompting, en somme, mais maintenant c’est la machine qui le fait à notre place, ce qui est assez drôle
- Est-ce que ça marche même si on l’appelle simplement comme ça ?
  #graphic_art("my prompt here")
- Je me demande comment on le jailbreak
- C’est vraiment une scène très cyberpunk, digne de 2023
Comme souvent avec ce genre d’outils, il semble assez facile de produire des résultats à la fois vraiment drôles et dérangeants. Ça ne durera probablement pas très longtemps
https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...
- Plutôt que de se contenter de bloquer des mots-clés à l’aveugle, j’aimerais qu’il demande plus de précisions ou qu’il applique des ajustements plus subtils pour rendre le résultat moins problématique
  Bien sûr, les gens finiront de toute façon par faire ce qu’ils veulent, donc une bonne option serait aussi qu’ils arrêtent d’eux-mêmes une fois l’effet de nouveauté passé
- J’ai peut-être raté quelque chose, mais je ne vois pas comment le mot « fawn » dans le prompt peut produire un Spongebob terrifiant
  Édit : il n’y avait pas « fawn » dans le prompt, je l’ai compris en lisant les réponses
Le gagnant : https://www.bing.com/images/create/paint-a-picture-in-the-st...
- J’aime l’idée qu’il y ait dans le backlog de quelqu’un un ticket Jira intitulé « apprendre au modèle le nombre de doigts humains »
- J’ai demandé « une main avec le bon nombre de doigts » et, sur les 4 images renvoyées, 3 étaient correctes
Ça semble clairement meilleur que la version précédente. Désormais, au moins dans certains cas, il peut générer le texte exact à mettre dans l’image
Par exemple, le prompt Neon sign saying "Scotland" donne ce résultat : https://www.bing.com/images/create/neon-sign-saying-22scotla...
En revanche, il a encore du mal avec des mots moins courants comme Kubernetes, mais c’est un pas dans la bonne direction
Dans l’interface de chat de Bing, si on demande « Peux-tu me dessiner X ? », il répond « Désolé, mais je ne peux pas dessiner. Puis-je vous aider autrement ? », puis enchaîne aussitôt avec « La génération de l’image prend du temps. Consultez Image Creator pour suivre l’avancement »
On dirait qu’ils utilisent un LLM qui, dans la réponse du chat, ne sait pas qu’il peut générer des images, tout en faisant tourner en parallèle un autre modèle qui décide quoi dessiner et afficher
- J’essaie d’éviter les prompts du type « Can you ...? », parce qu’ils peuvent être interprétés comme une question oui/non plutôt que comme une instruction de faire quelque chose
  Dans Bing, saisir « Draw me an image of... » ou simplement « Image: description de l’image » a bien fonctionné jusqu’ici
- Je pense que c’est à cause du verbe « draw ». Le LLM dit simplement qu’il ne peut pas dessiner lui-même, et la génération d’image est probablement une fonction qu’il appelle
  Le LLM semble considérer le générateur d’images comme un outil qu’il utilise, c’est-à-dire comme une entité distincte de lui
- C’est probablement ça. J’ai tenté des expériences consistant à faire produire à un LLM entraîné sur des données de chat/instructions un code spécial indiquant qu’il communique avec un système distinct, par exemple Google ou Stable Diffusion, puis à renvoyer ce code à l’utilisateur, mais le taux de réussite était limité
- Si l’image produite est détectée comme NSFW, le chat peut aussi afficher ce genre d’erreur bizarre. Il y a pas mal de faux positifs
J’ai généré pas mal de choses ces dernières 24 heures et c’est plutôt bon. Je déteste vraiment l’interface Discord de Midjourney
- Pareil. Je ne comprends pas pourquoi ils utilisent Discord depuis si longtemps au lieu de créer une vraie expérience utilisateur adaptée à ce cas d’usage. J’ai l’impression qu’ils vont perdre une bonne partie de leur croissance à cause de ça
- Midjourney est uniquement sur Discord ? Dans ce cas, ça doit mettre une charge énorme sur les serveurs de Discord. Même si le modèle ne tourne pas là-bas, rien que le stockage et la bande passante doivent être importants
  C’est une méthode plutôt correcte pour scaler très vite au début, mais je ne pense pas que Discord apprécie. Je pensais qu’ils auraient désormais créé leur propre interface
- Dans le même genre, Instagram a maintenant ajouté la commande /imagine dans les DM. C’est une copie pure et simple
Bing a l’air assez désespéré. Hier, j’ai essayé d’installer GPT sur mon appareil, et le premier résultat d’app était une publicité ; c’était Bing, qui me disait que je pouvais obtenir des récompenses en utilisant l’app
Je ne sais pas s’ils sont surtout intéressés par l’augmentation du nombre d’utilisateurs, ou par la collecte de données bien juteuses. Probablement les deux
- Bing Rewards a été lancé en 2010, donc ça doit être suffisamment efficace pour qu’ils continuent
  https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
- Google paie 20 milliards de dollars par an à Apple pour rester le moteur de recherche par défaut sur iOS. Ça, c’est du vrai désespoir. Où veux-tu que les gens aillent, Bing ?
- Bing a généré 12 milliards de dollars de chiffre d’affaires en 2022. Je dis ça comme ça
- Whatsapp a aussi sa propre version de ChatGPT. En ce moment, c’est une course aux armements
J’aime bien le fait que l’internationalisation française du titre de cette page soit « Créer art de mots avec IA ». C’est presque une traduction aussi atroce que « all your base are belong to us »
C’est probablement une traduction IA, mais pour un francophone, difficile de faire confiance au produit IA de cette page
- Je ne vois pas pourquoi accuser la traduction par IA
  Il suffit de voir comment ChatGPT-4 traite directement une demande de traduction : https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
  On peut aussi voir comment il commente un ensemble de traductions existantes : https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
  Je ne connais pas bien le français, mais mon expérience de traduction avec une « IA » vers l’espagnol, que je connais un peu, et vers d’autres langues a été plus positive qu’avec Google Translate. Il y a quelques mois, j’ai comparé côte à côte des traductions vers l’anglais avec ChatGPT-4 et Google Translate : il n’y avait pas photo
  On ne sait pas très bien d’où Microsoft sort ces mauvaises traductions, mais si elles avaient été faites avec ChatGPT-4, elles auraient probablement été moins atroces
- La traduction finnoise est aussi une horrible traduction mot à mot. Ça ne marche pas du tout quand on traduit vers une langue qui utilise très peu de prépositions
  Des mots comme « for » ou « to » sont remplacés par des mots correspondant à des contextes complètement différents. Ça me rappelle la traduction automatique des années 2000
  Malheureusement, les nouvelles fonctionnalités de Windows, comme la synchronisation OneDrive forcée, utilisent aussi des traductions tout aussi mauvaises. De nos jours, le finnois des e-mails de phishing est meilleur que celui de Windows
- Je me souviens que la page de présentation du chatbot IA utilisée par Bing avait aussi une traduction épouvantable. C’était bizarre même au niveau des caractères, avec en plus des majuscules aléatoires. Honnêtement, je ne comprends toujours pas comment une telle chose a été possible
- La qualité de traduction est clairement très mauvaise. Je viens d’essayer avec Microsoft Translator, et la qualité de traduction était correcte. Très étrange
Tux, lui, a été généré correctement : https://www.bing.com/images/create/tux-the-penguin-lounging-...
Ça indique « 2 heures d’attente », « la création de nouvelles images peut prendre du temps » et « comme vous n’avez plus de boosts, la génération d’images peut prendre plus longtemps que d’habitude »
Combien d’argent Microsoft est-il donc en train de brûler pour proposer toutes ces fonctionnalités ?
La dernière fois que j’ai vérifié, même en distribuant tout ça généreusement, ça n’avait pas eu beaucoup d’effet sur Bing, non ?
Je me demande si c’est du « on le fait parce qu’on peut », ou si c’est réellement rentable
[0] : https://searchengineland.com/new-bing-google-market-share-si...
- Les très grandes entreprises fonctionnent toujours avec des plans stratégiques de long terme. Quand quelque chose paraît trop généreux, en général, ça l’est vraiment
  Est-ce rentable ? Probablement pas. Mais c’est justement le principe : proposer un service sous le prix du marché, attendre que les concurrents disparaissent, puis gagner de l’argent
  Les exemples ne manquent pas, mais Google Workspace me vient à l’esprit. On rend l’entrée facile et bon marché, on habitue les gens et les entreprises au produit, puis on fait bouillir la grenouille lentement
- Cette offre d’emploi en dit long
  https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
  Vu sur Slashdot : https://m.slashdot.org/story/419681
- Le fait de voir les gens itérer sur plusieurs prompts pour obtenir le résultat qu’ils veulent, puis choisir l’une des variantes, doit aussi avoir de la valeur comme données d’entraînement
- Il se peut aussi qu’ils appliquent aux consommateurs un outil de vente destiné à faire adopter Bing en entreprise. Ils ont besoin de trafic et de chiffres d’usage ; une fois qu’ils les ont, ils peuvent y adosser une activité publicitaire et monétiser
- Pour la plupart des gens, Bing sert à chercher Google
  De la même façon qu’Edge sert à installer Chrome
  Peu importe le marketing ou les fonctionnalités qu’on leur colle, on ne peut pas refaire marcher ces cadavres

DALL-E 3 désormais disponible publiquement dans Bing

Transition de Bing Image Creator et DALL-E 3

Modèles de génération d’images et mode d’édition

Compte, vitesse et limites d’utilisation

Bing Video Creator

Images importées et traitement des données personnelles

Limites d’import et données biométriques

Rédaction des prompts et langues prises en charge

Rewards et IA responsable

À lire aussi

1 commentaires

Avis sur Hacker News