Comparaison de la génération de texte alternatif d’images avec des LLM locaux

(dri.es)

3 points par GN⁺ 2025-03-13 | 1 commentaires | Partager sur WhatsApp

Sur les 10 000 photos stockées sur le blog, environ 9 000 n’avaient pas de alt-text
Pour y remédier, 12 LLM (grands modèles de langage) ont été testés, dont 10 exécutés en local et 2 modèles cloud (GPT-4, Claude 3.5 Sonnet)
La rédaction de alt-text est un travail important pour améliorer l’accessibilité des personnes malvoyantes, mais sa rédaction manuelle représente une charge importante
L’objectif était de tester la précision des modèles d’IA pour générer du alt-text et de vérifier si les modèles locaux pouvaient constituer une alternative pratique

Modèles d’IA testés

Modèles locaux (10)
- 9 modèles ont été exécutés sur un MacBook Pro (32GB RAM)
- 1 modèle a été exécuté sur la machine haut de gamme d’un ami
Modèles cloud (2)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)

Principales comparaisons de performances

Modèles cloud (GPT-4o, Claude 3.5 Sonnet)
- Génèrent les alt-textes les plus précis
- Excellent niveau de détail et bonne capture de l’ambiance de l’image
- Note d’évaluation : A
Modèles locaux ayant montré de bonnes performances
- Llama 3.2 Vision 11B
  - Bonne reconnaissance des objets et bonne compréhension du contexte
  - Note d’évaluation : B
- Llama 3.2 Vision 90B
  - Légèrement plus précis que le modèle 11B, mais nécessite davantage de RAM pour l’exécution
  - Note d’évaluation : B
- MiniCPM-V
  - Montre de solides performances malgré un modèle relativement léger
  - Note d’évaluation : B
Modèles aux performances plus faibles
- Les premiers modèles comme VIT-GPT2, GIT et BLIP ont tendance à reconnaître les objets de manière imprécise et à produire des formulations répétitives
- Note d’évaluation : D~F

Méthode d’analyse d’image des modèles d’IA

Encodage visuel (Vision Encoding)
- L’image est divisée en petits patchs, puis convertie en données numériques (embeddings)
- Les zones importantes (par ex. les objets principaux) sont filtrées, tandis que les éléments moins importants (par ex. un arrière-plan simple) sont éliminés
Encodage du langage (Language Encoding)
- Génération de texte en langage naturel à partir des informations fournies par l’encodeur visuel
- Le texte est produit sous forme de description d’image ou de réponse à une question

Images de test et résultats

Carrefour de Shibuya (Tokyo)
- GPT-4o, Claude : « carrefour de Shibuya rempli d’enseignes au néon et de foule » → note A
- LLaVA 13B : « des personnes traversent au carrefour de Shibuya » → note A
- Llama 3.2 Vision 11B : « vue nocturne animée de Tokyo, panneaux publicitaires et foule » → note C
- VIT-GPT2 : « paysage nocturne urbain avec de hauts immeubles et des feux de signalisation » → note F (imprécis)
Isabella Stewart Gardner Museum (Boston)
- Claude : « pièce de style victorien, lustre, cadres dorés » → note B
- Llama 3.2 Vision 11B : « cadres dorés et arrière-plan décoratif » → note A
- BLIP-2 OPT : « une pièce avec un tableau et des cadres accrochés au mur » → note C
- VIT-GPT2 : « un salon avec des bougies et un vase devant un miroir » → note F (imprécis)
Wakeboard (Vermont, États-Unis)
- GPT-4o : « deux personnes sur un bateau regardent un wakeboardeur » → note A
- Llama 3.2 Vision 90B : « deux personnes regardent du wakeboard depuis un bateau » → note A
- BLIP-2 FLAN : « quelqu’un regarde du surf depuis un bateau » → note C
- VIT-GPT2 : « deux personnes debout sur un bateau tiennent une planche de surf » → note E (imprécis)

Résultats de l’évaluation

Modèles cloud (GPT-4o, Claude 3.5 Sonnet) : note A
- Fournissent les descriptions les plus précises, en captant aussi l’ambiance
Meilleurs modèles locaux (Llama 11B, Llama 90B, MiniCPM-V) : note B
- Un peu moins précis que les modèles cloud, mais utilisables en pratique
Premiers modèles (VIT-GPT2, GIT, BLIP, etc.) : notes D~F
- Formulations répétitives et hallucinations

Points à considérer pour la suite

Si le `alt`-texte n’est pas parfait, vaut-il quand même mieux que rien ?

Même un alt-texte de niveau B peut être préférable à l’absence totale de texte
Cependant, des informations inexactes (par ex. l’ajout d’un objet inexistant) peuvent troubler les utilisateurs malvoyants

Options pour la prochaine étape

Combiner les sorties de plusieurs IA
- Associer plusieurs modèles pour générer la description la plus précise
Attendre une mise à niveau
- Utiliser le meilleur modèle local actuel, puis passer à un nouveau modèle dans 6 à 12 mois
Utiliser des modèles cloud
- Recourir à des modèles cloud pour la précision, avec toutefois des enjeux de coût et de confidentialité des données
Approche hybride
- Faire relire et compléter par un humain le alt-texte généré par l’IA (difficilement réaliste à l’échelle de 9 000 images)

Le choix le plus raisonnable à ce stade semble être d’utiliser un modèle local, puis de passer plus tard à un modèle plus avancé

1 commentaires

quilt8703 2025-03-14

J’ajoute de l’alt-text aux images que je publie sur Twitter et ailleurs, et je me suis déjà dit qu’en confier la rédaction à une IA pourrait me faciliter un peu la mise en ligne de mes posts. Je ne sais pas vraiment s’il faut un LLM pour ça ; j’avais l’impression qu’une technologie comme CLIP pouvait largement suffire.

L’une des raisons pour lesquelles je ne m’étais pas lancé dans ce travail, c’est que c’est une fonctionnalité qui pourrait très bien être intégrée du côté des lecteurs d’écran, et je pensais qu’il valait mieux que j’apporte au moins un peu du contexte qu’un humain peut fournir. Bien sûr, la principale raison, c’est surtout que j’avais la flemme.