Stratégies de collecte de données pour les startups IA en 2024

(press.airstreet.com)

31 points par xguru 2024-04-29 | 1 commentaires | Partager sur WhatsApp

[ #1 Modèles génératifs à grande échelle (Large Generative Models) ]

Génération de données synthétiques avec les LLM et les LMM

Les Large Language Models (LLM) génèrent des sorties textuelles, tandis que les Large Multi-Modal Models (LMM) peuvent produire des données synthétiques sous diverses formes, comme du texte, du code ou des images
Ils sont particulièrement largement utilisés dans les domaines où les données réelles sont insuffisantes, sensibles sur le plan de la protection de la vie privée, ou coûteuses à collecter et à annoter (ex. : NLP, vision par ordinateur, développement de systèmes de conduite autonome, etc.)
Les données synthétiques servent en général à compléter les données réelles ou au fine-tuning, et ne sont pas utilisées pour les remplacer entièrement
Même très sophistiquées, elles ne peuvent produire qu’une approximation du domaine du problème, et une dépendance excessive risque de conduire le modèle à surapprendre les caractéristiques présentes dans le processus de génération des données synthétiques
Méthodes de génération de données synthétiques
1. Auto-amélioration (Self-improvement) : le modèle génère des consignes, un contexte d’entrée et des réponses ; les exemples invalides ou trop proches des données existantes sont filtrés, puis les données restantes servent à affiner le modèle d’origine
2. Distillation (Distillation) : processus consistant à transférer les connaissances d’un modèle enseignant plus puissant vers un modèle élève moins puissant mais plus efficace. Même lorsque les données synthétiques sont souvent imparfaites, elles peuvent contribuer efficacement au processus d’instruction-tuning
Microsoft a lancé une série de petits modèles appelée Phi, entraînée principalement sur des données synthétiques générées par d’autres LLM, avec des performances supérieures à la plupart des modèles de pointe
Hugging Face a créé Cosmopedia pour tenter de reproduire cela, en réponse au manque d’informations sur la curation du jeu de données d’entraînement synthétique utilisé par Microsoft

Annotation de données et intégration de datasets avec les LLM

Les LLM récents peuvent annoter des datasets textuels à un niveau équivalent, voire supérieur, à celui d’annotateurs humains
Contrairement aux annotateurs humains, les LLM peuvent appliquer de façon cohérente les mêmes critères d’annotation à des datasets à grande échelle, sans fatigue ni biais
Les grands modèles génératifs entraînés sur des datasets massifs, comme Segment Anything, affichent souvent de meilleures performances en zero-shot que les modèles spécialisés non génératifs de vision par ordinateur traditionnellement utilisés pour des tâches comme la segmentation sémantique (semantic segmentation)
Les LLM peuvent aussi être utilisés pour élargir le pool de données réelles disponibles via le dataset stitching, qui consiste à intégrer différentes sources de données pour créer un dataset unifié

Les LLM en tant qu’évaluateurs

Le reinforcement learning from human feedback (RLHF) a été la technique clé de fine-tuning qui a transformé GPT-3 en un système révolutionnaire optimisé pour des interactions conversationnelles avec les utilisateurs
Une approche appelée reinforcement learning from AI feedback (RLAIF), qui utilise désormais des LLM à la place des humains pour fournir le feedback, a émergé
Le principal avantage du RLAIF réside dans sa scalabilité et la réduction des coûts, grâce au remplacement des humains par des machines

[ #2 Plateformes d’annotation de données ]

Au début, des plateformes de crowdsourcing et d’externalisation de tâches comme Amazon Mechanical Turk étaient utilisées pour effectuer à bas coût des travaux d’annotation ou de nettoyage de données via une main-d’œuvre en ligne
Plus récemment, des plateformes comme V7 ou Scale AI, qui offrent des fonctions automatisées d’annotation et de gestion des données, se sont développées et ont gagné en popularité
Avec des mesures de conformité et d’assurance qualité, ces plateformes permettent aux entreprises ayant de gros besoins en données de monter en charge plus efficacement et d’obtenir un niveau de cohérence plus élevé

Caractéristiques selon les plateformes et nouveaux acteurs

V7 tend à se concentrer sur des tâches nécessitant un haut niveau d’expertise, comme l’imagerie médicale, tandis que Scale s’est développée dans la conduite autonome avant de s’étendre à la défense
De nouveaux acteurs comme Invisible répondent à la demande en profils spécialisés pour des workflows centrés sur les LLM (ex. : fine-tuning supervisé, RLHF, évaluation humaine, red teaming, etc.)
Parmi les services d’annotation de données populaires figurent CVAT, Dataloop, Invisible, Labelbox, Scale AI et V7

Comment améliorer la qualité des données annotées par des humains

De nombreuses plateformes dépendent encore dans une certaine mesure d’annotateurs humains ; à mesure que les applications de l’IA s’étendent à des domaines complexes, subjectifs et socialement sensibles, davantage d’efforts sont nécessaires pour évaluer la qualité des sorties
Des approches comme le vote majoritaire, le taux d’accord ou la modélisation probabiliste permettent d’estimer le véritable label à partir des contributions de plusieurs évaluateurs et d’identifier les évaluateurs peu fiables ou « spammeurs »
Il existe des techniques permettant de capter les désaccords systématiques entre évaluateurs et de les exploiter pour améliorer l’apprentissage (ex. : deconvolution des désaccords, modélisation multi-annotateurs, etc.)
Des points de données mal annotés peuvent être détectés au moyen de fonctions d’influence, du suivi des changements de prédiction pendant l’apprentissage, etc.

[ #3 Datasets ouverts ]

Depuis 2016, les datasets ouverts se sont multipliés sous l’effet du mouvement open data et de la reconnaissance, par l’industrie, le monde académique et les gouvernements, de la valeur du partage des données
Les datasets ouverts existent dans la plupart des domaines, mais ils sont particulièrement accessibles en vision par ordinateur, NLP, traitement de la parole/de l’audio, contrôle robotique et navigation
Cette évolution a été portée par la combinaison des efforts de la communauté (ex. : Hugging Face, PyTorch, TensorFlow, Kaggle, etc.) et de la publication de grands datasets par de grandes entreprises

Points à considérer lors de l’utilisation de datasets ouverts

Ils présentent l’avantage d’être gratuits et utiles pour le benchmarking, mais impliquent certaines précautions
Dans les domaines sensibles ou fortement réglementés, les datasets ouverts ont tendance à être plus rares, plus anciens et de plus petite taille
La qualité et l’actualité des données ouvertes peuvent varier fortement, ce qui peut poser des problèmes de pertinence dans les secteurs évoluant rapidement
Une utilisation excessive peut entraîner un risque de surapprentissage sur des datasets populaires : le modèle performe bien sur les benchmarks mais moins bien dans des applications réelles

Ressources utiles de datasets ouverts

De grandes entreprises comme Amazon, Google et Microsoft disposent de divers hubs et moteurs de recherche de données ouvertes
Hugging Face a créé un hub de datasets prêt à l’emploi, accompagné d’outils associés
La fonction de recherche de datasets de Kaggle
VisualData : un hub pour les datasets de vision par ordinateur
V7 a publié une liste de plus de 500 datasets ouverts

[ #4 Environnements de simulation ]

Les environnements de simulation permettent à des modèles ou agents IA d’apprendre dans un cadre contrôlé, de générer des données synthétiques et de tester des systèmes avant leur déploiement réel
Ils sont particulièrement utiles pour compléter les données réelles et explorer des cas limites difficiles à rencontrer ou coûteux à reproduire dans le monde réel
Ils sont particulièrement populaires dans des domaines comme la robotique ou les véhicules autonomes, où il faut entraîner les systèmes en toute sécurité tout en tenant compte des très nombreuses variables du monde réel

Points à considérer lors de la création d’un environnement de simulation

Concevoir et valider à partir de zéro une simulation 3D riche et précise sur le plan physique peut exiger des ressources et une infrastructure considérables
NVIDIA a développé ISAAC, une puissante plateforme de robotique accélérée par GPU, comprenant des environnements de simulation basés sur Omniverse, sa plateforme intégrée de workflows 3D graphiques et physiques
Pour réduire les coûts, il est possible de tirer parti d’environnements de simulation open source
Grâce à ses graphismes haute fidélité, sa simulation physique réaliste et ses interfaces de programmation flexibles, Unreal Engine d’Epic Games s’est imposé comme un outil puissant pour construire des environnements de simulation

Cas d’usage et environnements open source

Applied Intuition : fournit des solutions de simulation et de validation pour les développeurs de systèmes de conduite autonome
Sereact : développe des logiciels fondés sur des environnements de simulation afin de comprendre les nuances spatiales et physiques pour l’automatisation du pick-and-pack en entrepôt
Wayve : startup britannique de conduite autonome ayant créé plusieurs environnements de simulation 4D
Domaine de la conduite autonome : CARLA, LG SVL Simulator, AirSim, etc.
Domaine de la robotique : Gazebo, CoppeliaSim, PyBullet, MuJoCo, etc.

[ #5 Scraping du web, des livres et d’autres ressources ]

Le scraping à grande échelle de texte, d’audio et de vidéo a été un élément central du développement des foundation models
Tandis que les grandes entreprises utilisent leurs propres systèmes propriétaires, les startups peuvent s’appuyer sur divers outils open source ou prêts à l’emploi
Les frameworks de crawling distribué comme Apache Nutch, les navigateurs headless comme Puppeteer ou Selenium, les bibliothèques de parsing comme Beautiful Soup, les services de proxy et de gestion d’IP comme Luminati, ainsi que des technologies OCR peu coûteuses et efficaces, ont progressé

Arbitrage entre qualité et volume des données

Le compromis entre qualité et quantité des données varie selon le domaine et l’application
Les modèles de langage peuvent apprendre efficacement même à partir de données relativement bruitées et peu curées, à condition d’en disposer en quantité suffisante
À l’inverse, en vision par ordinateur, de bons résultats peuvent être obtenus en élargissant un petit dataset de haute qualité grâce à des transformations d’images (ex. : recadrage, rotation, ajout de bruit, etc.)

Curriculum learning et curation des datasets

Le curriculum learning est une stratégie d’apprentissage qui présente les données au modèle dans un ordre pertinent, en allant d’exemples simples vers des exemples complexes
En imitant la manière dont les humains apprennent, cette méthode améliore l’efficacité en permettant au modèle d’acquérir de bons paramètres initiaux avant d’affronter des exemples difficiles

Exemples

Le récent LLM ouvert SOTA de Databricks, DBRX, a utilisé cette approche pour améliorer sensiblement la qualité du modèle
Sync Labs a entraîné un modèle capable de resynchroniser les lèvres d’une vidéo avec un nouvel audio en utilisant un grand volume de vidéos de qualité relativement faible
Metalware a combiné un ensemble relativement restreint d’images scannées depuis des manuels spécialisés avec GPT-2 pour créer un copilote destiné aux ingénieurs firmware

[ #6 Questions de droit d’auteur et possibilités de licence ]

Depuis 2016, la maturité croissante de l’écosystème IA a eu des effets positifs pour les fondateurs, mais a aussi apporté une complexité supplémentaire
Le scraping massif du web par les fournisseurs de foundation models a conduit des groupes de médias, des auteurs et des artistes à engager diverses poursuites liées au droit d’auteur
Ces procédures sont actuellement en cours devant les systèmes judiciaires européens et américains, et visent de grandes entreprises (ex. : Meta, OpenAI) ou des laboratoires de plus en plus établis (ex. : Midjourney, Stability)
Cela souligne la nécessité, pour les startups, d’être prudentes dans leur manière de collecter des données
Si ces entreprises perdaient leurs procès, elles pourraient devoir identifier les contenus protégés par le droit d’auteur dans leurs données d’entraînement et indemniser les créateurs, ou détruire ces résultats et repartir de zéro
En conséquence, certaines entreprises adoptent déjà de manière proactive des stratégies de collecte de données plus favorables aux créateurs, par exemple via des partenariats avec des organisations médiatiques ou une rémunération directe des artistes pour l’usage de contenus ou de voix

Émergence de systèmes de certification pour un approvisionnement éthique en données

Des systèmes de certification pour des données d’entraînement obtenues de manière éthique émergent, portés notamment par d’anciens dirigeants de Stability
Ces systèmes en sont encore à un stade précoce, mais constituent une piste intéressante qui mérite d’être suivie

Exemples

ElevenLabs : rémunération des comédiens voix et partenariats sur les données vocales
Google : signature d’un accord permettant d’utiliser les données de Reddit pour l’entraînement de Gemini
OpenAI : partenariat pour entraîner DALL-E avec la bibliothèque d’images, de vidéos, de musique et de métadonnées de Shutterstock, ainsi qu’un accord de licence sur les archives d’actualité d’Associate Press

[ #7 Réduction du besoin de grands datasets annotés ]

Depuis 2016, les techniques d’apprentissage non supervisé et semi-supervisé ont considérablement progressé, permettant aux startups de construire des modèles puissants sans disposer des grands datasets annotés traditionnellement considérés comme indispensables
Ces approches étaient déjà connues des chercheurs avant 2016, mais leur accessibilité, leur sophistication et leur praticité se sont fortement améliorées ces dernières années
L’apprentissage non supervisé se concentre sur l’apprentissage des structures et motifs statistiques inhérents aux données ; il a longtemps été utile pour explorer de grands datasets (ex. : clustering non supervisé) et constitue aujourd’hui un élément central du pré-entraînement des LLM
L’apprentissage semi-supervisé utilise une petite quantité de données annotées en complément d’un grand volume de données non annotées, et s’avère particulièrement efficace pour améliorer les performances du modèle
Ces approches peuvent être renforcées par des techniques comme l’apprentissage contrastif et le few-shot learning
- L’apprentissage contrastif (Contrastive Learning) permet au modèle d’apprendre des représentations riches en distinguant des points de données similaires de points dissemblables, et s’avère utile pour les tâches de vision par ordinateur (ex. : CLIP d’OpenAI)
- Le few-shot learning permet au modèle de s’adapter à de nouvelles tâches avec un très petit nombre d’exemples
L’article originel sur les lois d’échelle montrait que les modèles plus grands sont meilleurs en few-shot learning
Même si le pré-entraînement non supervisé exige davantage de données non annotées, cette étape permet ensuite de résoudre des tâches downstream avec moins d’exemples annotés que les petits modèles non génératifs

Limites et points à considérer

Les modèles exploitant des données non annotées nécessitent souvent des architectures plus complexes
Cela revient à échanger les coûts d’annotation contre des coûts de calcul
Ils sont non seulement plus difficiles à mettre en œuvre et à faire monter en charge, mais aussi moins interprétables, ce qui peut être un inconvénient dans des domaines sensibles où il est important de comprendre le processus de décision
Cette complexité requiert davantage de ressources de calcul et se traduit souvent par un plafond de performance inférieur à celui des méthodes supervisées

[ #8 Ce qui reste encore prématuré ]

Marketplaces de données

Depuis 2016, alors qu’il est devenu plus simple et moins coûteux de collecter, stocker, traiter et partager des données, plusieurs marketplaces de données sont apparues, sans pour autant réellement décoller
Des marketplaces et plateformes comme Datarade, Dawex, AWS Data Exchange ou Snowflake ont facilité la recherche de données image, texte, audio et vidéo pour de nombreux cas d’usage génériques, mais cela visait surtout à apporter une valeur additionnelle au choix des clients d’y héberger leurs données
Au-delà de ces marketplaces, des entreprises comme Appen, Scale AI, Invisible ou Surge proposent la création et l’annotation de datasets sur mesure via une main-d’œuvre externalisée qualifiée
Toutefois, les réserves liées à la spécialisation et à l’avantage concurrentiel des données propriétaires restent valables, et il existe peu de preuves que les startups IA s’appuient fortement sur ces marketplaces
Cela peut être pratique au départ, mais demande encore beaucoup d’efforts de curation, de personnalisation, de filtrage et de sous-échantillonnage
De nombreuses startups préfèrent construire leurs propres datasets propriétaires dès le départ et s’en servir comme avantage concurrentiel

Gamification

La gamification a été explorée comme stratégie de collecte de données par diverses entreprises et organisations dans le contexte du crowdsourcing et des initiatives de science citoyenne (ex. : Folding@Home)
Mais à quelques exceptions près, elle reste un marché relativement de niche
Elle ne séduit qu’un sous-ensemble spécifique d’utilisateurs, motivés par la compétition façon jeu et disposant de temps libre, ce qui limite relativement le nombre potentiel de contributeurs
Même parmi les personnes motivées, la qualité et la précision des données fournies restent problématiques, en particulier pour le traitement des cas limites, ce qui exige des mesures supplémentaires de validation et de contrôle

Apprentissage fédéré

L’apprentissage fédéré (Federated learning, FL), introduit par Google en 2016, promettait de permettre l’entraînement de modèles sur plusieurs serveurs distribués ou appareils mobiles tout en laissant les données localement
En théorie, cela pourrait permettre à des startups opérant dans des secteurs sensibles comme la santé ou la finance d’accéder, via des partenariats, à des données d’entraînement importantes sans rencontrer les problèmes traditionnels de confidentialité
Cependant, l’adoption du FL a été freinée dans les domaines sensibles pour lesquels il avait été conçu, en raison des questions de responsabilité, de propriété des données et de transferts transfrontaliers de données ; à mesure que les modèles et les datasets se sont complexifiés, la surcharge de calcul et de communication liée à l’apprentissage distribué et à l’agrégation est devenue un goulot d’étranglement important, et il subsiste l’idée que les détenteurs de données doivent accepter une technologie assez complexe dont la proposition de valeur n’est pas garantie

[ ## Conclusion ]

Malgré des progrès considérables depuis 2016, la collecte de données reste un point de douleur pour les startups
Ni la communauté ni le marché ne semblent en mesure de résoudre ce problème
La plupart des startups IA continueront de se heurter aux difficultés de la collecte de données lors de leur création, mais cela peut aussi constituer une opportunité de différenciation
Poser créativement les bonnes bases reste une source très concrète d’avantage concurrentiel
Les données en elles-mêmes ne pourront jamais constituer un moat
Avec le temps, les concurrents réussiront à obtenir leurs propres données ou à trouver des techniques plus efficaces pour parvenir aux mêmes résultats
On le voit clairement dans les évaluations de LLM de l’an dernier, où l’écart de performances entre petits et grands modèles s’est progressivement réduit
Une excellente collecte de données est en fin de compte nécessaire, mais pas suffisante
C’est l’un des éléments du succès, aux côtés d’un produit killer et d’une véritable compréhension client

1 commentaires

thfvkfk 2024-04-29

Merci, c’est une mine d’informations ~

Stratégies de collecte de données pour les startups IA en 2024

[ #1 Modèles génératifs à grande échelle (Large Generative Models) ]

Génération de données synthétiques avec les LLM et les LMM

Annotation de données et intégration de datasets avec les LLM

Les LLM en tant qu’évaluateurs

[ #2 Plateformes d’annotation de données ]

Caractéristiques selon les plateformes et nouveaux acteurs

Comment améliorer la qualité des données annotées par des humains

[ #3 Datasets ouverts ]

Points à considérer lors de l’utilisation de datasets ouverts

Ressources utiles de datasets ouverts

[ #4 Environnements de simulation ]

Points à considérer lors de la création d’un environnement de simulation

Cas d’usage et environnements open source

[ #5 Scraping du web, des livres et d’autres ressources ]

Arbitrage entre qualité et volume des données

Curriculum learning et curation des datasets

Exemples

[ #6 Questions de droit d’auteur et possibilités de licence ]

Émergence de systèmes de certification pour un approvisionnement éthique en données

Exemples

[ #7 Réduction du besoin de grands datasets annotés ]

Limites et points à considérer

[ #8 Ce qui reste encore prématuré ]

Marketplaces de données

Gamification

Apprentissage fédéré

[ ## Conclusion ]

À lire aussi

1 commentaires