1 points par GN⁺ 2024-11-15 | 2 commentaires | Partager sur WhatsApp
  • Les grandes entreprises de l’IA comme OpenAI, Google et Anthropic obtiennent de moins en moins de résultats dans le développement de nouveaux modèles
  • OpenAI a entraîné son dernier modèle d’IA, Orion, mais celui-ci n’a pas atteint les performances attendues
    • Il a notamment rencontré des problèmes pour répondre correctement aux questions de programmation
  • Gemini de Google a lui aussi affiché des résultats inférieurs aux attentes en interne, tandis qu’Anthropic voit le calendrier de sortie du nouveau Claude 3.5 Opus retardé

Limites des données et problème des coûts

  • Il devient de plus en plus difficile d’obtenir des données de haute qualité rédigées par des humains
  • Les performances des modèles d’IA stagnent, et des améliorations limitées ne suffisent plus à justifier des coûts énormes
  • Chez OpenAI, l’une des principales causes pointées du doigt pour Orion est l’insuffisance des données de code disponibles
  • Le développement de nouveaux modèles d’IA coûte des millions de dollars, et devrait à l’avenir atteindre des milliards de dollars

Stratégies d’amélioration des performances de l’IA

  • OpenAI se concentre sur le post-training d’Orion avant sa sortie. Cela inclut l’amélioration des réponses du modèle via les retours des utilisateurs, ainsi que l’ajustement du ton des interactions
  • Pour résoudre le manque de données, les entreprises obtiennent des données via des accords avec des éditeurs ou ont recours à des experts pour les labelliser
  • L’usage de données synthétiques (synthetic data) augmente lui aussi, mais il reste encore difficile d’obtenir des données originales et de haute qualité

Les lois de mise à l’échelle de l’IA remises en question

  • L’industrie de l’IA s’est appuyée sur les scaling laws, selon lesquelles des modèles plus grands et davantage de données apportent de meilleures performances, mais les résultats récents commencent à remettre cette idée en cause
  • Dario Amodei, CEO d’Anthropic, estime avec optimisme que le manque de données peut poser problème, mais qu’il sera possible de trouver des moyens de le surmonter

Le problème de l’équilibre entre coûts et performances

  • Alors que les coûts de développement de l’IA explosent, le niveau élevé des dépenses devient problématique si les nouveaux modèles n’améliorent pas les performances autant qu’espéré
  • OpenAI et Anthropic déplacent leur attention vers de nouveaux cas d’usage, comme les agents IA (agent), plutôt que vers des modèles toujours plus grands
    • Ces agents peuvent effectuer des tâches comme envoyer des e-mails ou réserver des vols à la place de l’utilisateur
  • Sam Altman, CEO d’OpenAI, a indiqué que des décisions difficiles seraient nécessaires concernant l’usage des ressources de calcul
    • Il a expliqué lors d’un AMA sur Reddit : "Nous continuerons à lancer d’excellents nouveaux modèles, mais la prochaine grande innovation sera celle des agents"

Conclusion

  • Les grandes entreprises de l’IA utilisent de plus en plus de puissance de calcul et de données, mais les progrès stagnent
  • Elles cherchent de nouvelles approches et de nouveaux cas d’usage pour surmonter les limites techniques et la pénurie de données
  • L’orientation future du développement de l’IA devrait davantage mettre l’accent sur les cas d’usage réels que sur la taille des modèles

2 commentaires

 
kandk 2024-11-18

Au final, cela veut dire que ça coûte tout simplement beaucoup trop cher.
Personnellement, je pense que le potentiel est proportionnel au nombre de neurones dans le cerveau.

 
GN⁺ 2024-11-15
Avis sur Hacker News
  • Une question est posée : a-t-on le sentiment que toutes les options permettant de créer de la valeur à partir des LLM (grands modèles de langage) ont déjà été épuisées ? Une personne qui dirige une équipe estime qu’il reste encore beaucoup de chemin à parcourir

    • Elle utilise principalement les modèles GPT-4o et Claude 3.5, et la combinaison d’investissements techniques et des LLM fait continuellement émerger de nouvelles possibilités d’applications
    • Par exemple, on peut combiner un graphe de connaissances piloté par des humains avec un LLM pour créer un « bot expert » capable de comprendre le contexte métier et d’agir comme un collègue au sein de l’équipe
    • En ajoutant des capacités de prédiction et de simulation, un LLM peut générer des modifications de code raisonnables, puis les relire et les itérer automatiquement
    • Il est avancé qu’il est plus important d’exploiter l’intelligence actuelle que de chercher avant tout à améliorer les modèles
  • Dans le domaine de l’ingénierie, les trois dernières années ont surtout été consacrées à l’extension du préentraînement et du post-entraînement des modèles Transformer

    • Un nouveau paradigme attire l’attention : l’entraînement multimodal et les agents incarnés, y compris les robots
    • OpenAI, Google et Anthropic investissent eux aussi dans la recherche en robotique
  • La capacité de génération de code de ChatGPT permet de retrouver sur le web des éléments similaires à du code existant

    • Les LLM offrent des fonctions de recherche et de copier-coller, ce qui suffit pour résoudre des problèmes courants
    • Toutefois, les LLM seuls ne mèneront pas à une intelligence artificielle générale
    • Il faudrait des indicateurs de confiance pour les LLM, ce qui serait bien plus utile que les LLM actuels
  • Le fait que les progrès de l’IA atteignent une limite liée aux données est plutôt une bonne chose, car la pression se déplace vers le développement de meilleures architectures de modèles

    • Les chercheurs en IA sont à la recherche de meilleurs modèles
  • Les titres négatifs affirmant que l’IA a atteint un mur rappellent l’époque des débuts d’Internet

    • Dans dix ans, l’IA sera probablement profondément intégrée à tous les aspects de la vie
  • Les technologies existantes ont déjà provoqué de grands changements dans l’industrie, et la transition vers des modèles hybrides IA-humain demandera du temps

  • Même si les derniers modèles d’OpenAI n’ont pas été à la hauteur des attentes, ils peuvent continuer à croître de manière linéaire selon la taille des données d’entraînement

  • Une question est soulevée : peut-on acheter un logiciel d’IA et lui ajouter des fonctions permettant d’aider les utilisateurs à lire eux-mêmes la documentation et à écrire une nouvelle version d’une application ?