5 points par GN⁺ 2023-10-25 | 1 commentaires | Partager sur WhatsApp
  • Un article qui présente le concept de la technique des « embeddings », qui convertit du contenu en tableaux de nombres à virgule flottante pouvant être utilisés dans diverses applications.
  • L’auteur, Simon Willison, a donné une conférence sur les embeddings à PyBay 2023, et cet article en est une version améliorée.
  • Les embeddings sont utilisés dans le domaine des grands modèles de langage qui sous-tendent des technologies comme ChatGPT, Bard et Claude.
  • L’auteur explique comment utiliser le modèle text-embedding-ada-002 d’OpenAI pour créer une fonctionnalité de « contenu associé » sur son blog.
  • L’article explique également comment utiliser des embeddings pour le code avec un outil appelé Symbex, qui calcule des embeddings pour toutes les fonctions d’une base de code et permet de construire un moteur de recherche de code.
  • L’auteur présente aussi un outil appelé LLM (Large Language Models), qui peut être utilisé pour exploiter les embeddings et construire des moteurs de recherche sémantique.
  • L’article explique également comment utiliser des embeddings pour les images avec un modèle appelé CLIP, capable d’intégrer texte et images dans le même espace vectoriel.
  • L’auteur explique comment effectuer de la classification à l’aide des embeddings, en calculant la position moyenne d’un groupe d’embeddings puis en comparant un nouveau contenu à cette position pour lui attribuer une catégorie.
  • L’article se conclut par une discussion sur le Retrieval-Augmented Generation (RAG), une technique qui utilise les embeddings pour répondre à des questions à partir de documents personnels ou de documents internes d’entreprise.
  • L’article comprend une session de questions-réponses dans laquelle l’auteur répond à des questions sur LangChain, les fonctions de distance autres que la similarité cosinus, le traitement de grands volumes de données et les futures améliorations des modèles d’embeddings.

1 commentaires

 
GN⁺ 2023-10-25
Avis Hacker News
  • Après la publication de l’article, l’auteur a trouvé des ressources supplémentaires pour mieux comprendre les embeddings.
  • Les embeddings sont devenus la méthode standard de reconnaissance de lieux en vision par ordinateur et dans les algorithmes de SLAM visuel.
  • Un exemple célèbre de word embeddings est King - Man + Women = Queen, mais cela ne produit pas une impression visuelle convaincante lorsqu’on le projette en deux dimensions.
  • L’autoencoding fonctionne bien malgré sa simplicité, et il existe un intérêt pour de bons modèles d’embedding de documents pouvant s’exécuter sur du matériel personnel.
  • Les embeddings ont pu être ajoutés de façon étonnamment simple à la fonctionnalité de recherche experte existante d’une application de prise de notes, et le résultat était plus puissant que prévu.
  • Un modèle mental des embeddings dans le langage consiste à imaginer de très nombreux points à plusieurs positions dans un espace extrêmement haute dimension.
  • Les modèles d’embedding commerciaux ont des limites lorsqu’on construit pour un domaine spécifique, et il y a une attente pour de meilleurs outils et une meilleure littérature sur le fine-tuning des modèles d’embedding.
  • L’article a été jugé utile et intéressant même pour des personnes ayant très peu de connaissances en machine learning.
  • Certains s’interrogent sur la raison pour laquelle l’auteur calcule le dot product avec une méthode particulière au lieu d’utiliser des opérations numpy vectorisées.
  • Il existe une confusion autour du code de clustering utilisé dans l’article, notamment sur la manière de convertir chaque ligne de la base de données en tableau numpy et d’utiliser un modèle MiniBatchKMeans pour générer des labels.