22 points par GN⁺ 2025-03-20 | 1 commentaires | Partager sur WhatsApp
  • Les systèmes de recommandation et la recherche ont historiquement évolué en s’inspirant des modèles de langage
    • Word2vec → apprentissage d’embeddings d’items (recherche fondée sur les embeddings)
    • GRU, Transformer, BERT → prédiction de l’item suivant à recommander (ranking)
  • Aujourd’hui, le paradigme des grands modèles de langage (LLM) évolue lui aussi dans cette même direction
  • Principales avancées
    • 1. Architectures de modèles renforcés par les LLM / multimodales

    • 2. Génération et analyse de données fondées sur les LLM

    • 3. Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

    • 4. Architectures unifiées pour la recherche et la recommandation

Architectures de modèles renforcés par les LLM / multimodales

  • Les modèles de recommandation intègrent des modèles de langage (LLM) et des contenus multimodaux pour dépasser les limites des approches traditionnelles basées sur les ID
  • Combinaison des atouts de la modélisation comportementale et de la compréhension du contenu → résolution des problèmes de cold start et de long tail
  • 1. Semantic IDs (YouTube)

    • Utilisation de Semantic ID dérivés du contenu à la place des ID classiques fondés sur le hachage
    • Introduction d’un framework en deux étapes :
      1. Encodeur vidéo basé sur Transformer → génération d’embeddings de contenu denses
      2. RQ-VAE(Residual Quantization Variational AutoEncoder) → conversion des embeddings en Semantic ID sous forme d’entiers
    • Structure de RQ-VAE :
      • Espace latent de 256 dimensions, 8 niveaux de quantification, 2048 entrées de codebook par niveau
      • Génération d’embeddings de 2048 dimensions à partir d’un backbone VideoBERT fondé sur Transformer
    • Résultats :
      • Les embeddings denses directs sont moins performants que les ID hashés aléatoires
      • Les approches fondées sur les N-gram et SPM(SentencePiece Model) offrent de très bonnes performances, en particulier dans les scénarios de cold start
  • 2. M3CSR (Kuaishou)

    • Embeddings de contenu multimodal (visuel, texte, audio) → clustering avec K-means puis conversion en ID apprenables
    • Architecture dual tower :
      • Tour côté utilisateur : modélisation du comportement utilisateur
      • Tour côté item : précalcul et indexation des embeddings d’items
    • Processus d’apprentissage :
      • Fusion des embeddings ResNet(visuel), Sentence-BERT(texte), VGGish(audio) → clustering K-means (~1000 clusters)
      • Mapping des ID de cluster vers des embeddings apprenables
    • Résultats :
      • Dans les tests A/B, amélioration de +3,4 % des clics, +3,0 % des likes, +3,1 % des follows
      • Dans les scénarios de cold start, amélioration de +1,2 % de la vitesse et de +3,6 % de la couverture
  • 3. FLIP (Huawei)

    • Alignement entre modèle de recommandation fondé sur les ID et LLM
    • Apprentissage simultané sur des données textuelles et tabulaires masquées → alignement multimodal
    • Étapes d’apprentissage :
      • 1. Transformation modale : conversion des données tabulaires en texte
      • 2. Préapprentissage d’alignement modal : reconstruction d’ID et de texte masqués
      • 3. Fine-tuning adaptatif : optimisation des poids des deux modèles pour la prédiction du clic
    • Résultats :
      • Performances supérieures aux modèles basés sur les ID, aux modèles basés sur les LLM, et aux modèles ID + LLM
      • Le niveau de masquage et l’alignement multimodal jouent un rôle important dans l’amélioration des performances
  • 4. beeFormer

    • Entraînement d’un modèle Transformer fondé sur les informations textuelles et les données d’interaction utilisateur-item
    • Utilisation d’un décodeur fondé sur ELSA(Scalable Linear Shallow Autoencoder) → renforcement de l’apprentissage des schémas d’interaction
    • Processus d’entraînement :
      • Génération d’embeddings avec Transformer → apprentissage des schémas de comportement utilisateur via ELSA
      • Utilisation de gradient checkpointing, augmentation de la taille de batch et negative sampling pour optimiser l’entraînement sur de grands catalogues
    • Résultats :
      • Performances supérieures à des modèles existants comme mpnet-base-v2 ou bge-m3
      • Amélioration observée en apprentissage par transfert inter-domaines
  • 5. CALRec (Google)

    • Modélisation des interactions utilisateur-item à l’aide de prompts textuels
    • Fine-tuning en deux étapes d’un modèle basé sur PaLM-2 XXS
    • Étapes d’entraînement :
      • 1. Apprentissage multi-catégories : apprentissage de schémas de recommandation généraux
      • 2. Apprentissage spécifique à une catégorie : apprentissage de schémas spécialisés selon la catégorie d’item
    • Résultats :
      • Performances supérieures aux modèles basés sur les ID et sur le texte sur l’Amazon Review Dataset
      • L’apprentissage multi-catégories et l’apprentissage contrastif contribuent à l’amélioration des performances
  • 6. EmbSum (Meta)

    • Génération de résumés des centres d’intérêt utilisateur et de résumés des items candidats
    • Utilisation des modèles T5-small et Mixtral-8x22B-Instruct
    • Composants :
      • User Poly-Embeddings (UPE) → embeddings des centres d’intérêt utilisateur
      • Content Poly-Embeddings (CPE) → embeddings d’items
      • Génération de résumés → injection dans l’encodeur → génération de la recommandation finale
    • Résultats :
      • Performances supérieures aux modèles de recommandation fondés sur le contenu
      • Le regroupement par session et la perte sur résumé jouent un rôle important dans les performances

Génération et analyse de données fondées sur les LLM

  • Les LLM sont utilisés pour résoudre les problèmes de manque de données dans les systèmes de recommandation et de recherche, et pour améliorer la qualité des données
  • Principaux cas d’usage :
    • Bing → génération de métadonnées de pages web et amélioration de la prédiction du clic
    • Indeed → filtrage des appariements emploi-candidat de mauvaise qualité
    • Yelp → compréhension des requêtes de recherche et amélioration des highlights d’avis
    • Spotify → génération de requêtes de recherche exploratoire
    • Amazon → enrichissement des métadonnées de playlists et amélioration des performances de recherche
  • 1. Recommendation Quality Improvement (Bing)

    • Utilisation de GPT-4 pour générer des titres et résumés de haute qualité à partir de pages web
    • Fine-tuning d’un modèle Mistral-7B à partir de métadonnées générées sur environ 2 millions de pages web
    • Entraînement d’un cross-encoder basé sur MiniLM pour combiner prédiction du clic et score de qualité
    • Résultats :
      • Réduction de 31 % des contenus clickbait et de 76 % des contenus dupliqués
      • Augmentation de 18 % des contenus faisant autorité et de 48 % des recommandations cross-media
  • 2. Expected Bad Match (Indeed)

    • Construction d’un modèle de filtrage des appariements emploi-candidat de mauvaise qualité (eBadMatch) en fine-tunant GPT-3.5 sur des données de revue humaine
    • Maintien d’un niveau de performance proche de GPT-4 avec de meilleurs coûts et temps d’exécution
    • Le modèle de filtrage final réduit de 17,68 % le nombre d’e-mails d’invitation au matching, diminue de 4,97 % le taux de désabonnement et augmente de 4,13 % le taux de candidature
    • Résultats :
      • Performance AUC-ROC du modèle de filtrage : 0.86
  • 3. Query Understanding (Yelp)

    • Utilisation de LLM pour améliorer la segmentation des requêtes de recherche et les highlights d’avis
    • Segmentation des requêtes :
      • Distinction des sujets, noms, horaires, lieux, etc., avec ajout de tags sémantiques
      • Application de techniques RAG(Retrieval-Augmented Generation) pour renforcer la compréhension contextuelle des requêtes
    • Highlights d’avis :
      • Génération de highlights avec un LLM → passage à l’échelle via des appels batch OpenAI
    • Résultats :
      • Amélioration des sessions de recherche et du taux de clic
      • Amélioration aussi sur les requêtes long tail
  • 4. Query Recommendations (Spotify)

    • Introduction chez Spotify de recommandations de requêtes de recherche exploratoire, au-delà des résultats de recherche directs
    • Méthodes de génération des requêtes :
      • Extraction à partir des titres de catalogue, playlists et podcasts
      • Prise en compte des recherches récentes des utilisateurs dans les logs de recherche
      • Application de techniques de génération de phrases par LLM (Doc2query, InPars, etc.)
    • Classement des recommandations de requêtes à l’aide d’embeddings vectoriels personnalisés
    • Résultats :
      • Augmentation de +9 % de la part des requêtes exploratoires
      • Augmentation de +30 % de la longueur maximale des requêtes et de +10 % de leur longueur moyenne
  • 5. Playlist Search (Amazon)

    • Utilisation de LLM pour générer et enrichir les métadonnées de playlists communautaires
    • Fine-tuning du modèle Flan-T5-XL pour améliorer l’efficacité de la génération de données
    • Entraînement d’un modèle d’encodeur bidirectionnel à partir de requêtes générées par LLM et de données de matching avec les playlists
    • Résultats :
      • Amélioration à deux chiffres du recall des résultats de recherche
      • Amélioration des performances SEO et de paraphrase

Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

  • Scaling Laws

    • Étude analysant l’impact de la taille du modèle et du volume de données sur les performances
    • Utilisation d’une architecture Transformer decoder-only (de 98.3K à 0.8B paramètres)
    • Évaluation sur les jeux de données MovieLens-20M et Amazon-2018
    • Prédiction de l’item suivant à partir de séquences de 50 items de longueur fixe
    • Techniques principales :
      • Dropout adaptatif par couche → fort dropout dans les couches basses, plus faible dans les couches hautes
      • Passage d’Adam à SGD → apprentissage initial avec Adam, puis bascule vers SGD pour améliorer la convergence
    • Résultats :
      • Plus la taille du modèle augmente, plus la perte en cross-entropy diminue
      • Les petits modèles nécessitent davantage de données, tandis que les grands modèles obtiennent de bonnes performances avec moins de données
      • Les modèles 75.5M et 98.3K montrent une amélioration des performances entre 2 et 5 epochs
  • PrepRec

    • Application du préapprentissage aux systèmes de recommandation → apprentissage par transfert inter-domaines possible
    • Apprentissage possible uniquement à partir de la dynamique d’évolution de la popularité des items, sans métadonnées d’items
    • Utilisation des intervalles de temps relatifs entre interactions utilisateur et d’un encodage positionnel
    • Résultats :
      • En recommandation zero-shot, les performances recall@10 baissent de 2 à 6 %, mais après entraînement les performances deviennent similaires
      • Après entraînement sur le domaine cible, les performances atteignent un niveau comparable à SasREC et BERT4Rec
  • E-CDCTR (Meituan)

    • Application de l’apprentissage par transfert aux modèles de prédiction du clic publicitaire
    • Utilisation d’une structure d’apprentissage en 3 étapes : TPM → CPM → A-CTR
      • TPM → apprentissage des embeddings utilisateur et item
      • CPM → préapprentissage sur des données organiques récentes
      • A-CTR → ajustement fin sur les données publicitaires
    • Résultats :
      • CPM a l’impact le plus fort sur les performances → apprentissage possible de signaux de filtrage collaboratif à long terme
      • Amélioration des performances en utilisant les embeddings des 3 derniers mois
  • Bridging the Gap (YouTube)

    • Distillation de connaissances pour la recommandation vidéo personnalisée à grande échelle
    • Utilisation d’une architecture teacher-student (le modèle teacher est 2 à 4 fois plus grand que le student)
    • Usage d’une stratégie de distillation auxiliaire au lieu d’une prédiction directe → résolution des problèmes de distribution shift
    • Résultats :
      • Amélioration de 0,4 % des performances avec la stratégie de distillation auxiliaire
      • Amélioration de +0,42 % avec un teacher 2 fois plus grand, et de +0,43 % avec un teacher 4 fois plus grand
  • Self-Auxiliary Distillation (Google)

    • Amélioration de l’efficacité d’échantillonnage des grands modèles de recommandation
    • Architecture à branche bidirectionnelle → apprentissage combiné à partir des labels du teacher et des labels d’origine
    • Traitement des labels négatifs non comme 0 mais comme des valeurs CTR estimées
    • Résultats :
      • Amélioration cohérente des performances dans divers domaines
      • Renforcement de la stabilité d’entraînement et amélioration de la précision des sorties du modèle
  • DLLM2Rec

    • Distillation des connaissances de recommandation d’un grand modèle de langage vers un modèle léger
    • Utilisation de distillation de ranking fondée sur l’importance et de distillation d’embeddings collaboratifs
      • Distillation de ranking fondée sur l’importance → pondération selon le rang des items et la cohérence
      • Distillation d’embeddings collaboratifs → correction des écarts d’embeddings entre teacher et student
    • Résultats :
      • Amélioration moyenne des performances de 47,97 % sur les modèles GRU4Rec, SASRec et DROS
      • Temps d’inférence réduit de 3 à 6 heures pour le teacher à 1,6 à 1,8 seconde
  • MLoRA (Alibaba)

    • Application de LoRA spécifique à chaque domaine (Low-Rank Adaptation) à la prédiction du CTR
    • Préapprentissage d’un backbone commun, puis fine-tuning avec des LoRA propres à chaque domaine
    • Définition dynamique du rang LoRA selon les couches
    • Résultats :
      • Amélioration de +0,5 % de l’AUC
      • Hausse du CTR de +1,49 %, du taux de conversion de +3,37 % et des acheteurs payants de +2,71 %
  • Taming One-Epoch (Pinterest)

    • Résolution du problème de surapprentissage dès une seule epoch
    • Séparation des phases d’entraînement via apprentissage contrastif
      • Première phase → apprentissage des embeddings
      • Deuxième phase → ajustement fin
    • Résultats :
      • Performances supérieures à la perte BCE classique
      • Hausse de +1,32 % sur le home feed et de +2,18 % sur les pins liés
  • Sliding Window Training (Netflix)

    • Introduction d’un entraînement par fenêtre glissante pour apprendre sur de longs historiques utilisateur sans surcharge mémoire
    • Sélection d’un segment différent de l’historique utilisateur à chaque epoch
    • Maintien de l’équilibre entre les 100 interactions les plus récentes et les interactions de long terme
    • Résultats :
      • Amélioration cohérente par rapport aux modèles n’utilisant que les interactions récentes
      • Amélioration de Mean Average Precision(MAP) de +1,5 % et du recall de +7,01 %

Architectures unifiées pour la recherche et la recommandation

  • Bridging Search & Recommendations (Spotify)

    • Apprentissage unifié des données de recherche et de recommandation dans un même modèle génératif
    • Entraînement fondé sur Flan-T5-base avec conversion des ID d’items en tokens
    • Modèle génératif de recommandation : prédiction de l’item suivant à partir des interactions utilisateur
    • Modèle génératif de recherche : prédiction des ID d’items à partir de requêtes textuelles
    • Résultats :
      • Amélioration moyenne de 16 % par rapport aux modèles single-task (sur recall@30)
      • Sur le dataset podcast, amélioration de +855 % en recherche et de +262 % en recommandation
      • Les performances restent inférieures à celles des modèles classiques de recommandation et de recherche (BM25, SASRec, etc.)
  • 360Brew (LinkedIn)

    • Exécution de plus de 30 tâches de ranking avec un modèle unique de 150B paramètres
    • Basé sur Mixtral-8x22B → continuous pretraining (CPT)instruction fine-tuning (IFT)supervised fine-tuning (SFT)
    • Introduction d’une interface en langage naturel → recours au prompt engineering au lieu du feature engineering
    • Résultats :
      • Performances équivalentes ou supérieures à celles des modèles spécialisés existants
      • Amélioration des performances sur des datasets à grande échelle (x3)
      • Amélioration pour les utilisateurs cold start → meilleurs résultats que les modèles existants
  • UniCoRn (Netflix)

    • Prise en charge des tâches de recherche et de recommandation dans un même modèle
    • Utilisation d’informations de contexte comme l’ID utilisateur, la requête de recherche, le pays, l’entité source, etc.
    • Exploitation des fonctions contexte-cible et du feature crossing
    • Résultats :
      • Amélioration de +10 % des performances en recommandation et de +7 % en recherche
      • Amélioration grâce à une personnalisation renforcée
      • Confirmation de l’importance du type de tâche et de la gestion des valeurs manquantes
  • Unified Embeddings (Etsy)

    • Unification d’embeddings fondés sur Transformer, sur le texte et sur le graphe
    • Fine-tuning du modèle T5 pour renforcer le matching requête-produit
    • Application de hard negative sampling et de recherche approchée des plus proches voisins (ANN)
    • Résultats :
      • Amélioration de +2,63 % du taux de conversion et de +5,58 % du taux d’achat en recherche organique
      • Les embeddings de graphe ont la contribution la plus forte aux performances (+15 %)
  • Embedding Long Tail (Best Buy)

    • Résolution du problème des requêtes de long tail
    • Utilisation d’un modèle BERT interne fondé sur le comportement utilisateur → encodage de la recherche et des produits
    • Enrichissement des données à l’aide de requêtes synthétiques générées par Llama-13B
    • Résultats :
      • Amélioration de +3 % du taux de conversion
      • Amélioration du matching requête-produit (+4,67 %)
  • User Behavioral Service (YouTube)

    • Séparation entre le modèle de génération des embeddings utilisateur et le modèle de recommandation
    • Génération asynchrone des embeddings utilisateur → utilisation d’un cache haute vitesse
    • Si l’embedding n’est pas disponible lors de la requête, retour d’une valeur vide puis mise à jour asynchrone
    • Résultats :
      • Augmentation de la taille du modèle de séquence utilisateur tout en maîtrisant les coûts (28,7 % → 2,8 %)
      • Amélioration globale des performances de recommandation (0,01 % à 0,40 %)
  • Modern Ranking Platform (Zalando)

    • Construction d’un système unifié de recherche et de navigation
    • Utilisation d’une structure génération de candidats → ranking → couche de politique
    • Application d’embeddings client fondés sur Transformer + base de données vectorielle
    • Résultats :
      • Amélioration globale de +15 % de l’engagement et de +2,2 % du revenu
      • Amélioration supplémentaire après introduction d’embeddings entraînables

Conclusion

  • Les premières recherches de 2023 (application des LLM à la recommandation et à la recherche) étaient limitées, mais les efforts récents montrent davantage de promesses, surtout avec des résultats validés par l’industrie
  • Cela suggère qu’explorer l’augmentation des systèmes de recommandation et de recherche à l’aide des LLM présente des bénéfices concrets, et peut réduire les coûts et les efforts tout en augmentant les performances

1 commentaires

 
GN⁺ 2025-03-24

Avis sur Hacker News

  • Il existe une analyse selon laquelle la mise à jour de Spotify liée aux requêtes de recherche a aidé les utilisateurs à exprimer des intentions plus complexes

    • Cependant, il est difficile d’y voir une amélioration si les utilisateurs ont dû effectuer davantage de recherches et saisir des requêtes plus longues pour obtenir l’information souhaitée
  • De nombreuses équipes utilisent des LLM pour renforcer les requêtes de recherche et les index

    • Même avec de petits modèles et des prompts simples, il est possible de transformer une chaîne de recherche en requête structurée
    • Il est aussi possible de classifier des documents ou d’utiliser un cache
    • Ne pas faire ce type de travail pourrait être une erreur
  • Il est intéressant qu’Eugene ait publié ce travail juste après la conférence

    • Traditionnellement, cela aurait été un article publié par un doctorant après environ 12 mois de travail
    • On peut se demander si cela tient aux capacités d’Eugene ou s’il s’agit d’une nouvelle tendance
  • Explication des raisons pour lesquelles l’expérience Spotify s’est dégradée avec le temps

  • Au réveil, quelqu’un a commencé à écouter cet article avec un modèle de synthèse vocale

    • Comme il contient beaucoup de jargon, l’auteur semble très intelligent, mais ne transmet pas efficacement l’information
    • C’est un phénomène fréquent dans les articles académiques, et ses propres publications de recherche n’y échappent pas
    • Comme cette personne n’est pas experte en ML, elle n’est peut-être pas le public visé
    • Elle se demande si d’autres ont eu la même impression
    • Elle espère que cet avis ne paraît pas trop négatif
  • Des variantes de SASRec et Bert4Rec sont entraînées avec des ID-tokens et présentent des lois de passage à l’échelle similaires à celles des LLM

    • L’approche de Meta est donnée en exemple
  • Certains pensent que la combinaison des systèmes de recommandation et des forums a été une grande catastrophe pour la société

  • Questionnement sur l’absence d’outils de recherche basés sur les LLM sur PC et smartphone

    • En particulier, puisque les données des smartphones sont stockées dans le cloud, elles pourraient offrir des fonctions utiles aux utilisateurs au lieu d’être exploitées pour la publicité ou le scraping du FBI
  • Cela semble être un excellent aperçu des systèmes de recommandation

    • Le point principal est que la latence constitue le problème majeur
    • Le fine-tuning peut apporter de grandes améliorations et réduire la latence
    • Il existe un seuil ou un type de problème qui détermine s’il faut utiliser des prompts ou le fine-tuning
  • Il est intéressant que ce type de papiers ne provienne pas de laboratoires de recherche académiques