à l’ère des LLM

(eugeneyan.com)

22 points par GN⁺ 2025-03-20 | 1 commentaires | Partager sur WhatsApp

Les systèmes de recommandation et la recherche ont historiquement évolué en s’inspirant des modèles de langage
- Word2vec → apprentissage d’embeddings d’items (recherche fondée sur les embeddings)
- GRU, Transformer, BERT → prédiction de l’item suivant à recommander (ranking)
Aujourd’hui, le paradigme des grands modèles de langage (LLM) évolue lui aussi dans cette même direction
Principales avancées
- 1. Architectures de modèles renforcés par les LLM / multimodales
- 2. Génération et analyse de données fondées sur les LLM
- 3. Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA
- 4. Architectures unifiées pour la recherche et la recommandation

Architectures de modèles renforcés par les LLM / multimodales

Les modèles de recommandation intègrent des modèles de langage (LLM) et des contenus multimodaux pour dépasser les limites des approches traditionnelles basées sur les ID
Combinaison des atouts de la modélisation comportementale et de la compréhension du contenu → résolution des problèmes de cold start et de long tail
1. Semantic IDs (YouTube)
- Utilisation de Semantic ID dérivés du contenu à la place des ID classiques fondés sur le hachage
- Introduction d’un framework en deux étapes :
  1. Encodeur vidéo basé sur Transformer → génération d’embeddings de contenu denses
  2. RQ-VAE(Residual Quantization Variational AutoEncoder) → conversion des embeddings en Semantic ID sous forme d’entiers
- Structure de RQ-VAE :
  - Espace latent de 256 dimensions, 8 niveaux de quantification, 2048 entrées de codebook par niveau
  - Génération d’embeddings de 2048 dimensions à partir d’un backbone VideoBERT fondé sur Transformer
- Résultats :
  - Les embeddings denses directs sont moins performants que les ID hashés aléatoires
  - Les approches fondées sur les N-gram et SPM(SentencePiece Model) offrent de très bonnes performances, en particulier dans les scénarios de cold start
2. M3CSR (Kuaishou)
- Embeddings de contenu multimodal (visuel, texte, audio) → clustering avec K-means puis conversion en ID apprenables
- Architecture dual tower :
  - Tour côté utilisateur : modélisation du comportement utilisateur
  - Tour côté item : précalcul et indexation des embeddings d’items
- Processus d’apprentissage :
  - Fusion des embeddings ResNet(visuel), Sentence-BERT(texte), VGGish(audio) → clustering K-means (~1000 clusters)
  - Mapping des ID de cluster vers des embeddings apprenables
- Résultats :
  - Dans les tests A/B, amélioration de +3,4 % des clics, +3,0 % des likes, +3,1 % des follows
  - Dans les scénarios de cold start, amélioration de +1,2 % de la vitesse et de +3,6 % de la couverture
3. FLIP (Huawei)
- Alignement entre modèle de recommandation fondé sur les ID et LLM
- Apprentissage simultané sur des données textuelles et tabulaires masquées → alignement multimodal
- Étapes d’apprentissage :
  - 1. Transformation modale : conversion des données tabulaires en texte
  - 2. Préapprentissage d’alignement modal : reconstruction d’ID et de texte masqués
  - 3. Fine-tuning adaptatif : optimisation des poids des deux modèles pour la prédiction du clic
- Résultats :
  - Performances supérieures aux modèles basés sur les ID, aux modèles basés sur les LLM, et aux modèles ID + LLM
  - Le niveau de masquage et l’alignement multimodal jouent un rôle important dans l’amélioration des performances
4. beeFormer
- Entraînement d’un modèle Transformer fondé sur les informations textuelles et les données d’interaction utilisateur-item
- Utilisation d’un décodeur fondé sur ELSA(Scalable Linear Shallow Autoencoder) → renforcement de l’apprentissage des schémas d’interaction
- Processus d’entraînement :
  - Génération d’embeddings avec Transformer → apprentissage des schémas de comportement utilisateur via ELSA
  - Utilisation de gradient checkpointing, augmentation de la taille de batch et negative sampling pour optimiser l’entraînement sur de grands catalogues
- Résultats :
  - Performances supérieures à des modèles existants comme mpnet-base-v2 ou bge-m3
  - Amélioration observée en apprentissage par transfert inter-domaines
5. CALRec (Google)
- Modélisation des interactions utilisateur-item à l’aide de prompts textuels
- Fine-tuning en deux étapes d’un modèle basé sur PaLM-2 XXS
- Étapes d’entraînement :
  - 1. Apprentissage multi-catégories : apprentissage de schémas de recommandation généraux
  - 2. Apprentissage spécifique à une catégorie : apprentissage de schémas spécialisés selon la catégorie d’item
- Résultats :
  - Performances supérieures aux modèles basés sur les ID et sur le texte sur l’Amazon Review Dataset
  - L’apprentissage multi-catégories et l’apprentissage contrastif contribuent à l’amélioration des performances
6. EmbSum (Meta)
- Génération de résumés des centres d’intérêt utilisateur et de résumés des items candidats
- Utilisation des modèles T5-small et Mixtral-8x22B-Instruct
- Composants :
  - User Poly-Embeddings (UPE) → embeddings des centres d’intérêt utilisateur
  - Content Poly-Embeddings (CPE) → embeddings d’items
  - Génération de résumés → injection dans l’encodeur → génération de la recommandation finale
- Résultats :
  - Performances supérieures aux modèles de recommandation fondés sur le contenu
  - Le regroupement par session et la perte sur résumé jouent un rôle important dans les performances

Génération et analyse de données fondées sur les LLM

Les LLM sont utilisés pour résoudre les problèmes de manque de données dans les systèmes de recommandation et de recherche, et pour améliorer la qualité des données
Principaux cas d’usage :
- Bing → génération de métadonnées de pages web et amélioration de la prédiction du clic
- Indeed → filtrage des appariements emploi-candidat de mauvaise qualité
- Yelp → compréhension des requêtes de recherche et amélioration des highlights d’avis
- Spotify → génération de requêtes de recherche exploratoire
- Amazon → enrichissement des métadonnées de playlists et amélioration des performances de recherche
1. Recommendation Quality Improvement (Bing)
- Utilisation de GPT-4 pour générer des titres et résumés de haute qualité à partir de pages web
- Fine-tuning d’un modèle Mistral-7B à partir de métadonnées générées sur environ 2 millions de pages web
- Entraînement d’un cross-encoder basé sur MiniLM pour combiner prédiction du clic et score de qualité
- Résultats :
  - Réduction de 31 % des contenus clickbait et de 76 % des contenus dupliqués
  - Augmentation de 18 % des contenus faisant autorité et de 48 % des recommandations cross-media
2. Expected Bad Match (Indeed)
- Construction d’un modèle de filtrage des appariements emploi-candidat de mauvaise qualité (eBadMatch) en fine-tunant GPT-3.5 sur des données de revue humaine
- Maintien d’un niveau de performance proche de GPT-4 avec de meilleurs coûts et temps d’exécution
- Le modèle de filtrage final réduit de 17,68 % le nombre d’e-mails d’invitation au matching, diminue de 4,97 % le taux de désabonnement et augmente de 4,13 % le taux de candidature
- Résultats :
  - Performance AUC-ROC du modèle de filtrage : 0.86
3. Query Understanding (Yelp)
- Utilisation de LLM pour améliorer la segmentation des requêtes de recherche et les highlights d’avis
- Segmentation des requêtes :
  - Distinction des sujets, noms, horaires, lieux, etc., avec ajout de tags sémantiques
  - Application de techniques RAG(Retrieval-Augmented Generation) pour renforcer la compréhension contextuelle des requêtes
- Highlights d’avis :
  - Génération de highlights avec un LLM → passage à l’échelle via des appels batch OpenAI
- Résultats :
  - Amélioration des sessions de recherche et du taux de clic
  - Amélioration aussi sur les requêtes long tail
4. Query Recommendations (Spotify)
- Introduction chez Spotify de recommandations de requêtes de recherche exploratoire, au-delà des résultats de recherche directs
- Méthodes de génération des requêtes :
  - Extraction à partir des titres de catalogue, playlists et podcasts
  - Prise en compte des recherches récentes des utilisateurs dans les logs de recherche
  - Application de techniques de génération de phrases par LLM (Doc2query, InPars, etc.)
- Classement des recommandations de requêtes à l’aide d’embeddings vectoriels personnalisés
- Résultats :
  - Augmentation de +9 % de la part des requêtes exploratoires
  - Augmentation de +30 % de la longueur maximale des requêtes et de +10 % de leur longueur moyenne
5. Playlist Search (Amazon)
- Utilisation de LLM pour générer et enrichir les métadonnées de playlists communautaires
- Fine-tuning du modèle Flan-T5-XL pour améliorer l’efficacité de la génération de données
- Entraînement d’un modèle d’encodeur bidirectionnel à partir de requêtes générées par LLM et de données de matching avec les playlists
- Résultats :
  - Amélioration à deux chiffres du recall des résultats de recherche
  - Amélioration des performances SEO et de paraphrase

Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

Scaling Laws
- Étude analysant l’impact de la taille du modèle et du volume de données sur les performances
- Utilisation d’une architecture Transformer decoder-only (de 98.3K à 0.8B paramètres)
- Évaluation sur les jeux de données MovieLens-20M et Amazon-2018
- Prédiction de l’item suivant à partir de séquences de 50 items de longueur fixe
- Techniques principales :
  - Dropout adaptatif par couche → fort dropout dans les couches basses, plus faible dans les couches hautes
  - Passage d’Adam à SGD → apprentissage initial avec Adam, puis bascule vers SGD pour améliorer la convergence
- Résultats :
  - Plus la taille du modèle augmente, plus la perte en cross-entropy diminue
  - Les petits modèles nécessitent davantage de données, tandis que les grands modèles obtiennent de bonnes performances avec moins de données
  - Les modèles 75.5M et 98.3K montrent une amélioration des performances entre 2 et 5 epochs
PrepRec
- Application du préapprentissage aux systèmes de recommandation → apprentissage par transfert inter-domaines possible
- Apprentissage possible uniquement à partir de la dynamique d’évolution de la popularité des items, sans métadonnées d’items
- Utilisation des intervalles de temps relatifs entre interactions utilisateur et d’un encodage positionnel
- Résultats :
  - En recommandation zero-shot, les performances recall@10 baissent de 2 à 6 %, mais après entraînement les performances deviennent similaires
  - Après entraînement sur le domaine cible, les performances atteignent un niveau comparable à SasREC et BERT4Rec
E-CDCTR (Meituan)
- Application de l’apprentissage par transfert aux modèles de prédiction du clic publicitaire
- Utilisation d’une structure d’apprentissage en 3 étapes : TPM → CPM → A-CTR
  - TPM → apprentissage des embeddings utilisateur et item
  - CPM → préapprentissage sur des données organiques récentes
  - A-CTR → ajustement fin sur les données publicitaires
- Résultats :
  - CPM a l’impact le plus fort sur les performances → apprentissage possible de signaux de filtrage collaboratif à long terme
  - Amélioration des performances en utilisant les embeddings des 3 derniers mois
Bridging the Gap (YouTube)
- Distillation de connaissances pour la recommandation vidéo personnalisée à grande échelle
- Utilisation d’une architecture teacher-student (le modèle teacher est 2 à 4 fois plus grand que le student)
- Usage d’une stratégie de distillation auxiliaire au lieu d’une prédiction directe → résolution des problèmes de distribution shift
- Résultats :
  - Amélioration de 0,4 % des performances avec la stratégie de distillation auxiliaire
  - Amélioration de +0,42 % avec un teacher 2 fois plus grand, et de +0,43 % avec un teacher 4 fois plus grand
Self-Auxiliary Distillation (Google)
- Amélioration de l’efficacité d’échantillonnage des grands modèles de recommandation
- Architecture à branche bidirectionnelle → apprentissage combiné à partir des labels du teacher et des labels d’origine
- Traitement des labels négatifs non comme 0 mais comme des valeurs CTR estimées
- Résultats :
  - Amélioration cohérente des performances dans divers domaines
  - Renforcement de la stabilité d’entraînement et amélioration de la précision des sorties du modèle
DLLM2Rec
- Distillation des connaissances de recommandation d’un grand modèle de langage vers un modèle léger
- Utilisation de distillation de ranking fondée sur l’importance et de distillation d’embeddings collaboratifs
  - Distillation de ranking fondée sur l’importance → pondération selon le rang des items et la cohérence
  - Distillation d’embeddings collaboratifs → correction des écarts d’embeddings entre teacher et student
- Résultats :
  - Amélioration moyenne des performances de 47,97 % sur les modèles GRU4Rec, SASRec et DROS
  - Temps d’inférence réduit de 3 à 6 heures pour le teacher à 1,6 à 1,8 seconde
MLoRA (Alibaba)
- Application de LoRA spécifique à chaque domaine (Low-Rank Adaptation) à la prédiction du CTR
- Préapprentissage d’un backbone commun, puis fine-tuning avec des LoRA propres à chaque domaine
- Définition dynamique du rang LoRA selon les couches
- Résultats :
  - Amélioration de +0,5 % de l’AUC
  - Hausse du CTR de +1,49 %, du taux de conversion de +3,37 % et des acheteurs payants de +2,71 %
Taming One-Epoch (Pinterest)
- Résolution du problème de surapprentissage dès une seule epoch
- Séparation des phases d’entraînement via apprentissage contrastif
  - Première phase → apprentissage des embeddings
  - Deuxième phase → ajustement fin
- Résultats :
  - Performances supérieures à la perte BCE classique
  - Hausse de +1,32 % sur le home feed et de +2,18 % sur les pins liés
Sliding Window Training (Netflix)
- Introduction d’un entraînement par fenêtre glissante pour apprendre sur de longs historiques utilisateur sans surcharge mémoire
- Sélection d’un segment différent de l’historique utilisateur à chaque epoch
- Maintien de l’équilibre entre les 100 interactions les plus récentes et les interactions de long terme
- Résultats :
  - Amélioration cohérente par rapport aux modèles n’utilisant que les interactions récentes
  - Amélioration de Mean Average Precision(MAP) de +1,5 % et du recall de +7,01 %

Architectures unifiées pour la recherche et la recommandation

Bridging Search & Recommendations (Spotify)
- Apprentissage unifié des données de recherche et de recommandation dans un même modèle génératif
- Entraînement fondé sur Flan-T5-base avec conversion des ID d’items en tokens
- Modèle génératif de recommandation : prédiction de l’item suivant à partir des interactions utilisateur
- Modèle génératif de recherche : prédiction des ID d’items à partir de requêtes textuelles
- Résultats :
  - Amélioration moyenne de 16 % par rapport aux modèles single-task (sur recall@30)
  - Sur le dataset podcast, amélioration de +855 % en recherche et de +262 % en recommandation
  - Les performances restent inférieures à celles des modèles classiques de recommandation et de recherche (BM25, SASRec, etc.)
360Brew (LinkedIn)
- Exécution de plus de 30 tâches de ranking avec un modèle unique de 150B paramètres
- Basé sur Mixtral-8x22B → continuous pretraining (CPT) → instruction fine-tuning (IFT) → supervised fine-tuning (SFT)
- Introduction d’une interface en langage naturel → recours au prompt engineering au lieu du feature engineering
- Résultats :
  - Performances équivalentes ou supérieures à celles des modèles spécialisés existants
  - Amélioration des performances sur des datasets à grande échelle (x3)
  - Amélioration pour les utilisateurs cold start → meilleurs résultats que les modèles existants
UniCoRn (Netflix)
- Prise en charge des tâches de recherche et de recommandation dans un même modèle
- Utilisation d’informations de contexte comme l’ID utilisateur, la requête de recherche, le pays, l’entité source, etc.
- Exploitation des fonctions contexte-cible et du feature crossing
- Résultats :
  - Amélioration de +10 % des performances en recommandation et de +7 % en recherche
  - Amélioration grâce à une personnalisation renforcée
  - Confirmation de l’importance du type de tâche et de la gestion des valeurs manquantes
Unified Embeddings (Etsy)
- Unification d’embeddings fondés sur Transformer, sur le texte et sur le graphe
- Fine-tuning du modèle T5 pour renforcer le matching requête-produit
- Application de hard negative sampling et de recherche approchée des plus proches voisins (ANN)
- Résultats :
  - Amélioration de +2,63 % du taux de conversion et de +5,58 % du taux d’achat en recherche organique
  - Les embeddings de graphe ont la contribution la plus forte aux performances (+15 %)
Embedding Long Tail (Best Buy)
- Résolution du problème des requêtes de long tail
- Utilisation d’un modèle BERT interne fondé sur le comportement utilisateur → encodage de la recherche et des produits
- Enrichissement des données à l’aide de requêtes synthétiques générées par Llama-13B
- Résultats :
  - Amélioration de +3 % du taux de conversion
  - Amélioration du matching requête-produit (+4,67 %)
User Behavioral Service (YouTube)
- Séparation entre le modèle de génération des embeddings utilisateur et le modèle de recommandation
- Génération asynchrone des embeddings utilisateur → utilisation d’un cache haute vitesse
- Si l’embedding n’est pas disponible lors de la requête, retour d’une valeur vide puis mise à jour asynchrone
- Résultats :
  - Augmentation de la taille du modèle de séquence utilisateur tout en maîtrisant les coûts (28,7 % → 2,8 %)
  - Amélioration globale des performances de recommandation (0,01 % à 0,40 %)
Modern Ranking Platform (Zalando)
- Construction d’un système unifié de recherche et de navigation
- Utilisation d’une structure génération de candidats → ranking → couche de politique
- Application d’embeddings client fondés sur Transformer + base de données vectorielle
- Résultats :
  - Amélioration globale de +15 % de l’engagement et de +2,2 % du revenu
  - Amélioration supplémentaire après introduction d’embeddings entraînables

Conclusion

Les premières recherches de 2023 (application des LLM à la recommandation et à la recherche) étaient limitées, mais les efforts récents montrent davantage de promesses, surtout avec des résultats validés par l’industrie
Cela suggère qu’explorer l’augmentation des systèmes de recommandation et de recherche à l’aide des LLM présente des bénéfices concrets, et peut réduire les coûts et les efforts tout en augmentant les performances

1 commentaires

GN⁺ 2025-03-24

Avis sur Hacker News

Il existe une analyse selon laquelle la mise à jour de Spotify liée aux requêtes de recherche a aidé les utilisateurs à exprimer des intentions plus complexes
- Cependant, il est difficile d’y voir une amélioration si les utilisateurs ont dû effectuer davantage de recherches et saisir des requêtes plus longues pour obtenir l’information souhaitée
De nombreuses équipes utilisent des LLM pour renforcer les requêtes de recherche et les index
- Même avec de petits modèles et des prompts simples, il est possible de transformer une chaîne de recherche en requête structurée
- Il est aussi possible de classifier des documents ou d’utiliser un cache
- Ne pas faire ce type de travail pourrait être une erreur
Il est intéressant qu’Eugene ait publié ce travail juste après la conférence
- Traditionnellement, cela aurait été un article publié par un doctorant après environ 12 mois de travail
- On peut se demander si cela tient aux capacités d’Eugene ou s’il s’agit d’une nouvelle tendance
Explication des raisons pour lesquelles l’expérience Spotify s’est dégradée avec le temps
Au réveil, quelqu’un a commencé à écouter cet article avec un modèle de synthèse vocale
- Comme il contient beaucoup de jargon, l’auteur semble très intelligent, mais ne transmet pas efficacement l’information
- C’est un phénomène fréquent dans les articles académiques, et ses propres publications de recherche n’y échappent pas
- Comme cette personne n’est pas experte en ML, elle n’est peut-être pas le public visé
- Elle se demande si d’autres ont eu la même impression
- Elle espère que cet avis ne paraît pas trop négatif
Des variantes de SASRec et Bert4Rec sont entraînées avec des ID-tokens et présentent des lois de passage à l’échelle similaires à celles des LLM
- L’approche de Meta est donnée en exemple
Certains pensent que la combinaison des systèmes de recommandation et des forums a été une grande catastrophe pour la société
Questionnement sur l’absence d’outils de recherche basés sur les LLM sur PC et smartphone
- En particulier, puisque les données des smartphones sont stockées dans le cloud, elles pourraient offrir des fonctions utiles aux utilisateurs au lieu d’être exploitées pour la publicité ou le scraping du FBI
Cela semble être un excellent aperçu des systèmes de recommandation
- Le point principal est que la latence constitue le problème majeur
- Le fine-tuning peut apporter de grandes améliorations et réduire la latence
- Il existe un seuil ou un type de problème qui détermine s’il faut utiliser des prompts ou le fine-tuning
Il est intéressant que ce type de papiers ne provienne pas de laboratoires de recherche académiques

Comment améliorer les « systèmes de recommandation » et la « recherche » à l’ère des LLM

1. Architectures de modèles renforcés par les LLM / multimodales

2. Génération et analyse de données fondées sur les LLM

3. Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

4. Architectures unifiées pour la recherche et la recommandation

Architectures de modèles renforcés par les LLM / multimodales

1. Semantic IDs (YouTube)

2. M3CSR (Kuaishou)

3. FLIP (Huawei)

4. beeFormer

5. CALRec (Google)

6. EmbSum (Meta)

Génération et analyse de données fondées sur les LLM

1. Recommendation Quality Improvement (Bing)

2. Expected Bad Match (Indeed)

3. Query Understanding (Yelp)

4. Query Recommendations (Spotify)

5. Playlist Search (Amazon)

Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

Scaling Laws

PrepRec

E-CDCTR (Meituan)

Bridging the Gap (YouTube)

Self-Auxiliary Distillation (Google)

DLLM2Rec

MLoRA (Alibaba)

Taming One-Epoch (Pinterest)

Sliding Window Training (Netflix)

Architectures unifiées pour la recherche et la recommandation

Bridging Search & Recommendations (Spotify)

360Brew (LinkedIn)

UniCoRn (Netflix)

Unified Embeddings (Etsy)

Embedding Long Tail (Best Buy)

User Behavioral Service (YouTube)

Modern Ranking Platform (Zalando)

Conclusion

1 commentaires

Avis sur Hacker News

Comment améliorer les « systèmes de recommandation » et la « recherche » à l’ère des LLM

1. Architectures de modèles renforcés par les LLM / multimodales

2. Génération et analyse de données fondées sur les LLM

3. Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

4. Architectures unifiées pour la recherche et la recommandation

Architectures de modèles renforcés par les LLM / multimodales

1. Semantic IDs (YouTube)

2. M3CSR (Kuaishou)

3. FLIP (Huawei)

4. beeFormer

5. CALRec (Google)

6. EmbSum (Meta)

Génération et analyse de données fondées sur les LLM

1. Recommendation Quality Improvement (Bing)

2. Expected Bad Match (Indeed)

3. Query Understanding (Yelp)

4. Query Recommendations (Spotify)

5. Playlist Search (Amazon)

Scaling Laws, apprentissage par transfert, distillation de connaissances, LoRA

Scaling Laws

PrepRec

E-CDCTR (Meituan)

Bridging the Gap (YouTube)

Self-Auxiliary Distillation (Google)

DLLM2Rec

MLoRA (Alibaba)

Taming One-Epoch (Pinterest)

Sliding Window Training (Netflix)

Architectures unifiées pour la recherche et la recommandation

Bridging Search & Recommendations (Spotify)

360Brew (LinkedIn)

UniCoRn (Netflix)

Unified Embeddings (Etsy)

Embedding Long Tail (Best Buy)

User Behavioral Service (YouTube)

Modern Ranking Platform (Zalando)

Conclusion

À lire aussi

1 commentaires

Avis sur Hacker News