Comment est déterminé le premier écran que vous voyez ? L’histoire de la recommandation personnalisée des bannières d’accueil de Musinsa

(medium.com)

2 points par GN⁺ 2025-06-05 | 1 commentaires | Partager sur WhatsApp

La bannière d’accueil est une zone clé, visible en tout premier sur l’écran initial des clients, et le système de recommandation hyperpersonnalisé vise à maximiser le taux de clic (CTR) ainsi que l’expérience utilisateur
En s’éloignant de l’ancienne approche simple d’optimisation du clic fondée sur le MAB (multi-armed bandit), Musinsa intègre des algorithmes récents comme DeepFM, Two-Tower et HGNN ainsi que des embeddings basés sur des graphes pour refléter plus finement les caractéristiques des bannières et des utilisateurs
Des problèmes propres au domaine, comme le cycle de vie court des bannières, des signaux de clic bruités et le déséquilibre des données, sont traités via le Continual Learning et une exploitation hybride entre modèles individuels et modèle unifié
Au final, Musinsa a construit un pipeline de recommandation structuré avec plus de 16 % d’amélioration du CTR, une gestion des nouvelles bannières et des utilisateurs cold-start, ainsi qu’une intégration en temps réel avec les politiques métier
À l’avenir, le système continuera d’évoluer avec le serving en temps réel, le Multi-Task Learning, l’amélioration de la qualité des embeddings et l’introduction d’indicateurs de performance plus variés

Offrir une meilleure expérience avec des grandes bannières adaptées à chaque client

Avec l’augmentation de la diversité des goûts des clients et des contenus exposés, une diffusion uniforme des bannières montrait ses limites pour offrir une expérience satisfaisante
Avec pour objectif de maximiser le CTR, Musinsa a mené un projet d’introduction d’une logique de diffusion personnalisée sur la grande bannière située en haut de la page d’accueil de chaque store

Importance et caractéristiques des bannières d’accueil

Les bannières d’accueil sont des bannières coulissantes en haut de l’écran, les toutes premières que les clients voient sur le service Musinsa (35 au total) ; une seule est affichée dans l’app, trois sur le web
Environ 97 % du trafic total de Musinsa voit les bannières d’accueil lors de l’entrée sur l’écran principal
Les clics sur les bannières d’accueil représentent 35 % du nombre total de clics, et 37 % des sessions où un clic se produit
C’est une zone à très fort impact sur la conversion business en raison de sa fréquence d’exposition élevée

Limites de l’ancienne méthode de recommandation

Auparavant, la recommandation était effectuée avec un algorithme MAB (Multi-Armed Bandit) centré sur le CTR
- Ajustement de l’équilibre entre exploration et exploitation
Trois limites :
- Dépendance à un indicateur unique de taux de clic, insuffisant pour refléter la diversité des goûts clients et des caractéristiques des bannières
- Difficulté à prendre en compte la relation entre les bannières (traitées indépendamment)
- Cold start (baisse de performance lorsqu’il manque des données de clic pour les nouvelles bannières)
Pour dépasser ces limites, Musinsa a conçu un nouveau système de recommandation

Pipeline du système de recommandation

Le système est structuré en pipeline multi-étapes
1. Renforcement de la représentation des bannières : extraction d’embeddings à partir des textes, images et produits associés aux bannières (avec HGNN et GraphSAGE)
2. Apprentissage du modèle de prédiction des clics : utilisation conjointe des modèles DeepFM (interactions de features) et Two-Tower (embeddings séparés utilisateur/bannière)
3. Scoring et application des bannières : calcul des scores prédits de CTR par utilisateur en batch et en temps réel
  - Pour les utilisateurs avec assez de données : personnalisation fine
  - Pour les nouveaux utilisateurs ou les profils cold-start : recommandation basée sur des segments
4. Prise en compte des politiques métier : au-delà du score système, les politiques et stratégies de l’entreprise, les bannières de campagne et les changements urgents sont aussi appliqués en temps réel
5. Affichage final des bannières : recommandation et diffusion finales des bannières Top-N au score le plus élevé

Présentation des modèles clés de recommandation

DeepFM : structure parallèle FM (interactions du 2e ordre) + DNN (interactions de haut niveau), efficace à la fois sur les données clairsemées et les interactions complexes, excellente pour la prédiction du CTR
Two-Tower : extraction d’embeddings utilisateur et bannière via des réseaux neuronaux indépendants, bien adapté aux données à grande échelle et au serving en temps réel, recommandation basée sur la similarité

DeepFM

Combinaison d’une couche FM (interactions de features du 2e ordre) et d’une couche DNN (intégration non linéaire de features de haute dimension)
Robuste sur les données clairsemées, avec une structure d’apprentissage end-to-end pour une optimisation cohérente des performances
Utilise comme features les informations utilisateur, les métadonnées des bannières et des embeddings (64 dimensions)
Les vecteurs d’embedding sont traités comme un bloc unique afin d’assurer efficacité et stabilité de l’apprentissage
Le résultat de prédiction du CTR sert à établir le classement des bannières

Two-Tower

Utilisateurs et bannières sont encodés dans des réseaux neuronaux séparés (tours), puis une similarité est calculée
Offre une forte scalabilité pour les grands volumes de données et des réponses rapides grâce à la vectorisation préalable (faible latence)
Chaque tour exploite diverses informations d’entrée : démographie, logs comportementaux, texte, image, etc.
Grâce à une structure d’apprentissage séparée et parallèle, le modèle répond rapidement et avec souplesse aux problèmes de recommandation à grande échelle

Principales difficultés rencontrées en production

Les bannières d’accueil ont un cycle de vie très court (2 à 3 jours, parfois seulement quelques heures), ce qui exige une prise en compte en temps réel
Les signaux de feedback reposent principalement sur les clics, ce qui rend difficile l’identification des préférences réelles des utilisateurs
Contrairement aux produits ou aux marques, les bannières disposent de peu de métadonnées structurées, et leur compréhension contextuelle via l’image et le texte est complexe
Le déséquilibre des données selon les stores (écarts de trafic et d’activité entre boutiques spécialisées) peut dégrader la performance globale
Pour surmonter ces problèmes, le système a été repensé autour de trois axes techniques : renforcer l’expressivité, maintenir la fraîcheur et atténuer le déséquilibre

Pistes d’amélioration concrètes

Renforcement des caractéristiques des bannières

Pour dépasser les limites de la moyenne des embeddings PinSAGE (difficulté à représenter des bannières composites, impossibilité de recommander de nouvelles bannières), Musinsa a introduit HGNN
À partir des comportements utilisateurs, les relations bannière-produit sont encodées dans une structure de graphe avec GraphSAGE
Pour le texte et l’image, une combinaison d’embeddings issus de LLM est utilisée
Mise à jour en temps réel des embeddings utilisateur et introduction du Continual Learning afin de refléter les intérêts les plus récents
Hausse de 8,3 % du CTR

Continual Learning

Abandon de l’apprentissage par lots sur l’ensemble des données au profit de mises à jour continues (toutes les heures, à partir des logs des 3 dernières heures)
Ajustement dynamique du taux d’apprentissage selon le niveau d’activité (jusqu’à 5x en semaine, 2x la nuit)
Permet une adaptation rapide, évite le vieillissement du modèle et assure une intégration rapide des recommandations sans dégradation des performances
Hausse de 24 % du CTR

Choix stratégique des modèles

Définition de la stratégie de modélisation optimale par store
Pour le store principal : DeepFM + Continual ; pour les boutiques spécialisées : modèles Two-Tower individuels, avec 19 % d’amélioration du CTR

Résultats finaux

Par rapport au MAB existant, Two-Tower améliore le CTR de 11,2 % et DeepFM de 16,1 %
En production, Musinsa applique DeepFM + Continual Learning sur l’accueil principal et Two-Tower sur les boutiques spécialisées

Orientations futures

Poursuite de l’amélioration via une transition vers une architecture de serving en temps réel, l’introduction du Multi-Task Learning (CTR + GGMV), l’amélioration de la qualité des embeddings et de la structure de graphe, ainsi que la diversification des indicateurs de performance
Le système devrait évoluer au-delà du seul CTR vers un modèle capable d’évaluer aussi l’atteinte de divers objectifs business et la qualité de l’expérience

1 commentaires

codemasterkimc 2025-06-05

C’est un bon article ~

Comment est déterminé le premier écran que vous voyez ? L’histoire de la recommandation personnalisée des bannières d’accueil de Musinsa

Offrir une meilleure expérience avec des grandes bannières adaptées à chaque client

Importance et caractéristiques des bannières d’accueil

Limites de l’ancienne méthode de recommandation

Pipeline du système de recommandation

Présentation des modèles clés de recommandation

DeepFM

Two-Tower

Principales difficultés rencontrées en production

Pistes d’amélioration concrètes

Renforcement des caractéristiques des bannières

Continual Learning

Choix stratégique des modèles

Résultats finaux

Orientations futures

À lire aussi

1 commentaires