Entraîner son propre modèle d’IA
(posthog.com)- PostHog tente d’entraîner des modèles à partir de ses données internes afin de créer des produits plus proactifs et autonomes, après l’assistant d’installation IA, PostHog AI et MCP
- La cible principale est PostHog Code, pour soutenir une orientation produit capable de trouver et d’exécuter des réponses et des solutions à la place de l’utilisateur, puis de s’améliorer avec le temps
- L’objectif est d’améliorer l’analyse des session replays, les tests utilisateurs synthétiques et la prédiction du comportement utilisateur afin de réduire le coût de détection des problèmes et d’identifier les erreurs ainsi que les points de confusion avant le déploiement
- Les données d’entraînement seront anonymisées et limitées aux données déjà présentes dans les instances PostHog, sans être vendues ni envoyées à des fournisseurs de modèles tiers
- Les clients sous cloud EU et ceux couverts par des contrats limitant l’entraînement sont exclus par défaut, tandis que le cloud US est inclus par défaut ; les utilisateurs peuvent se désinscrire avant le 29 juin
Le plan de PostHog pour entraîner ses propres modèles d’IA
- Au cours de l’année passée, PostHog a ajouté des fonctionnalités IA à son produit, comme l’AI installation wizard, PostHog AI et MCP, et veut désormais construire des produits plus proactifs et autonomes
- La prochaine étape de PostHog consiste à créer des produits capables de trouver et d’exécuter des réponses et des solutions à la place de l’utilisateur, puis de s’améliorer avec le temps
- PostHog Code, actuellement en bêta, est le produit clé de cette orientation, et pour la rendre possible, PostHog veut entraîner des modèles à partir de ses données internes
Les fonctionnalités visées
- L’objectif est de rendre les produits existants plus intelligents et plus proactifs, et d’aider les équipes à créer de meilleurs produits plus vite avec de nouveaux produits comme PostHog Code
-
Analyse des session replays
- PostHog AI peut déjà détecter des problèmes dans les replays, mais le coût est trop élevé pour une montée en charge à grande échelle
- Pour exploiter pleinement les replays à grande échelle, comme lorsqu’on diagnostique les problèmes d’un utilisateur individuel, il faut un modèle entraîné sur les données sous-jacentes qui composent ces replays
-
Tests utilisateurs synthétiques
- Les tests utilisateurs synthétiques consistent à exploiter la connaissance du comportement utilisateur pour repérer, avant la mise en production, les points où les utilisateurs risquent d’être perdus ou les parcours susceptibles de casser
- À mesure que les modèles de code s’améliorent, les tâches de test et de revue augmentent fortement, et PostHog veut automatiser ce travail afin que les utilisateurs puissent se concentrer sur le produit lui-même
-
Prédiction du comportement utilisateur
- Si la prédiction du comportement utilisateur s’améliore, il devient possible de proposer des changements qui augmentent les taux de conversion et réduisent l’insatisfaction, y compris sur des fonctionnalités déjà déployées
- Si l’automatisation devient possible, le temps d’analyse manuelle diminue, ainsi que les tokens consommés dans le processus
- Ces idées restent encore expérimentales, et il faudra itérer pour trouver comment entraîner efficacement les modèles et quelles données sont réellement utiles
- PostHog s’appuie sur le fait que l’IA a déjà produit de bons résultats lorsqu’elle rendait les produits plus simples ou plus puissants
Fonctionnement et principes d’utilisation des données
- Ce plan vise à renforcer les fonctionnalités existantes et à fournir des capacités qui améliorent les produits de façon plus proactive
- Là où de nombreux outils se concentrent sur la production du meilleur code possible, PostHog veut se concentrer sur l’amélioration du produit de l’utilisateur lui-même
- C’est pour cela que PostHog Code est présenté comme un éditeur de produit
- La principale préoccupation est l’utilisation des données présentes dans PostHog pour l’entraînement des modèles, et PostHog veut l’annoncer ouvertement plutôt que de le dissimuler dans une mise à jour des conditions d’utilisation
-
Mode d’application par défaut
- Les utilisateurs d’instances cloud EU sont exclus par défaut
- Les utilisateurs couverts par des contrats interdisant l’entraînement, comme un BAA, un MSA ou un accord similaire, sont eux aussi exclus par défaut
- Tous les autres utilisateurs d’instances cloud US sont inclus par défaut
-
Traitement des données et limites
- Toutes les données seront anonymisées avant d’être utilisées pour l’entraînement
- Seules les données déjà présentes dans l’instance PostHog de l’utilisateur seront utilisées
- L’entraînement des modèles sera effectué directement par PostHog
- Les données utilisateur ne seront ni vendues ni envoyées à des fournisseurs de modèles tiers
-
Désinscription
- Les utilisateurs peuvent se désinscrire à tout moment depuis les paramètres d’organisation PostHog
- La modification des paramètres d’organisation nécessite des droits d’administrateur
- L’entraînement ne commencera pas avant le 29 juin, ce qui laisse aux utilisateurs le temps de décider
Plan de communication
- PostHog prévoit d’envoyer à tous ses clients un e-mail dont l’objet exposera clairement l’objectif
- Pour les utilisateurs qui ne lisent pas leurs e-mails, tous recevront aussi une notification dans l’application
- L’annonce sera également faite publiquement
- L’objectif est d’améliorer les produits PostHog pour les clients, et non d’exposer ou de vendre des modèles entraînés sur les données des utilisateurs, ni de monétiser ces données
Pourquoi un opt-out plutôt qu’un opt-in
- PostHog a choisi une inclusion par défaut avec opt-out plutôt qu’un opt-in par défaut, car autrement il ne serait pas possible de réunir suffisamment de données pour entraîner des modèles réellement utiles
- En choisissant l’opt-out, les utilisateurs ne pourront pas utiliser les nouvelles fonctionnalités construites à partir de ces modèles
- Les utilisateurs exclus par défaut, comme ceux sur des instances cloud EU, pourront s’inscrire manuellement si leur contrat juridique avec PostHog ne l’interdit pas
- PostHog a choisi d’annoncer cela à l’avance au lieu d’un déploiement silencieux
- PostHog recrute également un chercheur IA pour travailler sur ce projet
1 commentaires
Avis sur Hacker News
Le « opt-in par défaut » est une contradiction. Si c’est le réglage par défaut, alors je n’ai pas donné mon consentement, c’est simplement activé par défaut
L’opt-out signifie qu’on est inclus par défaut et qu’on peut choisir de se retirer, mais de nos jours les termes sont utilisés à l’envers, au point qu’il faut ajouter une explication
J’ai déjà vu un billet sur une télémétrie en véritable opt-in, et malgré ça, le commentaire le plus voté l’attaquait en croyant qu’il s’agissait d’un « inclus par défaut ». J’ai l’impression que ce terme en vient presque à vouloir dire l’inverse
PostHog était un système qu’on configurait une fois, qu’on vérifiait de temps en temps, et qui apportait un peu de valeur, tout en restant globalement inoffensif si on le laissait tranquille
Mais c’est désormais encore un outil de plus dont il faut se méfier activement, et si les réglages par défaut évoluent dans une direction insupportable, il devient plus simple de le retirer du système et de passer à autre chose
J’ai perdu le compte du nombre de fois où j’ai vu, ces vingt dernières années, des entreprises qui réussissent se transformer en grandissant. Avec la vague IA, PostHog s’y est aussi lancé à fond et semble même explorer des choses comme des outils no-code
Supabase aussi était formidable, mais donne désormais l’impression de sombrer dans l’abîme de l’IA. Peut-être que le seul à ne pas changer, c’est moi, et que c’est moi le problème, et qu’il faut accepter les nouveaux seigneurs de l’IA et tout passer à l’IA
La plupart des entreprises auraient caché ce changement dans une mise à jour ennuyeuse des CGU, mais eux disent en gros : nous valorisons la transparence, donc voici ce qu’il faut savoir sous la forme d’une liste numérotée agréable pour Internet
Les utilisateurs d’instances cloud de l’UE sont exclus par défaut, ainsi que ceux qui ont un contrat interdisant l’entraînement
Tous les autres utilisateurs d’instances cloud américaines sont inclus par défaut
Ils disent anonymiser toutes les données avant l’entraînement, n’utiliser que les données déjà présentes dans l’instance PostHog, et entraîner eux-mêmes le modèle sans vendre ni envoyer les données à un fournisseur de modèles tiers
On peut se retirer à tout moment dans les paramètres de l’organisation, il faut des droits d’administrateur, et l’entraînement ne commencera pas avant le 29 juin, donc il y a largement le temps de décider
Dans ce cas, ce week-end, je vais moi aussi considérer que vous avez « choisi de faire du bénévolat » pour reconstruire ma terrasse. Pas d’inquiétude, j’ai fait la démarche à votre place
Ils auraient mieux fait de proposer une réduction aux gens qui acceptent
Il existe déjà des acteurs bien meilleurs sur ce créneau, et je préférerais brancher ce genre d’outil à PostHog pour l’analytics
Il faut aussi se demander si les utilisateurs finaux de l’UE sont inclus dans ce « tous les autres utilisateurs d’instances cloud américaines sont inclus par défaut ». Comme les données personnelles sont obtenues directement auprès de la personne concernée, les obligations d’information de l’article 13 du RGPD s’appliquent
Une omission de l’article 13 ne peut pas être corrigée rétroactivement plus tard. Il faut pouvoir démontrer que tous les clients ont reçu une information au titre de l’article 13 suffisamment large pour couvrir ce traitement. Et cela relèvera presque certainement du champ du 3(2)(b)
Voilà un excellent rappel qu’il faudrait que je fabrique moi-même mon outil d’analytics et que je l’auto-héberge. PostHog vient de perdre un client
Il aurait pourtant été facile d’envoyer un e-mail à chaque client pour lui demander s’il le souhaitait. Partir de telles hypothèses montre une absence totale de sens produit vis-à-vis de ses propres clients, mais aussi des clients de ses clients. Salut
Le fait que mes données servent à l’entraînement d’une IA me dérange, mais au fond la vraie question est de savoir où vont les données et si j’en suis informé et conscient. Et ici, PostHog apporte des réponses plutôt correctes à ces questions
Cela fait des mois que j’hésitais à migrer, mais les nouveaux produits IA et l’interface bizarre me dérangeaient déjà en continu. Là, c’est le dernier clou dans le cercueil
À mes yeux, l’opt-in est un modèle économique épouvantable
Je me souviens de l’époque où des gens applaudissaient la refonte web « OS ». Quand j’essayais de trouver le session replay pour déboguer, c’était l’une des complications UX les plus déroutantes et inutiles que j’aie vues. Ils ont fini par rajouter une navigation en haut à droite ensuite
Le « opt-in par défaut », ce n’est pas simplement de l’opt-out au final ?
Cela devient maintenant assez clair, mais il y a quelque chose à dire sur ces entreprises à l’ambiance fantaisie façon SF
La refonte OS, les « documents juridiques sexy », les e-mails aux titres bizarres, ou la boutique de goodies qui vend des figurines d’action du CEO
Cela peut être un atout quand il s’agit d’augmenter l’adoption par des initiatives favorables aux utilisateurs. Mais quand il s’agit de décisions visant la croissance du chiffre d’affaires et allant à l’encontre des utilisateurs, cela ajoute l’insulte à l’injure
Je ne veux pas lancer un grand discours du genre la tech ne devrait pas être amusante, mais quand le message ne colle pas avec les décisions de la direction, cela devient très problématique
Mais les bonnes choses ont une fin, surtout quand il s’agit d’une entreprise. Depuis deux ans, ils sont partis dans une direction complètement étrange, et l’IA a tout empiré
Je vais sans doute devoir replonger dans les projets open source
Leur logique, c’est : « pourquoi de l’opt-out plutôt que de l’opt-in ? Tout simplement parce qu’autrement nous n’aurions pas assez de données pour entraîner un modèle réellement utile »
Si les gens ne veulent pas explicitement consentir à donner leurs données à un énième pseudo-service IA, c’est peut-être qu’ils n’en veulent pas, c’est étrange comme idée
Si la seule façon d’obtenir ces données consiste à « supposer qu’on peut les prendre jusqu’à ce qu’on nous dise d’arrêter », on peut se demander ce que cela signifie. Un mystère insoluble, sans doute
Cela devrait servir de leçon en matière de mauvaise communication. Le fait de ne pas préciser clairement ce qui est entraîné est une grosse erreur
Cette annonce révèle parfaitement les limites de la philosophie de marque outrageusement tape-à-l’œil de PostHog
Chaque jour, je suis un peu plus reconnaissant envers la législation européenne. Pour l’instant, je n’ai rien d’autre à dire
Le droit de l’UE empêche les tactiques d’extraction de données et de verrouillage de plateforme que les Big Tech ont déjà utilisées pour devenir monopolistiques
Mais les grandes plateformes n’ont pas à renoncer aux avantages qu’elles ont déjà accumulés, ni à « rembourser » des pratiques qui sont désormais restreintes ou considérées comme illégales. Elles peuvent donc continuer à extraire discrètement de la rente depuis une position encore mieux établie, tandis que tous les autres se voient privés de l’échelle qu’elles ont elles-mêmes utilisée pour grimper