10 points par GN⁺ 2025-07-17 | 2 commentaires | Partager sur WhatsApp
  • Synthèse d’une discussion et des réponses publiées sur le subreddit /r/DataScience
  • L’auteur exprime son scepticisme face à une réalité où la data science est mise en œuvre sans validation ni évaluation, uniquement sous l’étiquette de « IA générative »
  • En pratique, il ne s’agissait que d’un simple calcul de z-score à partir de code généré par ChatGPT, et le projet a avancé jusqu’à la veille du déploiement sans aucune évaluation des performances du modèle
  • Dans la communauté, plusieurs critiques reviennent : la culture d’entreprise du « si ça marche, on déploie », le manque de validation, l’évitement des responsabilités et le sacrifice de l’éthique scientifique
  • De nombreux praticiens disent rencontrer des problèmes similaires et expriment de fortes inquiétudes face à une dérive qui rabaisse la discipline au rang de « pseudo-science »
  • D’autres estiment toutefois qu’il faut aussi reconnaître la valeur pratique des expérimentations rapides et des solutions simples, en appelant à une vision plus équilibrée

Data Science Has Become a Pseudo-Science

  • Après un master et un doctorat en Europe, l’auteur a travaillé pendant 10 ans en data science, entre industrie et milieu académique
  • Depuis deux ans, il observe une hausse des situations où des résultats sont présentés sans la moindre validation, simplement parce qu’ils portent l’étiquette « IA générative »
  • Exemple : dans un projet de détection d’anomalies sur séries temporelles, l’équipe s’est contentée de calculer le z-score d’un écart à la moyenne avec du code généré par ChatGPT, puis a discuté du déploiement sans aucun indicateur de performance
  • Cette manière de faire ressemble à une pseudo-science qui interroge une boîte noire et suit sa réponse sans réflexion scientifique, au point que poser des questions devient presque tabou
  • L’auteur envisage même un retour vers le monde académique et publie ce message pour demander si ses collègues vivent eux aussi ce type de situation

Résumé des commentaires

Principaux avis convergents

  • La philosophie du « on déploie tant que ça marche » est omniprésente (u/Illustrious-Pound266)
  • Il existe aussi des startups qui ont échoué après avoir misé sur l’IA sans validation ni feuille de route (u/gothicserp3nt)
  • Les biais ou discriminations non intentionnels ne sont pas correctement examinés (u/tehMarzipanEmperor)
  • Dans la plupart des entreprises, le RAG ou l’IA sont survendus, avec une logique de démonstration plus que de précision (u/castleking, u/flowanvindir)
  • L’ambiance du terrain relève d’un « performance theater » (u/Ty4Readin, u/faulerauslaender)
  • Pour produire des résultats, les déploiements précipités, les rapports tape-à-l’œil et l’adoption d’IA sans mesure sérieuse se banalisent (u/glittering_tiger8996, u/Emergency-Job4136)
  • Beaucoup estiment que ce problème existait déjà auparavant et que la GenAI ne fait que le rendre plus visible (u/RoomyRoots, u/303uru, u/TARehman)
  • La faible explicabilité et la confiance limitée sont acceptées parce que la vitesse prime
  • L’obligation de rendre des comptes dans les décisions d’entreprise est en train de disparaître (u/empathic_psychopath8, u/Jollyhrothgar)

Autres points de vue

  • Si une approche simple résout le problème, il faut aussi savoir lui reconnaître une utilité pratique (u/AnarkittenSurprise)
  • Beaucoup de commentaires rappellent que la DS a toujours comporté une part non scientifique, voire qu’elle n’a parfois eu de « science » que le nom (u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
  • Plus que l’usage des outils d’IA lui-même, c’est la capacité à les utiliser de façon responsable qui compte (u/Dror_sim, u/ResearchMindless6419)
  • Critiques du type : « des données, mais pas de logique », ou encore un usage de paquets sans réelle maîtrise des statistiques (u/gyp_casino, u/tmotytmoty)
  • Beaucoup soulignent que l’essentiel reste la connaissance du domaine et le raisonnement mathématique, l’IA et le code n’étant que des outils (u/MightBeRong, u/Dror_sim)

Problèmes institutionnels et de formation

  • Les cursus MSDS sont utiles sur le plan académique, mais souvent peu liés à l’emploi réel (u/throwaway_ghost_122)
  • Le niveau de formation baisse, et la demande de diplômes pour le seul titre contribue à une dégradation de la qualité globale sur le terrain (u/Yam_Cheap)
  • Le monde académique lui-même n’est pas épargné : on y voit aussi davantage d’articles peu validés et d’analyses superficielles (u/joule_3am, u/Mishtle)

Retours d’expérience selon les secteurs

  • L’assurance et la santé restent soumises à des réglementations strictes, qui imposent encore des examens de validité et des revues juridiques (u/Mishtle, u/mikka1)
  • À l’inverse, les startups, la vente, le jeu vidéo et une partie de l’industrie manufacturière privilégient la vitesse et l’effet de vitrine (u/Vercingetorex89, u/Brackens_World)
  • Même dans le secteur public, l’adoption de ChatGPT est en train d’éroder les anciens cadres de validation (u/TheFluffyEngineer, u/joule_3am)

Doute et envie de partir

  • De nombreux professionnels disent envisager de quitter le métier ou de revenir vers le milieu académique (u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
  • Certains y voient aussi une occasion pour les personnes vraiment compétentes de se démarquer davantage (u/OddEditor2467, u/sideshowbob01)

Satire et résignation

  • « Aujourd’hui, il suffit d’importer pandas pour devenir data scientist » (u/vesnikos)
  • Une réalité où faire plaisir au supérieur compte plus que la pensée probabiliste et la validation scientifique (u/tmotytmoty, u/WignerVille)
  • Beaucoup tiennent un discours lucide : hier comme aujourd’hui, il a toujours été difficile de parler de “science” dans le contexte de l’entreprise (u/TaiChuanDoAddct, u/LighterningZ)

Conclusion

  • Ce billet et ses commentaires montrent bien qu’une partie récente de la pratique de la data science est davantage guidée par la livraison rapide et le marketing autour de l’IA que par la rigueur scientifique et la validation
  • Les inquiétudes sont fortes quant au fait que le label « IA générative » bloque les critiques rationnelles et qu’un code non validé mène presque directement au déploiement
  • Le monde académique comme l’industrie sont loin d’être parfaits, mais le débat devrait se poursuivre, car pour que la data science mérite vraiment le nom de “science”, elle a besoin d’esprit critique, de formation et d’une remise en question des pratiques professionnelles au sein même de la communauté

2 commentaires

 
ytuniverse 2025-07-17

Le lien ne fonctionne pas.
https://reddit.com/r/datascience/…

 
xguru 2025-07-17

Merci. J’ai effectué la correction.