La data science est-elle devenue une pseudo-science ?

(reddit.com)

10 points par GN⁺ 2025-07-17 | 2 commentaires | Partager sur WhatsApp

Synthèse d’une discussion et des réponses publiées sur le subreddit /r/DataScience
L’auteur exprime son scepticisme face à une réalité où la data science est mise en œuvre sans validation ni évaluation, uniquement sous l’étiquette de « IA générative »
En pratique, il ne s’agissait que d’un simple calcul de z-score à partir de code généré par ChatGPT, et le projet a avancé jusqu’à la veille du déploiement sans aucune évaluation des performances du modèle
Dans la communauté, plusieurs critiques reviennent : la culture d’entreprise du « si ça marche, on déploie », le manque de validation, l’évitement des responsabilités et le sacrifice de l’éthique scientifique
De nombreux praticiens disent rencontrer des problèmes similaires et expriment de fortes inquiétudes face à une dérive qui rabaisse la discipline au rang de « pseudo-science »
D’autres estiment toutefois qu’il faut aussi reconnaître la valeur pratique des expérimentations rapides et des solutions simples, en appelant à une vision plus équilibrée

Data Science Has Become a Pseudo-Science

Après un master et un doctorat en Europe, l’auteur a travaillé pendant 10 ans en data science, entre industrie et milieu académique
Depuis deux ans, il observe une hausse des situations où des résultats sont présentés sans la moindre validation, simplement parce qu’ils portent l’étiquette « IA générative »
Exemple : dans un projet de détection d’anomalies sur séries temporelles, l’équipe s’est contentée de calculer le z-score d’un écart à la moyenne avec du code généré par ChatGPT, puis a discuté du déploiement sans aucun indicateur de performance
Cette manière de faire ressemble à une pseudo-science qui interroge une boîte noire et suit sa réponse sans réflexion scientifique, au point que poser des questions devient presque tabou
L’auteur envisage même un retour vers le monde académique et publie ce message pour demander si ses collègues vivent eux aussi ce type de situation

La philosophie du « on déploie tant que ça marche » est omniprésente (u/Illustrious-Pound266)
Il existe aussi des startups qui ont échoué après avoir misé sur l’IA sans validation ni feuille de route (u/gothicserp3nt)
Les biais ou discriminations non intentionnels ne sont pas correctement examinés (u/tehMarzipanEmperor)
Dans la plupart des entreprises, le RAG ou l’IA sont survendus, avec une logique de démonstration plus que de précision (u/castleking, u/flowanvindir)
L’ambiance du terrain relève d’un « performance theater » (u/Ty4Readin, u/faulerauslaender)
Pour produire des résultats, les déploiements précipités, les rapports tape-à-l’œil et l’adoption d’IA sans mesure sérieuse se banalisent (u/glittering_tiger8996, u/Emergency-Job4136)
Beaucoup estiment que ce problème existait déjà auparavant et que la GenAI ne fait que le rendre plus visible (u/RoomyRoots, u/303uru, u/TARehman)
La faible explicabilité et la confiance limitée sont acceptées parce que la vitesse prime
L’obligation de rendre des comptes dans les décisions d’entreprise est en train de disparaître (u/empathic_psychopath8, u/Jollyhrothgar)

Si une approche simple résout le problème, il faut aussi savoir lui reconnaître une utilité pratique (u/AnarkittenSurprise)
Beaucoup de commentaires rappellent que la DS a toujours comporté une part non scientifique, voire qu’elle n’a parfois eu de « science » que le nom (u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
Plus que l’usage des outils d’IA lui-même, c’est la capacité à les utiliser de façon responsable qui compte (u/Dror_sim, u/ResearchMindless6419)
Critiques du type : « des données, mais pas de logique », ou encore un usage de paquets sans réelle maîtrise des statistiques (u/gyp_casino, u/tmotytmoty)
Beaucoup soulignent que l’essentiel reste la connaissance du domaine et le raisonnement mathématique, l’IA et le code n’étant que des outils (u/MightBeRong, u/Dror_sim)

Les cursus MSDS sont utiles sur le plan académique, mais souvent peu liés à l’emploi réel (u/throwaway_ghost_122)
Le niveau de formation baisse, et la demande de diplômes pour le seul titre contribue à une dégradation de la qualité globale sur le terrain (u/Yam_Cheap)
Le monde académique lui-même n’est pas épargné : on y voit aussi davantage d’articles peu validés et d’analyses superficielles (u/joule_3am, u/Mishtle)

L’assurance et la santé restent soumises à des réglementations strictes, qui imposent encore des examens de validité et des revues juridiques (u/Mishtle, u/mikka1)
À l’inverse, les startups, la vente, le jeu vidéo et une partie de l’industrie manufacturière privilégient la vitesse et l’effet de vitrine (u/Vercingetorex89, u/Brackens_World)
Même dans le secteur public, l’adoption de ChatGPT est en train d’éroder les anciens cadres de validation (u/TheFluffyEngineer, u/joule_3am)

De nombreux professionnels disent envisager de quitter le métier ou de revenir vers le milieu académique (u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
Certains y voient aussi une occasion pour les personnes vraiment compétentes de se démarquer davantage (u/OddEditor2467, u/sideshowbob01)

« Aujourd’hui, il suffit d’importer pandas pour devenir data scientist » (u/vesnikos)
Une réalité où faire plaisir au supérieur compte plus que la pensée probabiliste et la validation scientifique (u/tmotytmoty, u/WignerVille)
Beaucoup tiennent un discours lucide : hier comme aujourd’hui, il a toujours été difficile de parler de “science” dans le contexte de l’entreprise (u/TaiChuanDoAddct, u/LighterningZ)

Ce billet et ses commentaires montrent bien qu’une partie récente de la pratique de la data science est davantage guidée par la livraison rapide et le marketing autour de l’IA que par la rigueur scientifique et la validation
Les inquiétudes sont fortes quant au fait que le label « IA générative » bloque les critiques rationnelles et qu’un code non validé mène presque directement au déploiement
Le monde académique comme l’industrie sont loin d’être parfaits, mais le débat devrait se poursuivre, car pour que la data science mérite vraiment le nom de “science”, elle a besoin d’esprit critique, de formation et d’une remise en question des pratiques professionnelles au sein même de la communauté

ytuniverse 2025-07-17

xguru 2025-07-17

Merci. J’ai effectué la correction.