Dix ans de leçons de la data science au service de l’intérêt général

xguru · 2025-01-23T09:46:01+09:00

Lorsque DrivenData a été lancé en 2014, l’usage de la data science au service du bien social en était encore à ses débuts À l’époque, les techniques de data science étaient principalement utilisées par des entreprises comme Netflix et Amazon pour le marketing et les recommandations de contenu, et il existait très peu de cas d’usage pour les associations, ONG, entreprises sociales et services publics Objectifs initiaux et contexte Les talents en data science étaient très rares et coûteux à recruter, et cet écart était encore plus marqué dans les organisations qui s’attaquent aux problèmes sociaux Le projet est né au Harvard Innovation Lab avec l’ambition de combler le déficit de compétences en data science appliquée aux enjeux sociaux L’objectif était de mobiliser des techniques de pointe en data science et en crowdsourcing pour résoudre de grands défis sociaux à l’échelle mondiale Deux citations qui reflètent la vision de l’époque "Le principal défi — et la principale opportunité — de l’ère des réseaux est de rendre le big data utile à la prise de décision humanitaire" – UN OCHA "Les meilleurs cerveaux de ma génération consacrent leur énergie à faire cliquer les gens sur des publicités… c’est vraiment déprimant." – Jeff Hammerbacher, ancien responsable data chez Facebook Les changements survenus au cours des dix dernières années De nombreuses initiatives ont vu le jour pour appliquer la data science et l’IA à l’impact social Plus de 150 projets menés avec environ 80 partenaires, dont la Banque mondiale, la Fondation Bill & Melinda Gates et la NASA Plus de 75 compétitions de data science organisées, avec plus de 4,7 millions de dollars de récompenses distribuées Depuis dix ans, DrivenData poursuit le bien social par la data science et a accumulé des bonnes pratiques ainsi que des enseignements Le moment est venu d’examiner ensemble ce qui a fonctionné, ce qui reste difficile et quelles orientations peuvent conduire à un avenir meilleur Aperçu des 10 principaux enseignements Là où la data science a bien fonctionné La data science a un impact concret sur les problèmes sociaux De bonnes données mènent à de bonnes solutions Les efforts réussissent le mieux lorsqu’ils se concentrent sur des problèmes concrets et des besoins humains L’efficacité est maximale lorsque l’on combine les forces des machines et des humains Une vision pluridisciplinaire et de la flexibilité donnent un avantage aux organisations Ce qui reste difficile La data science est une activité itérative de R&D, et le secteur social y investit insuffisamment Il est difficile de recruter des data scientists et de leur offrir un bon accompagnement L’open source manque de solutions conçues pour les non-développeurs Le battage médiatique autour des technologies attire une attention excessive La data science et l’IA ont d’importantes implications éthiques, mais les outils et pratiques favorisant un usage éthique restent en retard L’époque est en train de changer Au cours des dix dernières années, la vitesse de progression des technologies de la donnée et de l’IA a été remarquablement rapide. Les principales innovations qui l’ont rendue possible sont les suivantes : Calcul et stockage L’essor du cloud computing et du stockage a rendu les ressources nécessaires plus accessibles et moins coûteuses Les coûts initiaux ont baissé, depuis les expérimentations sur GPU jusqu’au déploiement de clusters évolutifs pour exécuter des modèles en temps réel Deep learning Le deep learning a profondément transformé la data science Le nombre d’architectures efficaces a explosé, parmi lesquelles les GAN, les transformers, les autoencodeurs variationnels et les réseaux neuronaux sur graphes L’écosystème centré sur PyTorch et TensorFlow s’est développé, et les outils, bibliothèques et modèles préentraînés ont accéléré le rythme des progrès Démocratisation de l’accès aux technologies La data science a été qualifiée de "métier le plus sexy du XXIe siècle", et les possibilités d’apprentissage ont explosé Les MOOCs, bootcamps et compétitions de data ont permis à davantage de personnes d’acquérir les bases de la data science IA générative L’arrivée des grands modèles de langage (LLM) a transformé les façons de travailler Ils réduisent le temps nécessaire pour des tâches complexes et ouvrent de nouvelles possibilités Il reste à déterminer si l’IA générative est un effet de mode passager ou une innovation de fond, mais il est clair que l’IA continuera d’être utilisée Malgré ces évolutions technologiques, plusieurs schémas communs apparaissent, au-delà des technologies elles-mêmes. Cet article s’intéresse à ce qui a bien fonctionné au cours de la dernière décennie et à ce qui demeure un défi. Là où la data science a bien fonctionné La data science a un impact concret sur les problèmes sociaux Il y a dix ans Le potentiel des outils de data science était évident, mais leurs applications à l’impact social restaient limitées À l’époque, les discussions se limitaient à quelques cas et portaient surtout sur des idées de possibilités futures Les avancées actuelles Les modèles de machine learning influencent désormais la prise de décision dans des domaines variés comme la santé ou la gestion des ressources naturelles La data science aide à gérer des problèmes comme les proliférations d’algues nocives, la pêche non durable ou les catastrophes naturelles liées au changement climatique, tout en contribuant à l’inclusion financière et à la préservation de la faune sauvage Dans le secteur public, la visualisation de données est devenue un support majeur pour la couverture médiatique et la diffusion des messages Exemples : campagnes de prévention contre la propagation du COVID-19, tableau de bord de l’OMS Exemple concret d’usage de l’imagerie satellite Au Yémen, l’imagerie satellite a été utilisée pour analyser les types de cultures et les risques climatiques, afin d’alimenter le programme de sécurité alimentaire de la Banque mondiale Contribution de l’IA aux avancées scientifiques AlphaFold : modèle de prédiction de la structure des protéines, capable d’accomplir en quelques heures un travail qui prenait auparavant plusieurs années, tout en mettant gratuitement à disposition des scientifiques la structure de toutes les protéines Modèles transformers : utilisés pour détecter les discours haineux dans des mèmes multimodaux Technologies d’identification d’individus : amélioration du suivi des espèces menacées, comme les baleines, puis extension à diverses autres espèces Évolution dans le secteur social Au milieu des années 2010, l’usage des données faisait surtout l’objet de discussions autour de la "mesure d’impact" Aujourd’hui, l’accent est mis sur la manière dont les outils de data science transforment le fonctionnement des organisations et leur donnent de nouvelles capacités Le débat porte désormais sur ce que la data science et l’IA peuvent "faire", au-delà de ce qu’elles permettent de mesurer De bonnes données produisent de bonnes solutions, et l’accessibilité des données s’est nettement améliorée Le rôle croissant des données dans le quotidien Chaque activité — achats, recours aux services d’urgence, visites à l’hôpital — génère des données Les appareils électroménagers, objets connectés, véhicules, téléphones mobiles et applications collectent des données d’usage Les progrès des capteurs et des caméras ont accru l’utilisation des données d’image et de vidéo Les deux étapes de l’usage des données Enregistrer les données sous forme numérique et les rendre observables Évoluer vers une étape où l’on apprend à partir des données et où l’on découvre des motifs L’IA et le machine learning reposent sur les données Des données plus nombreuses et de meilleure qualité favorisent l’exploration de nouveaux motifs et le développement d’algorithmes Exemples : détection du cancer, algorithme de recommandation de Spotify, données d’entraînement de ChatGPT La hiérarchie de la data science de Monica Rogati Les fonctions avancées de la data science nécessitent une base de données solide Des investissements avisés dans l’infrastructure de données constituent le socle des capacités de niveau supérieur L’usage des données au service de la valeur sociale Les gouvernements et les grandes institutions ont élargi l’ouverture des données publiques Types de données utilisés par DrivenData : Données météorologiques, de transport et OpenStreetMap : planification du trafic aérien, soutien à la résilience face aux catastrophes Imagerie satellite : cartographie de l’étendue des inondations, estimation de la biomasse forestière Données de transactions mobiles : analyse des comportements et attitudes financières Données d’enquête : compréhension à grande échelle des opinions et comportements Enregistrements audio : classification du niveau de littératie des enfants Images haute résolution : prédiction du risque de récidive du mélanome Données textuelles : analyse automatique des concepts cliniques dans les notes de médecins L’importance de l’accessibilité et de l’utilisabilité des données Il ne suffit pas que les données soient simplement rendues publiques Lorsque des formats lisibles par machine, une documentation claire et des cas d’usage sont fournis, la participation et l’usage augmentent De nombreuses organisations investissent dans la collecte de données, mais négligent les investissements supplémentaires nécessaires pour les exploiter La documentation des données et les cas d’application jouent un rôle aussi important que les prix des compétitions Les efforts réussissent le mieux lorsqu’ils se concentrent sur des problèmes concrets et des besoins humains Les pièges d’une approche centrée sur la technologie Les organisations à impact social cherchent souvent à suivre les dernières tendances technologiques Le « big data » et les outils d’IA peuvent sembler être des solutions universelles, mais ils ne sont réellement efficaces que lorsqu’ils sont mis au service de la résolution de problèmes concrets Les clés d’une conception de projet réussie Définir des utilisateurs et un problème précis, puis fixer des objectifs mesurables permettant d’y répondre Utiliser des outils de conception centrée sur l’humain pour comprendre ce que les personnes « veulent » et développer des solutions qui vont au-delà de ce qui est techniquement « possible » Exemples concrets Détection des proliférations d’algues (CyFi) En collaboration avec la NASA, détection de proliférations nocives de cyanobactéries à partir d’images satellite Aide les gestionnaires de l’eau à évaluer avec précision l’état des proliférations et à allouer les ressources plus efficacement Identification de la faune sauvage (Zamba) Développement, avec l’institut Max Planck, d’un outil d’identification automatique des animaux à partir de données de pièges photographiques Amélioration de l’ergonomie avec Zamba Cloud, dont l’interface a été optimisée à partir des retours des chercheurs L’importance du point de vue des utilisateurs Définition du problème Comprendre clairement le problème et les besoins grâce aux entretiens utilisateurs et à la collecte de retours Intégrer la perspective humaine qui se trouve derrière les points de données Mise à disposition de la solution Des tests UI/UX et une communication claire sont nécessaires pour que les utilisateurs puissent exploiter efficacement la solution et en comprendre les bénéfices Les aider à saisir intuitivement les points forts et les limites du modèle, et expliquer comment l’utiliser à travers des cas concrets Conclusion Le rôle des data scientists est de faire le lien entre capacités techniques et besoins sociaux Les projets les plus efficaces ne se laissent pas absorber par les dernières technologies, mais se concentrent sur la résolution de problèmes et des résultats concrets Les solutions sont les plus efficaces lorsqu’elles combinent les forces des machines et des humains Les risques des attentes exagérées autour de l’IA Les modèles de data science et l’IA ne sont pas tout-puissants, et chaque modèle a des limites dans une certaine mesure Le simple fait d’introduire de l’IA ne garantit pas le succès Les meilleures solutions viennent de systèmes qui combinent les forces des machines et des humains Le cas de l’outil Zamba Zamba prédit de manière probabiliste la présence ou non d’animaux dans des vidéos de pièges photographiques Le modèle peut parfois se tromper, mais les probabilités qu’il fournit permettent d’élaborer une stratégie de revue efficace Exemple : commencer par examiner les vidéos ayant le plus de chances de contenir des chimpanzés, ou fixer un seuil de probabilité pour considérer une vidéo comme vide Résultat : il est possible d’identifier 85 % des vidéos contenant des chimpanzés en n’examinant que moins de 5 % de l’ensemble des vidéos Les résultats de la collaboration homme-machine Exemple du dépistage du cancer du sein par IA : la collaboration entre radiologues et IA atteint une précision supérieure à celle obtenue par chacun séparément Accent mis sur l’interprétabilité et l’explicabilité de l’IA : fournir aux humains les informations nécessaires pour évaluer les résultats de l’IA et les intégrer dans leur contexte Exemple : dans une compétition d’identification de baleines, le modèle fournissait une visualisation des caractéristiques utilisées pour associer chaque baleine Un schéma similaire dans l’IA générative Le feedback humain est essentiel au développement d’outils utiles comme ChatGPT Les données de retour permettent d’améliorer le modèle pour qu’il apprenne des cas de plus en plus difficiles Évaluer le coût des erreurs et les pistes d’amélioration La conception du système peut être améliorée à l’aide de deux questions : « Si vous aviez un modèle parfait, comment l’utiliseriez-vous ? » « Si ce modèle se trompait parfois, comment réagiriez-vous ? » Cela permet d’identifier la tolérance aux erreurs du système et les points où une revue humaine est nécessaire Les enseignements pour les organisations Cas du gouvernement néerlandais en 2021 : 26 000 foyers ont été accusés à tort de fraude aux aides sociales à cause d’un algorithme inadapté S’appuyer sur un algorithme sans revue humaine appropriée entraîne un coût social élevé À l’inverse, combiner les forces des algorithmes et des humains permet de maximiser efficacité et impact Une perspective interdisciplinaire et la flexibilité aident les organisations Une expérience de projets couvrant de nombreux domaines Le travail sur des sujets variés comme l’inclusion financière, l’action climatique ou la santé a confirmé les avantages d’une perspective interdisciplinaire Il est possible d’étendre à d’autres secteurs des schémas de machine learning observés dans un contexte donné Exemple : applications croisées entre un modèle de computer vision pour la préservation des forêts de kelp et un modèle de détection de lésions sur biopsies cervicales La souplesse de l’approche Des problèmes très différents, comme la détection précoce de ravageurs agricoles et l’extraction de compétences dans des CV, reposent tous deux sur la reconnaissance d’entités nommées (NER) Il est possible de réutiliser les enseignements et l’expérience d’approches existantes pour les appliquer à d’autres problèmes à moindre coût Exemple concret Une approche de traitement automatique du langage pour reconnaître, dans des messages WhatsApp, les cultures, ravageurs, maladies et produits chimiques Elle aide les petits exploitants à repérer de nouvelles tendances et à améliorer des conseils fondés sur la science L’équilibre entre expertise et point de vue utilisateur La collaboration avec des experts métier garantit un contexte adapté au problème L’intégration du point de vue utilisateur dans le processus de data science permet de concevoir des solutions pertinentes Identifier le « travail qui mérite d’être fait » La seule expertise technique ne suffit pas ; il faut aussi de l’empathie, de la communication, de la curiosité et de la flexibilité Il faut réfléchir aux domaines où le machine learning peut apporter de la valeur, et comprendre en profondeur à qui s’adresse l’approche et comment elle sera utilisée Répondre à la diversité des besoins des organisations Les besoins varient selon les organisations, de la recherche exploratoire au prototypage puis à la mise en production Coopération avec des partenaires très divers, allant de grandes organisations fournisseuses de données (Candid, NASA, etc.) à des structures qui construisent leur premier système de données Il est important de préserver l’adéquation de la technologie tout en tirant de cette riche expérience une véritable flexibilité Ce qui reste difficile La data science est itérative, et le secteur social investit trop peu en R&D La nature et la valeur de la R&D La recherche et développement est un processus d’apprentissage qui exige investissement en capital, expérimentation, réflexion et acceptation du risque d’échec Des méthodes trop certaines et des approches à court terme ne permettent pas de couvrir l’ampleur des problèmes auxquels le secteur social doit faire face Les investissements de long terme et l’innovation non linéaire produisent les résultats les plus importants Le sous-investissement du secteur social dans la R&D Selon une enquête de la NSF en 2022, 94 % des grandes organisations à but non lucratif ne mènent aucune activité de R&D Alors même que la data science relève largement de la R&D, les investissements dans ce domaine restent insuffisants Le caractère itératif de la data science La data science s’appuie sur des boucles d’apprentissage et de feedback itératives afin d’obtenir des résultats optimaux et d’améliorer l’efficacité des services Utilisation de frameworks qui mettent l’accent sur l’itération, comme le cursus de data science de Harvard et CRISP-DM (processus standard de data mining) L’importance d’une data science centrée sur l’humain Le processus d’apprentissage s’organise autour de la conception de solutions efficaces, combinée à des cadres d’innovation reproductibles La conception centrée sur l’humain renforce le lien entre besoins réels et solutions Les réussites de la R&D dans les entreprises privées Les entreprises privées identifient clairement la valeur de l’usage des données grâce aux processus de R&D Les récentes innovations en IA n’auraient pas été possibles sans des investissements continus en R&D Conclusion Les résultats initiaux des projets de R&D autour des données sont incertains, mais le processus lui-même de création de valeur à partir des données est une méthodologie éprouvée Un investissement continu et de long terme dans la R&D est essentiel pour accélérer l’innovation et relever les défis du secteur social Il est difficile de recruter et d’accompagner des data scientists, et les data scientists qui travaillent seuls sont moins satisfaits Difficultés du point de vue de l’organisation Recrutement Difficile d’identifier et d’évaluer des candidats adaptés lorsqu’il n’y a pas déjà de data scientist en poste Le terme « data scientist » est mal défini, car il recouvre des compétences et des expériences très variées Attraction et rétention des talents La forte demande en data scientists crée un marché de l’emploi très concurrentiel Au-delà de la motivation liée à la résolution de problèmes sociaux, il faut aussi offrir un travail technique intéressant, des salaires compétitifs et des opportunités de développement professionnel Il est encore plus difficile de réunir ces éléments lors des recrutements en phase initiale Management et accompagnement Pour que les data scientists restent productifs, il faut définir clairement le périmètre du problème et fournir orientation, infrastructure et données En l’absence de bagage technique, il est facile de sous-estimer ou de surestimer la difficulté du travail Difficultés du point de vue des développeurs Apprentissage et progression La data science est un domaine qui évolue rapidement, où les possibilités d’apprendre et de progresser au sein de l’équipe sont importantes Dans un environnement où les revues de code, les retours sur les modèles et le partage de la charge de travail sont difficiles, les opportunités de progression sont limitées Manque de direction et de soutien Quand le travail n’est pas correctement soutenu, la satisfaction et la productivité des data scientists diminuent Plaisir au travail Le fait de discuter des problèmes avec ses collègues et de les résoudre ensemble augmente la satisfaction au travail Cela peut aussi être compensé par un réseau externe, mais la collaboration au sein de l’organisation est plus efficace Signes de changement On observe récemment une hausse des organisations du secteur social qui constituent leurs propres équipes data DrivenData intervient comme partenaire pour accompagner le recrutement, l’onboarding et la transition vers le travail des premiers data scientists et ingénieurs Une approche consistant à collaborer avec des équipes externes spécialisées en data science pour fournir des capacités flexibles est avantageuse à la fois pour les organisations et pour les data scientists Perspectives d’avenir Certaines organisations commencent à réussir la construction d’équipes data, mais la demande en compétences de data science reste élevée Le défi de bâtir une équipe data à partir de zéro devrait persister L’open source ne développe pas suffisamment de solutions pour les non-développeurs Les limites de l’open source Les logiciels open source évoluent souvent efficacement parce que la communauté des développeurs coïncide avec celle des utilisateurs Les contributeurs sont motivés à améliorer les outils qu’ils utilisent eux-mêmes En revanche, cette motivation fonctionne moins pour les outils destinés aux non-développeurs ou aux non-spécialistes Les défis des outils destinés aux non-spécialistes Dans les projets de data science, on développe souvent des méthodes et des outils pour les non-développeurs Même lorsqu’ils sont publiés en open source, si les investissements et le développement ne se poursuivent pas, les projets stagnent ou s’arrêtent Pour évoluer concrètement vers des solutions réellement abouties, ils nécessitent un développement supplémentaire après la phase de prototype ainsi que des tests pilotes réalistes Cas concret : Concept to Clinic En 2017-2018, une application ouverte a été développée pour aider les radiologues à traiter des scanners CT à l’aide de l’IA Pour encourager les contributions, un système structuré d’incitations a été mis en place, avec des points et des récompenses financières pour les contributeurs Sans cette approche, il est probable que le projet n’aurait pas pu être développé Conditions d’un succès open source durable Le simple fait de publier un projet en open source ne garantit pas un impact à long terme Pour passer du prototype à une solution destinée aux utilisateurs finaux, il faut une feuille de route claire et un financement continu Lorsqu’on développe des applications importantes, l’open source n’est qu’une partie du parcours et ne doit pas devenir l’objectif final Le battage médiatique autour des technologies (hype wave) attire une attention excessive Le secteur social et l’innovation technologique Le secteur social a été étroitement lié, au cours des dix dernières années, aux vagues successives de nouvelles innovations technologiques Les organisations, disposant de ressources limitées, sont tentées d’adopter de nouvelles technologies pour gagner en efficacité Elles modifient fréquemment leur stratégie sous la pression de ne pas être laissées pour compte si elles ne suivent pas les dernières tendances technologiques Les problèmes liés à l’adoption de technologies surévaluées Il est difficile d’isoler les véritables éléments d’innovation au milieu du battage technologique L’adoption technologique mène souvent à des attentes excessives et à une exécution insuffisante Exemples : Blockchain : malgré des attentes élevées, les bénéfices concrets pour le secteur social ont été minimes Applications mobiles : des coûts inefficaces ont été engagés sous la pression du caractère « indispensable », même lorsqu’elles n’étaient pas réellement nécessaires L’importance des organisations technologiques spécialisées Les organisations composées d’experts techniques, capables de gérer efficacement le battage technologique, obtiennent les meilleurs résultats DrivenData collabore avec DataKind, DSSG Fellowship, Delta Analytics et d’autres structures pour tirer parti de leur expertise technique Mais même ces groupes d’experts ont du mal à capitaliser de manière systématique les leçons tirées des précédentes vagues de battage technologique Le changement nécessaire : un « brise-lames » face au battage technologique Il faut être capable de séparer l’innovation réelle des attentes excessives et d’identifier les avancées essentielles Un leadership technique combinant compréhension des technologies de pointe et connaissance approfondie du secteur social est indispensable Ce leadership et cet écosystème font aujourd’hui défaut, alors qu’ils sont nécessaires pour construire une approche durable et plus mature Une approche stratégique des technologies récentes comme l’IA Le potentiel de l’IA est immense, mais il exige non pas un simple enthousiasme, mais une stratégie prudente et une expertise approfondie Sans fondations solides basées sur les données, il existe un risque de retomber dans un cycle inefficace où le battage technologique se répète Sans investissements de fond et sans planification, il sera difficile pour l’innovation technologique du secteur social de produire de véritables résultats La data science et l’IA ont d’importantes implications éthiques, mais leur adoption rapide dépasse les outils et les pratiques censés les encadrer Expansion de la data science et de l’IA, et importance des enjeux éthiques La data science et le machine learning sont désormais intégrés à des domaines variés comme la santé, la réponse aux catastrophes et les décisions judiciaires Les risques liés à un mauvais usage sont bien plus élevés qu’auparavant La réalité d’une prise en compte éthique insuffisante Les data scientists disposent d’un point de vue unique pour comprendre les implications éthiques des modèles et des pipelines Pourtant, cette perspective n’est souvent pas intégrée au cycle de vie des projets de data science Développement d’une checklist open source pour traiter les arbitrages éthiques Elle est intégrée au workflow de data science afin de permettre la discussion sur les arbitrages éthiques Principes clés : Les décisions éthiques doivent reconnaître les arbitrages les plus importants dans un contexte donné, avec pour objectif d’avancer de manière responsable et de minimiser les dommages Des problèmes éthiques peuvent surgir à toutes les étapes du projet, de la collecte et du stockage des données à l’analyse, la modélisation et le déploiement Les discussions éthiques passent souvent au second plan en raison des délais serrés et des exigences opérationnelles Pour éviter cela, il faut intégrer les questions éthiques aux autres aspects du workflow et y consacrer délibérément du temps Équité algorithmique et atténuation des biais Les modèles entraînés sur des données biaisées reproduisent les inégalités, d’où le développement de techniques pour les identifier et les atténuer Exemple : en collaboration avec Wellcome Trust, création d’un cas d’atténuation des biais intégrant des considérations d’équité dans un modèle de prédiction du stress psychologique Des métriques d’équité quantifiées ont permis d’analyser les biais et de proposer des méthodes d’atténuation L’importance des considérations éthiques à l’ère de l’IA Alors que l’IA se diffuse rapidement, des entreprises démantèlent leurs équipes d’IA responsable pour réduire leurs coûts Dans le secteur social, le devoir de responsabilité envers les bénéficiaires est plus élevé, et le coût d’un échec éthique y est donc plus lourd Sans renforcement des pratiques éthiques, l’adoption de l’IA risque d’engendrer des problèmes encore plus graves Conclusion La mise en place d’outils et de pratiques éthiques pour accompagner l’adoption de l’IA est plus importante que jamais Il faut garantir la confiance et la durabilité dans le secteur social grâce à un usage responsable des technologies Perspectives d’avenir Évolution et opportunités de la data science Au cours des dix dernières années, la data science a impulsé des transformations majeures dans le secteur social, avec à la fois des réussites et des défis La prise de conscience du potentiel des données et de l’IA a progressé, mais de grandes questions restent encore à résoudre : Comment appliquer concrètement les avancées technologiques continues aux problèmes sociaux les plus importants ? Comment garantir que les bénéfices ne se concentrent pas uniquement entre les mains d’un petit nombre de grands groupes ? Comment mettre en œuvre un déploiement technologique responsable au service de la nature et de l’humanité ? L’importance des leçons tirées de l’expérience Les efforts fondés sur les enseignements tirés des expériences passées produisent les résultats les plus significatifs DrivenData est fier de faire partie d’une communauté de partenaires, de clients et de développeurs qui utilisent les données et l’IA au service du bien commun Les contributions sont les bienvenues pour celles et ceux qui s’intéressent à des sujets similaires ou qui ont d’autres idées à partager Des attentes tournées vers l’avenir Si les dix dernières années ont été remarquables, les dix prochaines devraient apporter des transformations encore plus profondes Il reste beaucoup à faire, et encore beaucoup à apprendre Face à ces défis, l’avenir suscite l’espoir d’explorer de nouvelles possibilités et de créer un impact social plus positif

(drivendata.co)

13 points par xguru 2025-01-23 | 1 commentaires | Partager sur WhatsApp

Lorsque DrivenData a été lancé en 2014, l’usage de la data science au service du bien social en était encore à ses débuts
À l’époque, les techniques de data science étaient principalement utilisées par des entreprises comme Netflix et Amazon pour le marketing et les recommandations de contenu, et il existait très peu de cas d’usage pour les associations, ONG, entreprises sociales et services publics
Objectifs initiaux et contexte
- Les talents en data science étaient très rares et coûteux à recruter, et cet écart était encore plus marqué dans les organisations qui s’attaquent aux problèmes sociaux
- Le projet est né au Harvard Innovation Lab avec l’ambition de combler le déficit de compétences en data science appliquée aux enjeux sociaux
- L’objectif était de mobiliser des techniques de pointe en data science et en crowdsourcing pour résoudre de grands défis sociaux à l’échelle mondiale
Deux citations qui reflètent la vision de l’époque
- "Le principal défi — et la principale opportunité — de l’ère des réseaux est de rendre le big data utile à la prise de décision humanitaire" – UN OCHA
- "Les meilleurs cerveaux de ma génération consacrent leur énergie à faire cliquer les gens sur des publicités… c’est vraiment déprimant." – Jeff Hammerbacher, ancien responsable data chez Facebook
Les changements survenus au cours des dix dernières années
- De nombreuses initiatives ont vu le jour pour appliquer la data science et l’IA à l’impact social
- Plus de 150 projets menés avec environ 80 partenaires, dont la Banque mondiale, la Fondation Bill & Melinda Gates et la NASA
- Plus de 75 compétitions de data science organisées, avec plus de 4,7 millions de dollars de récompenses distribuées
Depuis dix ans, DrivenData poursuit le bien social par la data science et a accumulé des bonnes pratiques ainsi que des enseignements
Le moment est venu d’examiner ensemble ce qui a fonctionné, ce qui reste difficile et quelles orientations peuvent conduire à un avenir meilleur

Aperçu des 10 principaux enseignements

Là où la data science a bien fonctionné

La data science a un impact concret sur les problèmes sociaux
De bonnes données mènent à de bonnes solutions
Les efforts réussissent le mieux lorsqu’ils se concentrent sur des problèmes concrets et des besoins humains
L’efficacité est maximale lorsque l’on combine les forces des machines et des humains
Une vision pluridisciplinaire et de la flexibilité donnent un avantage aux organisations

Ce qui reste difficile

La data science est une activité itérative de R&D, et le secteur social y investit insuffisamment
Il est difficile de recruter des data scientists et de leur offrir un bon accompagnement
L’open source manque de solutions conçues pour les non-développeurs
Le battage médiatique autour des technologies attire une attention excessive
La data science et l’IA ont d’importantes implications éthiques, mais les outils et pratiques favorisant un usage éthique restent en retard

L’époque est en train de changer

Au cours des dix dernières années, la vitesse de progression des technologies de la donnée et de l’IA a été remarquablement rapide. Les principales innovations qui l’ont rendue possible sont les suivantes :

Calcul et stockage
- L’essor du cloud computing et du stockage a rendu les ressources nécessaires plus accessibles et moins coûteuses
- Les coûts initiaux ont baissé, depuis les expérimentations sur GPU jusqu’au déploiement de clusters évolutifs pour exécuter des modèles en temps réel
Deep learning
- Le deep learning a profondément transformé la data science
- Le nombre d’architectures efficaces a explosé, parmi lesquelles les GAN, les transformers, les autoencodeurs variationnels et les réseaux neuronaux sur graphes
- L’écosystème centré sur PyTorch et TensorFlow s’est développé, et les outils, bibliothèques et modèles préentraînés ont accéléré le rythme des progrès
Démocratisation de l’accès aux technologies
- La data science a été qualifiée de "métier le plus sexy du XXIe siècle", et les possibilités d’apprentissage ont explosé
- Les MOOCs, bootcamps et compétitions de data ont permis à davantage de personnes d’acquérir les bases de la data science
IA générative
- L’arrivée des grands modèles de langage (LLM) a transformé les façons de travailler
- Ils réduisent le temps nécessaire pour des tâches complexes et ouvrent de nouvelles possibilités
- Il reste à déterminer si l’IA générative est un effet de mode passager ou une innovation de fond, mais il est clair que l’IA continuera d’être utilisée

Malgré ces évolutions technologiques, plusieurs schémas communs apparaissent, au-delà des technologies elles-mêmes. Cet article s’intéresse à ce qui a bien fonctionné au cours de la dernière décennie et à ce qui demeure un défi.

Là où la data science a bien fonctionné

La data science a un impact concret sur les problèmes sociaux

Il y a dix ans
- Le potentiel des outils de data science était évident, mais leurs applications à l’impact social restaient limitées
- À l’époque, les discussions se limitaient à quelques cas et portaient surtout sur des idées de possibilités futures
Les avancées actuelles
- Les modèles de machine learning influencent désormais la prise de décision dans des domaines variés comme la santé ou la gestion des ressources naturelles
- La data science aide à gérer des problèmes comme les proliférations d’algues nocives, la pêche non durable ou les catastrophes naturelles liées au changement climatique, tout en contribuant à l’inclusion financière et à la préservation de la faune sauvage
- Dans le secteur public, la visualisation de données est devenue un support majeur pour la couverture médiatique et la diffusion des messages
  - Exemples : campagnes de prévention contre la propagation du COVID-19, tableau de bord de l’OMS
Exemple concret d’usage de l’imagerie satellite
- Au Yémen, l’imagerie satellite a été utilisée pour analyser les types de cultures et les risques climatiques, afin d’alimenter le programme de sécurité alimentaire de la Banque mondiale
Contribution de l’IA aux avancées scientifiques
- AlphaFold : modèle de prédiction de la structure des protéines, capable d’accomplir en quelques heures un travail qui prenait auparavant plusieurs années, tout en mettant gratuitement à disposition des scientifiques la structure de toutes les protéines
- Modèles transformers : utilisés pour détecter les discours haineux dans des mèmes multimodaux
- Technologies d’identification d’individus : amélioration du suivi des espèces menacées, comme les baleines, puis extension à diverses autres espèces
Évolution dans le secteur social
- Au milieu des années 2010, l’usage des données faisait surtout l’objet de discussions autour de la "mesure d’impact"
- Aujourd’hui, l’accent est mis sur la manière dont les outils de data science transforment le fonctionnement des organisations et leur donnent de nouvelles capacités
- Le débat porte désormais sur ce que la data science et l’IA peuvent "faire", au-delà de ce qu’elles permettent de mesurer

De bonnes données produisent de bonnes solutions, et l’accessibilité des données s’est nettement améliorée

Le rôle croissant des données dans le quotidien
- Chaque activité — achats, recours aux services d’urgence, visites à l’hôpital — génère des données
- Les appareils électroménagers, objets connectés, véhicules, téléphones mobiles et applications collectent des données d’usage
- Les progrès des capteurs et des caméras ont accru l’utilisation des données d’image et de vidéo
Les deux étapes de l’usage des données
1. Enregistrer les données sous forme numérique et les rendre observables
2. Évoluer vers une étape où l’on apprend à partir des données et où l’on découvre des motifs
L’IA et le machine learning reposent sur les données
- Des données plus nombreuses et de meilleure qualité favorisent l’exploration de nouveaux motifs et le développement d’algorithmes
- Exemples : détection du cancer, algorithme de recommandation de Spotify, données d’entraînement de ChatGPT
La hiérarchie de la data science de Monica Rogati
- Les fonctions avancées de la data science nécessitent une base de données solide
- Des investissements avisés dans l’infrastructure de données constituent le socle des capacités de niveau supérieur
L’usage des données au service de la valeur sociale
- Les gouvernements et les grandes institutions ont élargi l’ouverture des données publiques
- Types de données utilisés par DrivenData :
  - Données météorologiques, de transport et OpenStreetMap : planification du trafic aérien, soutien à la résilience face aux catastrophes
  - Imagerie satellite : cartographie de l’étendue des inondations, estimation de la biomasse forestière
  - Données de transactions mobiles : analyse des comportements et attitudes financières
  - Données d’enquête : compréhension à grande échelle des opinions et comportements
  - Enregistrements audio : classification du niveau de littératie des enfants
  - Images haute résolution : prédiction du risque de récidive du mélanome
  - Données textuelles : analyse automatique des concepts cliniques dans les notes de médecins
L’importance de l’accessibilité et de l’utilisabilité des données
- Il ne suffit pas que les données soient simplement rendues publiques
- Lorsque des formats lisibles par machine, une documentation claire et des cas d’usage sont fournis, la participation et l’usage augmentent
- De nombreuses organisations investissent dans la collecte de données, mais négligent les investissements supplémentaires nécessaires pour les exploiter
- La documentation des données et les cas d’application jouent un rôle aussi important que les prix des compétitions

Les efforts réussissent le mieux lorsqu’ils se concentrent sur des problèmes concrets et des besoins humains

Les pièges d’une approche centrée sur la technologie
- Les organisations à impact social cherchent souvent à suivre les dernières tendances technologiques
- Le « big data » et les outils d’IA peuvent sembler être des solutions universelles, mais ils ne sont réellement efficaces que lorsqu’ils sont mis au service de la résolution de problèmes concrets
Les clés d’une conception de projet réussie
- Définir des utilisateurs et un problème précis, puis fixer des objectifs mesurables permettant d’y répondre
- Utiliser des outils de conception centrée sur l’humain pour comprendre ce que les personnes « veulent » et développer des solutions qui vont au-delà de ce qui est techniquement « possible »
Exemples concrets
- Détection des proliférations d’algues (CyFi)
  - En collaboration avec la NASA, détection de proliférations nocives de cyanobactéries à partir d’images satellite
  - Aide les gestionnaires de l’eau à évaluer avec précision l’état des proliférations et à allouer les ressources plus efficacement
- Identification de la faune sauvage (Zamba)
  - Développement, avec l’institut Max Planck, d’un outil d’identification automatique des animaux à partir de données de pièges photographiques
  - Amélioration de l’ergonomie avec Zamba Cloud, dont l’interface a été optimisée à partir des retours des chercheurs
L’importance du point de vue des utilisateurs
- Définition du problème
  - Comprendre clairement le problème et les besoins grâce aux entretiens utilisateurs et à la collecte de retours
  - Intégrer la perspective humaine qui se trouve derrière les points de données
- Mise à disposition de la solution
  - Des tests UI/UX et une communication claire sont nécessaires pour que les utilisateurs puissent exploiter efficacement la solution et en comprendre les bénéfices
  - Les aider à saisir intuitivement les points forts et les limites du modèle, et expliquer comment l’utiliser à travers des cas concrets
Conclusion
- Le rôle des data scientists est de faire le lien entre capacités techniques et besoins sociaux
- Les projets les plus efficaces ne se laissent pas absorber par les dernières technologies, mais se concentrent sur la résolution de problèmes et des résultats concrets

Les solutions sont les plus efficaces lorsqu’elles combinent les forces des machines et des humains

Les risques des attentes exagérées autour de l’IA
- Les modèles de data science et l’IA ne sont pas tout-puissants, et chaque modèle a des limites dans une certaine mesure
- Le simple fait d’introduire de l’IA ne garantit pas le succès
- Les meilleures solutions viennent de systèmes qui combinent les forces des machines et des humains
Le cas de l’outil Zamba
- Zamba prédit de manière probabiliste la présence ou non d’animaux dans des vidéos de pièges photographiques
- Le modèle peut parfois se tromper, mais les probabilités qu’il fournit permettent d’élaborer une stratégie de revue efficace
  - Exemple : commencer par examiner les vidéos ayant le plus de chances de contenir des chimpanzés, ou fixer un seuil de probabilité pour considérer une vidéo comme vide
  - Résultat : il est possible d’identifier 85 % des vidéos contenant des chimpanzés en n’examinant que moins de 5 % de l’ensemble des vidéos
Les résultats de la collaboration homme-machine
- Exemple du dépistage du cancer du sein par IA : la collaboration entre radiologues et IA atteint une précision supérieure à celle obtenue par chacun séparément
- Accent mis sur l’interprétabilité et l’explicabilité de l’IA : fournir aux humains les informations nécessaires pour évaluer les résultats de l’IA et les intégrer dans leur contexte
  - Exemple : dans une compétition d’identification de baleines, le modèle fournissait une visualisation des caractéristiques utilisées pour associer chaque baleine
Un schéma similaire dans l’IA générative
- Le feedback humain est essentiel au développement d’outils utiles comme ChatGPT
- Les données de retour permettent d’améliorer le modèle pour qu’il apprenne des cas de plus en plus difficiles
Évaluer le coût des erreurs et les pistes d’amélioration
- La conception du système peut être améliorée à l’aide de deux questions :
  1. « Si vous aviez un modèle parfait, comment l’utiliseriez-vous ? »
  2. « Si ce modèle se trompait parfois, comment réagiriez-vous ? »
- Cela permet d’identifier la tolérance aux erreurs du système et les points où une revue humaine est nécessaire
Les enseignements pour les organisations
- Cas du gouvernement néerlandais en 2021 : 26 000 foyers ont été accusés à tort de fraude aux aides sociales à cause d’un algorithme inadapté
- S’appuyer sur un algorithme sans revue humaine appropriée entraîne un coût social élevé
- À l’inverse, combiner les forces des algorithmes et des humains permet de maximiser efficacité et impact

Une perspective interdisciplinaire et la flexibilité aident les organisations

Une expérience de projets couvrant de nombreux domaines
- Le travail sur des sujets variés comme l’inclusion financière, l’action climatique ou la santé a confirmé les avantages d’une perspective interdisciplinaire
- Il est possible d’étendre à d’autres secteurs des schémas de machine learning observés dans un contexte donné
  - Exemple : applications croisées entre un modèle de computer vision pour la préservation des forêts de kelp et un modèle de détection de lésions sur biopsies cervicales
La souplesse de l’approche
- Des problèmes très différents, comme la détection précoce de ravageurs agricoles et l’extraction de compétences dans des CV, reposent tous deux sur la reconnaissance d’entités nommées (NER)
- Il est possible de réutiliser les enseignements et l’expérience d’approches existantes pour les appliquer à d’autres problèmes à moindre coût
Exemple concret
- Une approche de traitement automatique du langage pour reconnaître, dans des messages WhatsApp, les cultures, ravageurs, maladies et produits chimiques
- Elle aide les petits exploitants à repérer de nouvelles tendances et à améliorer des conseils fondés sur la science
L’équilibre entre expertise et point de vue utilisateur
- La collaboration avec des experts métier garantit un contexte adapté au problème
- L’intégration du point de vue utilisateur dans le processus de data science permet de concevoir des solutions pertinentes
Identifier le « travail qui mérite d’être fait »
- La seule expertise technique ne suffit pas ; il faut aussi de l’empathie, de la communication, de la curiosité et de la flexibilité
- Il faut réfléchir aux domaines où le machine learning peut apporter de la valeur, et comprendre en profondeur à qui s’adresse l’approche et comment elle sera utilisée
Répondre à la diversité des besoins des organisations
- Les besoins varient selon les organisations, de la recherche exploratoire au prototypage puis à la mise en production
- Coopération avec des partenaires très divers, allant de grandes organisations fournisseuses de données (Candid, NASA, etc.) à des structures qui construisent leur premier système de données
- Il est important de préserver l’adéquation de la technologie tout en tirant de cette riche expérience une véritable flexibilité

Ce qui reste difficile

La data science est itérative, et le secteur social investit trop peu en R&D

La nature et la valeur de la R&D
- La recherche et développement est un processus d’apprentissage qui exige investissement en capital, expérimentation, réflexion et acceptation du risque d’échec
- Des méthodes trop certaines et des approches à court terme ne permettent pas de couvrir l’ampleur des problèmes auxquels le secteur social doit faire face
- Les investissements de long terme et l’innovation non linéaire produisent les résultats les plus importants
Le sous-investissement du secteur social dans la R&D
- Selon une enquête de la NSF en 2022, 94 % des grandes organisations à but non lucratif ne mènent aucune activité de R&D
- Alors même que la data science relève largement de la R&D, les investissements dans ce domaine restent insuffisants
Le caractère itératif de la data science
- La data science s’appuie sur des boucles d’apprentissage et de feedback itératives afin d’obtenir des résultats optimaux et d’améliorer l’efficacité des services
- Utilisation de frameworks qui mettent l’accent sur l’itération, comme le cursus de data science de Harvard et CRISP-DM (processus standard de data mining)
L’importance d’une data science centrée sur l’humain
- Le processus d’apprentissage s’organise autour de la conception de solutions efficaces, combinée à des cadres d’innovation reproductibles
- La conception centrée sur l’humain renforce le lien entre besoins réels et solutions
Les réussites de la R&D dans les entreprises privées
- Les entreprises privées identifient clairement la valeur de l’usage des données grâce aux processus de R&D
- Les récentes innovations en IA n’auraient pas été possibles sans des investissements continus en R&D
Conclusion
- Les résultats initiaux des projets de R&D autour des données sont incertains, mais le processus lui-même de création de valeur à partir des données est une méthodologie éprouvée
- Un investissement continu et de long terme dans la R&D est essentiel pour accélérer l’innovation et relever les défis du secteur social

Il est difficile de recruter et d’accompagner des data scientists, et les data scientists qui travaillent seuls sont moins satisfaits

Difficultés du point de vue de l’organisation
- Recrutement
  - Difficile d’identifier et d’évaluer des candidats adaptés lorsqu’il n’y a pas déjà de data scientist en poste
  - Le terme « data scientist » est mal défini, car il recouvre des compétences et des expériences très variées
- Attraction et rétention des talents
  - La forte demande en data scientists crée un marché de l’emploi très concurrentiel
  - Au-delà de la motivation liée à la résolution de problèmes sociaux, il faut aussi offrir un travail technique intéressant, des salaires compétitifs et des opportunités de développement professionnel
  - Il est encore plus difficile de réunir ces éléments lors des recrutements en phase initiale
- Management et accompagnement
  - Pour que les data scientists restent productifs, il faut définir clairement le périmètre du problème et fournir orientation, infrastructure et données
  - En l’absence de bagage technique, il est facile de sous-estimer ou de surestimer la difficulté du travail
Difficultés du point de vue des développeurs
- Apprentissage et progression
  - La data science est un domaine qui évolue rapidement, où les possibilités d’apprendre et de progresser au sein de l’équipe sont importantes
  - Dans un environnement où les revues de code, les retours sur les modèles et le partage de la charge de travail sont difficiles, les opportunités de progression sont limitées
- Manque de direction et de soutien
  - Quand le travail n’est pas correctement soutenu, la satisfaction et la productivité des data scientists diminuent
- Plaisir au travail
  - Le fait de discuter des problèmes avec ses collègues et de les résoudre ensemble augmente la satisfaction au travail
  - Cela peut aussi être compensé par un réseau externe, mais la collaboration au sein de l’organisation est plus efficace
Signes de changement
- On observe récemment une hausse des organisations du secteur social qui constituent leurs propres équipes data
- DrivenData intervient comme partenaire pour accompagner le recrutement, l’onboarding et la transition vers le travail des premiers data scientists et ingénieurs
- Une approche consistant à collaborer avec des équipes externes spécialisées en data science pour fournir des capacités flexibles est avantageuse à la fois pour les organisations et pour les data scientists
Perspectives d’avenir
- Certaines organisations commencent à réussir la construction d’équipes data, mais la demande en compétences de data science reste élevée
- Le défi de bâtir une équipe data à partir de zéro devrait persister

L’open source ne développe pas suffisamment de solutions pour les non-développeurs

Les limites de l’open source
- Les logiciels open source évoluent souvent efficacement parce que la communauté des développeurs coïncide avec celle des utilisateurs
- Les contributeurs sont motivés à améliorer les outils qu’ils utilisent eux-mêmes
- En revanche, cette motivation fonctionne moins pour les outils destinés aux non-développeurs ou aux non-spécialistes
Les défis des outils destinés aux non-spécialistes
- Dans les projets de data science, on développe souvent des méthodes et des outils pour les non-développeurs
- Même lorsqu’ils sont publiés en open source, si les investissements et le développement ne se poursuivent pas, les projets stagnent ou s’arrêtent
- Pour évoluer concrètement vers des solutions réellement abouties, ils nécessitent un développement supplémentaire après la phase de prototype ainsi que des tests pilotes réalistes
Cas concret : Concept to Clinic
- En 2017-2018, une application ouverte a été développée pour aider les radiologues à traiter des scanners CT à l’aide de l’IA
- Pour encourager les contributions, un système structuré d’incitations a été mis en place, avec des points et des récompenses financières pour les contributeurs
- Sans cette approche, il est probable que le projet n’aurait pas pu être développé
Conditions d’un succès open source durable
- Le simple fait de publier un projet en open source ne garantit pas un impact à long terme
- Pour passer du prototype à une solution destinée aux utilisateurs finaux, il faut une feuille de route claire et un financement continu
- Lorsqu’on développe des applications importantes, l’open source n’est qu’une partie du parcours et ne doit pas devenir l’objectif final

Le battage médiatique autour des technologies (hype wave) attire une attention excessive

Le secteur social et l’innovation technologique
- Le secteur social a été étroitement lié, au cours des dix dernières années, aux vagues successives de nouvelles innovations technologiques
- Les organisations, disposant de ressources limitées, sont tentées d’adopter de nouvelles technologies pour gagner en efficacité
- Elles modifient fréquemment leur stratégie sous la pression de ne pas être laissées pour compte si elles ne suivent pas les dernières tendances technologiques
Les problèmes liés à l’adoption de technologies surévaluées
- Il est difficile d’isoler les véritables éléments d’innovation au milieu du battage technologique
- L’adoption technologique mène souvent à des attentes excessives et à une exécution insuffisante
- Exemples :
  - Blockchain : malgré des attentes élevées, les bénéfices concrets pour le secteur social ont été minimes
  - Applications mobiles : des coûts inefficaces ont été engagés sous la pression du caractère « indispensable », même lorsqu’elles n’étaient pas réellement nécessaires
L’importance des organisations technologiques spécialisées
- Les organisations composées d’experts techniques, capables de gérer efficacement le battage technologique, obtiennent les meilleurs résultats
- DrivenData collabore avec DataKind, DSSG Fellowship, Delta Analytics et d’autres structures pour tirer parti de leur expertise technique
- Mais même ces groupes d’experts ont du mal à capitaliser de manière systématique les leçons tirées des précédentes vagues de battage technologique
Le changement nécessaire : un « brise-lames » face au battage technologique
- Il faut être capable de séparer l’innovation réelle des attentes excessives et d’identifier les avancées essentielles
- Un leadership technique combinant compréhension des technologies de pointe et connaissance approfondie du secteur social est indispensable
- Ce leadership et cet écosystème font aujourd’hui défaut, alors qu’ils sont nécessaires pour construire une approche durable et plus mature
Une approche stratégique des technologies récentes comme l’IA
- Le potentiel de l’IA est immense, mais il exige non pas un simple enthousiasme, mais une stratégie prudente et une expertise approfondie
- Sans fondations solides basées sur les données, il existe un risque de retomber dans un cycle inefficace où le battage technologique se répète
- Sans investissements de fond et sans planification, il sera difficile pour l’innovation technologique du secteur social de produire de véritables résultats

La data science et l’IA ont d’importantes implications éthiques, mais leur adoption rapide dépasse les outils et les pratiques censés les encadrer

Expansion de la data science et de l’IA, et importance des enjeux éthiques
- La data science et le machine learning sont désormais intégrés à des domaines variés comme la santé, la réponse aux catastrophes et les décisions judiciaires
- Les risques liés à un mauvais usage sont bien plus élevés qu’auparavant
La réalité d’une prise en compte éthique insuffisante
- Les data scientists disposent d’un point de vue unique pour comprendre les implications éthiques des modèles et des pipelines
- Pourtant, cette perspective n’est souvent pas intégrée au cycle de vie des projets de data science
Développement d’une checklist open source pour traiter les arbitrages éthiques
- Elle est intégrée au workflow de data science afin de permettre la discussion sur les arbitrages éthiques
- Principes clés :
  - Les décisions éthiques doivent reconnaître les arbitrages les plus importants dans un contexte donné, avec pour objectif d’avancer de manière responsable et de minimiser les dommages
  - Des problèmes éthiques peuvent surgir à toutes les étapes du projet, de la collecte et du stockage des données à l’analyse, la modélisation et le déploiement
  - Les discussions éthiques passent souvent au second plan en raison des délais serrés et des exigences opérationnelles
  - Pour éviter cela, il faut intégrer les questions éthiques aux autres aspects du workflow et y consacrer délibérément du temps
Équité algorithmique et atténuation des biais
- Les modèles entraînés sur des données biaisées reproduisent les inégalités, d’où le développement de techniques pour les identifier et les atténuer
- Exemple : en collaboration avec Wellcome Trust, création d’un cas d’atténuation des biais intégrant des considérations d’équité dans un modèle de prédiction du stress psychologique
  - Des métriques d’équité quantifiées ont permis d’analyser les biais et de proposer des méthodes d’atténuation
L’importance des considérations éthiques à l’ère de l’IA
- Alors que l’IA se diffuse rapidement, des entreprises démantèlent leurs équipes d’IA responsable pour réduire leurs coûts
- Dans le secteur social, le devoir de responsabilité envers les bénéficiaires est plus élevé, et le coût d’un échec éthique y est donc plus lourd
- Sans renforcement des pratiques éthiques, l’adoption de l’IA risque d’engendrer des problèmes encore plus graves
Conclusion
- La mise en place d’outils et de pratiques éthiques pour accompagner l’adoption de l’IA est plus importante que jamais
- Il faut garantir la confiance et la durabilité dans le secteur social grâce à un usage responsable des technologies

Perspectives d’avenir

Évolution et opportunités de la data science
- Au cours des dix dernières années, la data science a impulsé des transformations majeures dans le secteur social, avec à la fois des réussites et des défis
- La prise de conscience du potentiel des données et de l’IA a progressé, mais de grandes questions restent encore à résoudre :
  - Comment appliquer concrètement les avancées technologiques continues aux problèmes sociaux les plus importants ?
  - Comment garantir que les bénéfices ne se concentrent pas uniquement entre les mains d’un petit nombre de grands groupes ?
  - Comment mettre en œuvre un déploiement technologique responsable au service de la nature et de l’humanité ?
L’importance des leçons tirées de l’expérience
- Les efforts fondés sur les enseignements tirés des expériences passées produisent les résultats les plus significatifs
- DrivenData est fier de faire partie d’une communauté de partenaires, de clients et de développeurs qui utilisent les données et l’IA au service du bien commun
- Les contributions sont les bienvenues pour celles et ceux qui s’intéressent à des sujets similaires ou qui ont d’autres idées à partager
Des attentes tournées vers l’avenir
- Si les dix dernières années ont été remarquables, les dix prochaines devraient apporter des transformations encore plus profondes
- Il reste beaucoup à faire, et encore beaucoup à apprendre
- Face à ces défis, l’avenir suscite l’espoir d’explorer de nouvelles possibilités et de créer un impact social plus positif

1 commentaires

halfenif 2025-01-23

« Les meilleurs esprits de ma génération consacrent leur réflexion à faire en sorte que les gens cliquent sur des publicités… C’est vraiment frustrant. »

En y réfléchissant, c’est vrai.

Dix ans de leçons de la data science au service de l’intérêt général

Aperçu des 10 principaux enseignements

Là où la data science a bien fonctionné

Ce qui reste difficile

L’époque est en train de changer

Là où la data science a bien fonctionné

La data science a un impact concret sur les problèmes sociaux

De bonnes données produisent de bonnes solutions, et l’accessibilité des données s’est nettement améliorée

Les efforts réussissent le mieux lorsqu’ils se concentrent sur des problèmes concrets et des besoins humains

Les solutions sont les plus efficaces lorsqu’elles combinent les forces des machines et des humains

Une perspective interdisciplinaire et la flexibilité aident les organisations

Ce qui reste difficile

La data science est itérative, et le secteur social investit trop peu en R&D

Il est difficile de recruter et d’accompagner des data scientists, et les data scientists qui travaillent seuls sont moins satisfaits

L’open source ne développe pas suffisamment de solutions pour les non-développeurs

Le battage médiatique autour des technologies (hype wave) attire une attention excessive

La data science et l’IA ont d’importantes implications éthiques, mais leur adoption rapide dépasse les outils et les pratiques censés les encadrer

Perspectives d’avenir

À lire aussi

1 commentaires