12 points par xguru 2025-04-07 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • De 2021 au début de 2023, le domaine des technologies de la donnée, et en particulier la Modern Data Stack, a été l’un des secteurs les plus actifs et les plus suivis de l’industrie tech
  • Fin 2023, avec l’arrivée de ChatGPT, l’attention s’est déplacée vers l’IA, et les discussions sur l’infrastructure de données sont quelque peu passées au second plan
  • Mais à mesure que l’IA commence à s’intégrer aux flux de travail réels, deux constats deviennent clairs :
    • Les workflows d’IA complexes doivent exploiter activement les enseignements du data engineering
    • Pour que les LLM fonctionnent correctement, ils doivent pouvoir accéder aux données produites dans les workflows analytiques

Le lien concret entre IA et infrastructure de données

  • Même si un LLM est très intelligent, il ne peut pas fournir de réponse exacte s’il n’a pas accès à des informations précises
  • Si les informations sont dispersées entre des posts Reddit, des documents internes, des data warehouses, etc., le LLM ne peut pas y accéder
  • La bonne nouvelle, c’est que des protocoles et standards permettant aux LLM d’accéder à diverses sources d’information commencent désormais à émerger
  • Mais déterminer quelles informations fournir, vérifier leur exactitude ou définir les droits d’accès reste un défi à résoudre

Avantages et défis de l’intégration des LLM selon les sources d’information

  • LLMs + recherche sur Internet

    • Avantages : intégration des données publiques du web pour exploiter facilement des informations réelles et à jour (ex. : chercher un bon restaurant)
    • Problèmes :
      • Les contenus optimisés pour le SEO fonctionnent aussi bien avec les LLM, ce qui met en avant des informations peu fiables
      • Exemple : en cherchant « les meilleurs oreillers de 2025 », il est difficile de trouver une réponse fiable → même problème pour les LLM
  • LLMs + documents internes (Notion, Slack, etc.)

    • Avantages :
      • Permet d’avoir une vue d’ensemble des informations de collaboration entre équipes, des politiques et des plans dans des organisations complexes
      • Des outils comme NotionAI illustrent bien le potentiel des LLM
    • Problèmes :
      • Il est difficile de savoir si les documents sont à jour
      • Des résultats contradictoires peuvent apparaître pour une même question
      • Il faut donc non seulement les documents eux-mêmes, mais aussi des métadonnées sur leur fiabilité
  • LLMs + données structurées et métriques

    • Avantages :
      • Analyse de données complexes via une interface conversationnelle, sans SQL
      • Lorsqu’on travaille sur des données familières, cela donne presque l’impression d’avoir un super-pouvoir
    • Problèmes :
      • L’organisation utilise-t-elle des définitions cohérentes à tous les niveaux ?
      • Les dirigeants peuvent-ils faire confiance aux résultats et les utiliser pour de vraies décisions ?
      • Les contrôles d’accès et la gouvernance des données sont-ils correctement définis ?
      • Le Text-to-SQL progresse, mais la faisabilité en conditions réelles et la fiabilité restent des enjeux

Trois exemples d’intégration de données pour les LLM

  • Par exemple, si le CEO d’une chaîne de restaurants envisage une expansion dans une nouvelle région, il pourrait exploiter l’ensemble des informations suivantes :
    • Documents internes : compréhension de la stratégie et des plans de l’organisation
    • Données structurées : analyse de la situation financière et des données clients
    • Recherche sur Internet : étude des informations de marché et des benchmarks de la région concernée
  • En théorie, c’est une approche très utile, mais dans la pratique il faut relier plusieurs systèmes de manière ad hoc, et une seule petite erreur peut affecter l’ensemble du jugement

La véritable valeur de la Modern Data Stack

  • Le fait que la Modern Data Stack ait connu un essor juste avant l’arrivée de l’IA, pour centraliser les données, les standardiser et mettre en place leur gouvernance, n’a rien d’un simple hasard
  • Cette infrastructure constituait précisément la base pour l’ère des LLM
  • La Modern Data Stack ne sert pas seulement à construire des dashboards : c’est aussi une plateforme pour des workflows et des interfaces de données cohérents et fiables
  • Maintenant que l’IA commence à interagir avec cet écosystème, l’importance de l’infrastructure de données revient au premier plan

Le rôle des professionnels de la donnée à l’avenir

  • Les professionnels de la donnée ne doivent plus se limiter à l’analyse de données :
    • Construire un environnement de données fiable que les LLM peuvent utiliser
    • Concevoir des systèmes avec gouvernance et contrôle d’accès intégrés
    • Garantir la stabilité et la fiabilité lors du déploiement de systèmes d’IA
  • Ce domaine représente une immense opportunité mais aussi une responsabilité majeure
  • De nombreuses organisations déploient déjà des systèmes LLM dans leurs opérations, et c’est le moment où l’on peut avoir un impact concret

Conclusion

  • La Modern Data Stack reste une infrastructure pertinente à l’ère de l’IA et commence désormais à se connecter réellement aux systèmes d’IA
  • Des workflows d’IA intégrant données structurées, documents non structurés et informations du monde réel sont déjà réalisables et devraient encore gagner en sophistication
  • Concevoir et relier correctement ces systèmes est la mission de la communauté data

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.