16 points par GN⁺ 2026-01-27 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les évolutions de 2026 sont marquées par la convergence de l’infrastructure de données et de l’infrastructure IA, d’une architecture en couches séparées vers un plan opérationnel unique
  • Plus que le volume de données, la temps réel et la fraîcheur deviennent la contrainte centrale des performances de l’IA
  • Les données non structurées et multimodales, qui représentent 80 % des données d’entreprise, deviennent à la fois la plus grande opportunité et le principal goulot d’étranglement pour l’usage de l’IA
  • On entre dans une phase où, plus que l’optimisation des prompts, le contexte et la structure de connaissances accessibles à l’IA déterminent les performances
  • Les infrastructures conçues pour des utilisateurs humains atteignent leurs limites, et une refonte basée sur la vitesse des agents et la concurrence massive devient nécessaire

Convergence de l’infrastructure de données et de l’infrastructure IA

  • Les plateformes de données traditionnelles étaient exploitées séparément : d’un côté les stacks pour l’analyse et le reporting, de l’autre les plateformes IA pour l’entraînement et l’inférence
    • Cette séparation entraîne des déplacements de données, des stockages redondants, de la latence et une multiplication des frontières de responsabilité, ce qui augmente les coûts et la complexité
  • Désormais, l’ingestion de données, l’ETL, le warehouse, la BI, la gouvernance, la gestion des features, l’entraînement des modèles, l’inférence et l’exécution d’agents s’intègrent dans un flux unique
    • Dans une architecture unifiée, analyse et inférence ne sont plus séparées et fonctionnent simultanément sur le même plan de données
    • La fourniture de features en temps réel, la recherche vectorielle, l’analyse SQL, l’inférence IA et la gestion de la lignée et des politiques y sont incluses comme fonctions de base
  • L’infrastructure de données elle-même devient l’environnement d’exécution de l’IA, et le rôle du data engineer s’élargit de la gestion de pipelines à la conception de plateformes intelligentes

Du volume des données à leur fraîcheur

  • On atteint une situation où l’amélioration des performances de l’IA ne peut plus reposer uniquement sur l’entraînement sur de grands volumes de données statiques
  • La récence des données et la vitesse de prise en compte du contexte deviennent des conditions qui déterminent la qualité des décisions
  • Des informations de stock obsolètes ou des données de comportement client retardées déforment les jugements de l’IA
  • En sortant d’une architecture centrée sur le batch, une architecture streaming-first devient la norme
  • Il faut des architectures capables de traiter immédiatement les changements capturés dans les données, les flux d’événements et les données de capteurs dès leur création
  • Le data engineer doit désormais maîtriser comme compétences clés le traitement à faible latence, la gestion d’état et la gestion continue de la qualité des données

Données non structurées, multimodales et entropie des données

  • Environ 80 % des données d’entreprise existent sous forme non structurée : documents, images, vidéos, logs, etc.
    • Les données structurées ne représentent qu’une minorité, alors que les stacks de données traditionnels ont été optimisés pour elles
    • Les données non structurées ont une forte densité informationnelle, mais leur accessibilité et leur exploitabilité restent faibles, ce qui laisse leur valeur verrouillée
  • Plus les données restent non structurées, plus l’entropie des données augmente, ce qui limite l’usage de l’IA
    • L’entropie agit comme un facteur qui dégrade les performances de l’IA à cause du vieillissement des données, des incohérences et de la perte de contexte
  • L’IA multimodale combine images, texte et métadonnées pour transformer les données non structurées en actifs analysables
  • Seules des données à entropie réduite peuvent déboucher sur des insights IA et une véritable valeur métier

Du prompt au contexte : le context engineering

  • Le principal goulot d’étranglement des performances de l’IA se déplace de la manière de poser les questions vers l’étendue et la qualité du contexte accessible à l’IA
  • Plus que les prompts ponctuels, ce sont des structures de connaissances accumulées et mises à jour en continu qui deviennent importantes
  • Les catalogues de données et les métadonnées cessent d’être de simples documents pour devenir des systèmes directement interrogeables par l’IA
  • Les couches sémantiques et le langage commun servent de référence comprise à la fois par les humains et par l’IA
  • La lignée des données et la traçabilité des sources deviennent la base de jugements IA fiables
  • Le data engineer ne se limite plus à transmettre les données : il évolue vers un rôle de conception de la mémoire et du contexte de l’organisation

Transition vers une infrastructure native pour les agents

  • Les infrastructures existantes ont été conçues pour des utilisateurs humains, avec une faible concurrence et des schémas de requêtes prévisibles
  • Les agents IA génèrent, à partir d’un seul objectif, des milliers de sous-tâches et de requêtes à l’échelle de la milliseconde
    • Les appels récursifs, le fan-out explosif et la concurrence à grande échelle deviennent des schémas de base
    • Les infrastructures existantes se heurtent alors à des goulots d’étranglement, à de la latence et à des échecs de coordination
  • Le goulot d’étranglement se déplace de la puissance de calcul vers la coordination, les verrous, l’état et la gestion des politiques
  • Une infrastructure native pour les agents part du principe que le parallélisme massif, l’exécution asynchrone et les charges récursives constituent l’état par défaut
  • Le critère de conception de l’infrastructure de données passe de la vitesse humaine à la vitesse des agents

Synthèse

  • La convergence de l’infrastructure de données et de l’infrastructure IA déclenche des exigences de temps réel et de multimodalité
  • Le traitement des données non structurées sert de base au context engineering
  • L’IA centrée sur le contexte favorise la généralisation de workloads orientées agents
  • L’ensemble de cette évolution met en lumière les limites structurelles des infrastructures traditionnelles centrées sur l’humain
  • En 2026, le défi central du data engineering se déplace vers la conception d’infrastructures pensées pour un environnement où les agents sont les utilisateurs par défaut

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.