20 points par xguru 2023-02-13 | 1 commentaires | Partager sur WhatsApp
  • Qui suis-je et pourquoi cela m’intéresse → ingénieur des débuts de BigQuery
  • La slide d’introduction incontournable → le graphique que tout le monde cite, « les données explosent avec le temps »
  • La plupart des gens n’ont pas tant de données que ça
  • Le stockage et le calcul sont dissociés, avec un biais en faveur du stockage
  • La taille des workloads est plus petite que la taille totale des données
  • La plupart des données ne sont presque jamais interrogées
  • La frontière du big data ne cesse de reculer
  • Les données sont un passif (Liability)
    → Une autre définition du big data est : « quand le coût de conservation des données est inférieur au coût nécessaire pour déterminer quoi jeter »
  • Faites-vous partie du 1 % du big data ?
    • Générez-vous vraiment une quantité énorme de données ?
    • Si oui, avez-vous vraiment besoin d’utiliser une énorme quantité de données en une seule fois ?
    • Si oui, vos données sont-elles trop volumineuses pour tenir sur un seul système ?
    • Si oui, êtes-vous sûr de ne pas être simplement un collectionneur compulsif de données (Hoarder) ?
    • Si oui, ne vaudrait-il pas mieux les résumer ?
  • Si vous répondez non à ne serait-ce qu’une seule des questions ci-dessus,
    plutôt que de viser un « big data d’une échelle effrayante » que vous n’aurez peut-être jamais,
    il peut être préférable d’utiliser des « outils de données de nouvelle génération capables de gérer l’échelle réelle de vos données »

1 commentaires

 
xguru 2023-02-13

Il faut lire cet article en gardant à l’esprit que l’entreprise qui l’a écrit est MotherDuck, la société derrière « DuckDB ».
DuckDB - base de données OLAP embarquée open source

Le slogan de cette entreprise est « Big Data is DEAD. Long live EASY DATA. ».
C’est une société qui fait la promotion de sa base de données embarquée avec le message : « Your laptop is faster than your data warehouse. Why wait for the Cloud? »

Cela ne veut pas dire pour autant que l’article est mauvais. Globalement, il mérite d’être lu, et je suis d’accord avec une bonne partie de son contenu.
Il y a tout simplement trop d’entreprises qui parlent de « big data » avec des volumes de données pourtant dérisoires.