- Qui suis-je et pourquoi cela m’intéresse → ingénieur des débuts de BigQuery
- La slide d’introduction incontournable → le graphique que tout le monde cite, « les données explosent avec le temps »
- La plupart des gens n’ont pas tant de données que ça
- Le stockage et le calcul sont dissociés, avec un biais en faveur du stockage
- La taille des workloads est plus petite que la taille totale des données
- La plupart des données ne sont presque jamais interrogées
- La frontière du big data ne cesse de reculer
- Les données sont un passif (Liability)
→ Une autre définition du big data est : « quand le coût de conservation des données est inférieur au coût nécessaire pour déterminer quoi jeter »
- Faites-vous partie du 1 % du big data ?
- Générez-vous vraiment une quantité énorme de données ?
- Si oui, avez-vous vraiment besoin d’utiliser une énorme quantité de données en une seule fois ?
- Si oui, vos données sont-elles trop volumineuses pour tenir sur un seul système ?
- Si oui, êtes-vous sûr de ne pas être simplement un collectionneur compulsif de données (Hoarder) ?
- Si oui, ne vaudrait-il pas mieux les résumer ?
- Si vous répondez non à ne serait-ce qu’une seule des questions ci-dessus,
plutôt que de viser un « big data d’une échelle effrayante » que vous n’aurez peut-être jamais,
il peut être préférable d’utiliser des « outils de données de nouvelle génération capables de gérer l’échelle réelle de vos données »
1 commentaires
Il faut lire cet article en gardant à l’esprit que l’entreprise qui l’a écrit est MotherDuck, la société derrière « DuckDB ».
DuckDB - base de données OLAP embarquée open source
Le slogan de cette entreprise est « Big Data is DEAD. Long live EASY DATA. ».
C’est une société qui fait la promotion de sa base de données embarquée avec le message : « Your laptop is faster than your data warehouse. Why wait for the Cloud? »
Cela ne veut pas dire pour autant que l’article est mauvais. Globalement, il mérite d’être lu, et je suis d’accord avec une bonne partie de son contenu.
Il y a tout simplement trop d’entreprises qui parlent de « big data » avec des volumes de données pourtant dérisoires.