Qu'est-ce qu'un Data Lake ? Data Warehouse ? Lakehouse ?
Le terme Big Data cache beaucoup de réalités. Démystifions quelques concepts sous-jacents que sont le Data warehouse, le Datalake et le Lakehouse.
Du début des années 90 à aujourd’hui, les données et les analyses faisables sur celles-ci ont évolué vous vous en doutez. Les architectures possibles ont à leur tour changé, donnant naissance à 3 grands concepts : le data warehouse, le data lake et le data lakehouse.
Définition du Data Warehouse
Les données stockées dans les bases relationnelles pour les charges OLTP (Online Transaction Processing) sont archivées dans un Data Warehouse (une autre base de données relationnelle) pour pouvoir les analyser (OLAP / OnLine Analytical Processing) et générer des rapports compilant différentes métriques. La mise à disposition de la donnée se fait en général dans des Datamarts (RDBMS).
Qu'est-ce qu'un Data Lake ?
Ce concept apparaît après la naissance d’Hadoop en 2006 et a pour principe de stocker les données dans leur format RAW. On réplique tout simplement toutes les données intéressantes du SI : de la donnée relationnelle et donc structurée, des données semi-structurées comme des CSV, des logs ou des JSON, des données non-structurées comme des emails, des documents PDFs, ou des données binaires comme des images, des vidéos ou des fichiers audios. La technologie se cachant le plus souvent derrière ce terme c’est Hadoop.
Et le Lakehouse ?
Avec l’apparition du Serverless amené par les CSPs (Cloud Service Providers) est né un nouveau type d’architecture : le data lakehouse. Les analyses sont maintenant faisables sans gérer les infrastructures sous-jacentes. Les problématiques de gestion des serveurs sont mises de côté. Ici, l’idée est de stocker les données dans du stockage distribué (Amazon S3, Azure Blob Storage, Google Cloud Storage) et d’effectuer les analyses avec des infrastructures gérées par les CSPs (Amazon Athena, Amazon EMR, Databricks, Azure HDInsight, Google Dataproc).
Découvrez ici un aperçu complet de la manière dont nous pouvons vous accompagner pour votre projet Data.