Qu'est ce que le Big Data et comment le gérer ?

20/02/2012

Big Data

Vous rencontrez l'expression "Big Data" de plus en plus souvent. Que recouvre cette notion ? Comment gérer le Big Data ?

Nous assistons à une explosion du volume des données dans l'entreprise. L'expression Big Data a été introduite par le Gartner en 2008, même si cette notion avait été décrite depuis 2001. Quand on parle Big Data, on parle aussi des outils proposés par les éditeurs pour gérer cette masse d'informations.

Les caractéristiques du Big Data

Voici quelques propriétés du Big Data, d'après Wikipedia :

ce sont des données non structurées ;
elles sont produites en temps réel ;
elles arrivent mondialement en flots continus ;
elles sont méta taguées mais de façon disparate (localisation, heure, jour, etc.) ;
elles proviennent de sources très disparates (téléphone mobile, capteurs, téléviseurs connectés, tablettes, PC fixes, PC portables, objets, machines), de façon désordonnée et non prédictible.

Comment gérer le Big Data

Plusieurs approches technologiques ont été identifiées pour gérer cette masse de données

une accélération matérielle à l'aide de mémoires dynamiques DRAM ou Flash
le recours à des bases de données massivement parallèles (Massively Parallel Processing)
les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL

Comment mettre en oeuvre une plate-forme BIG DATA

Voici un schéma qui présente les 3 étapes traditionnelles (acquisition, organisation et analyse) tant pour les données de type BIG DATA (non structurées) que SQL (structurées) :

L'acquisition des données non structurées (NoSQL) se fait à partir

de fichiers stockés dans des systèmes de fichiers distribués (exemple HDFS - Hadoop Distributed File Systems)
de bases NoSQL (exemple Oracle NoSQL Database) qui stockent des lignes de type Clé/Valeur (Key/Value Stores)

Cette approche permet d'acquérir de gros volumes de données de façon très performante.

L'organisation et l'analyse des données non structurées se fait à l'aide de programmes spécifiques exploitant les données acquises représentés ci-dessus dans le pavé Map Reduce Solutions.

La solution proposée par Oracle

La stratégie d'Oracle consiste à aider ses clients à faire évoluer leur architecture actuelle pour incorporer les données BIG DATA et en extraire toute leur valeur. Cette approche leur permet de capitaliser sur la fiabilité, la flexibilité et la performance de leurs systèmes Oracle pour gérer les données BIG DATA.

Oracle Big Data Appliance

La solution Oracle Big Data Appliance est un système intégré qui combine un hardware optimisé avec une pile logicielle idéale pour gérer les données BIG DATA. Cette solution permet d'acquérir, d'organiser et de charger les données BIG DATA dans une base Oracle 11g.

Le schéma suivant présente la position de la solution Oracle Big Data Appliance dans l'architecture d'ensemble de l'entreprise.

La solution Oracle Big Data Appliance est constituée d'une configuration Hardware impressionnante, ainsi que des logiciels représentés dans le schéma suivant :

Oracle NoSQL Database est basé sur le moteur Oracle Berkeley DB Java Edition High Availability. Il est ainsi possible d'offrir un stockage de type Key/Value en mode distribué, avec Haute Disponibilité, pour des applications ou des Web-Services nécessitant d'utiliser de gros volumes de données avec des temps de réponse rapides.

Hadoop est un framework Java libre destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.

Oracle a choisi la Cloudera's Distribution of Apache Hadoop (CDH).

Pour ses clients utilisant déjà Hadoop, l'acquisition d'Oracle Big Data Appliance n'est pas obligatoire. Des techniques alternatives sont disponibles pour charger des données extraites d'Hadoop dans une base Oracle cible.

L'option In-Database Analytics

L'option In-Database Analytics, à mettre en oeuvre sur Oracle Database 11g, permet l'utilisation de techniques d'analyses avancées :

Oracle R Enterprise (abordé dans notre Blog récemment)
In-Database Data Mining
In-Database Text-Mining
In-Database Semantic Analysis
In-Database Spatial
In-Database MapReduce

Oracle Big Data Appliance et Oracle Exadata

L'association d'Oracle Big Data Appliance et d'Oracle Exadata permet d'obtenir un cocktail explosif, lié entre autre à la liaison Infiniband qui relie ces deux Appliances :

Bien sûr, il est également possible de relier un serveur Oracle BigData Appliance avec un serveur Database plus traditionnel (sans forcément mettre en place un Exadata).

Voilà ce qui pouvait être présenté en quelques lignes sur ce sujet qui va prendre un essor considérable : le Big Data.

Un prochain billet de ce Blog présentera plus en détail les composants de l'offre Big Data d'Oracle.

Voici quelques liens sur ce sujet : http://www.oracle.com/us/technologies/big-data/index.html http://www.oracle.com/us/products/database/big-data-appliance/overview/index.html http://www.oracle.com/technetwork/database/nosqldb/overview/index.html http://www.oracle.com/us/corporate/analystreports/infrastructure/winter-big-data-1438533.pdf Vous souhaitez en savoir plus ? Contactez-nous

Qu'est ce que le Big Data et comment le gérer ?

Les caractéristiques du Big Data

Comment gérer le Big Data

Comment mettre en oeuvre une plate-forme BIG DATA

La solution proposée par Oracle

Oracle Big Data Appliance

L'option In-Database Analytics

Oracle Big Data Appliance et Oracle Exadata

Pour aller plus loin

La transformation numérique des collectivités : un enjeu majeur pour l'avenir des territoires

Avis d’expert : la réponse du data mesh aux problématiques de Data Management dans les organisations

Gouvernance fédérée : le pilier organisationnel du data mesh