Digora blog

Qu'est ce que le Big Data et comment le gérer ?

20/02/2012
Big Data

Vous rencontrez  l'expression "Big Data" de plus en plus souvent. Que recouvre cette notion ? Comment gérer le Big Data ?

Nous assistons à une explosion du volume des données dans l'entreprise. L'expression Big Data a été introduite par le Gartner en 2008, même si cette notion avait été décrite depuis 2001. Quand on parle Big Data, on parle aussi des outils proposés par les éditeurs pour gérer cette masse d'informations.

Les caractéristiques du Big Data

Voici quelques propriétés du Big Data, d'après Wikipedia  :

  • ce sont des données non structurées ;
  • elles sont produites en temps réel ;
  • elles arrivent mondialement en flots continus  ;
  • elles sont méta taguées mais de façon disparate (localisation, heure, jour, etc.) ;
  • elles proviennent de sources très disparates (téléphone mobile, capteurs, téléviseurs connectés, tablettes, PC fixes, PC portables, objets, machines), de façon désordonnée et non prédictible.

Comment gérer le Big Data

Plusieurs approches technologiques ont été identifiées pour gérer cette masse de données

  • une accélération matérielle à l'aide de mémoires dynamiques DRAM ou Flash
  • le recours à des bases de données massivement parallèles (Massively Parallel Processing)
  • les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL

Comment mettre en oeuvre une plate-forme BIG DATA

Voici un schéma qui présente les 3 étapes traditionnelles (acquisition, organisation et analyse) tant pour les données de type BIG DATA (non structurées) que  SQL (structurées) :

Schématisation des 3 étapes traditionnelles pour les données Big Data et SQL

L'acquisition des données non structurées (NoSQL) se fait à partir

  • de fichiers stockés dans des systèmes de fichiers distribués (exemple HDFS - Hadoop Distributed File Systems)
  • de bases NoSQL  (exemple Oracle NoSQL Database) qui stockent des lignes de type Clé/Valeur  (Key/Value Stores)

Cette approche permet d'acquérir de gros volumes de données de façon très performante.

L'organisation et l'analyse des données non structurées se fait à l'aide de  programmes spécifiques exploitant les données acquises représentés ci-dessus dans le pavé  Map Reduce Solutions.

La solution proposée par Oracle

La stratégie d'Oracle consiste à aider ses clients à faire évoluer leur architecture actuelle pour incorporer les données BIG DATA et en extraire toute leur valeur. Cette approche leur permet de capitaliser sur la fiabilité, la flexibilité et la performance de leurs systèmes Oracle pour gérer les données BIG DATA.

Solution proposée par Oracle pour une évolution d'architecture

Oracle Big Data Appliance

La solution Oracle Big Data Appliance est un système intégré qui combine un hardware optimisé avec une pile logicielle idéale pour gérer les données BIG DATA. Cette solution permet d'acquérir, d'organiser et de charger les données BIG DATA dans une base Oracle 11g.

Le schéma suivant présente la position de la solution Oracle Big Data Appliance dans l'architecture d'ensemble de l'entreprise.

Schématisation de la position de la solution Oracle Big Data Appliance dans une architecture d'entreprise

La solution Oracle Big Data  Appliance est constituée d'une configuration Hardware impressionnante, ainsi que des logiciels représentés dans le schéma suivant :

Schéma Oracle Big Data Appliance avec une configuration Hardware

Oracle NoSQL Database est basé sur le moteur Oracle Berkeley DB Java Edition High Availability. Il est ainsi possible d'offrir un stockage de type Key/Value en mode distribué, avec Haute Disponibilité, pour des applications ou des Web-Services nécessitant d'utiliser de gros volumes de données avec des temps de réponse rapides.

 

Hadoop est un framework Java libre destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.

Schéma d'utilisation Hadoop dans une entreprise

Oracle a choisi la Cloudera's Distribution of Apache Hadoop (CDH).

Pour ses clients utilisant déjà Hadoop, l'acquisition d'Oracle Big Data Appliance n'est pas obligatoire.  Des techniques alternatives sont disponibles pour charger des données extraites d'Hadoop dans une base Oracle cible.

L'option In-Database Analytics

L'option In-Database Analytics, à mettre en oeuvre sur Oracle Database 11g, permet l'utilisation de techniques d'analyses avancées :

  • Oracle R Enterprise (abordé dans notre Blog récemment)
  • In-Database Data Mining
  • In-Database Text-Mining
  • In-Database Semantic Analysis
  • In-Database Spatial
  • In-Database MapReduce

Oracle Big Data Appliance et Oracle Exadata

L'association d'Oracle Big Data Appliance et d'Oracle Exadata permet d'obtenir un cocktail explosif, lié entre autre à la liaison Infiniband qui relie ces deux Appliances :

Schéma Oracle Big Data Appliance et Oracle Exadata

Bien sûr, il est également possible de relier un serveur Oracle BigData Appliance avec un serveur Database plus traditionnel (sans forcément mettre en place un Exadata).

Voilà ce qui pouvait être présenté en quelques lignes sur ce sujet qui va prendre un essor considérable : le Big Data.

Un prochain billet de ce Blog présentera plus en détail les composants de l'offre Big Data d'Oracle.

Voici quelques liens sur ce sujet : http://www.oracle.com/us/technologies/big-data/index.html http://www.oracle.com/us/products/database/big-data-appliance/overview/index.html http://www.oracle.com/technetwork/database/nosqldb/overview/index.html http://www.oracle.com/us/corporate/analystreports/infrastructure/winter-big-data-1438533.pdf   Vous souhaitez en savoir plus ? Contactez-nous

copy-link