jeudi 30 décembre 2010

2010 année du NoSQL


Dans cette présentation , Kevin Weil responsable du secteur analyse des données chez twitter (lien ici ) détaille comment l'architecture de twitter a évolué pour faire face à l'accroissement des volumes.

Le conférencier use d'un argument massue : Le volume quotidien de donnée sur twitter est de 12 TB. Sachant qu'un disque ne peut traiter que 80 MB/s , il faudrait 41 Heures pour traiter les données d'un journée.
Conclusion : il a été nécessaire de paralléliser les traitements et le stockage des données.
Aussi twitter utilise l'infrastructure distribuée HADOOP d'Apache avec tous les produits dérivés dont le langage 'PIG'.
PIG permet de réduire considérablement la quantité de code à écrire et le temps d'exécution

Ce qui est nouveau dans la démarche , c'est l'hétérogénéité des solutions employées.
Une entreprise cherche normalement à réduire au maximum le nombre de composant de son SI (un seul type de base données, un seul framework etc) . Twitter ou facebook utilisent une kyrielle de produits souvent concurrents (Ruby on Rails , scala , cassandra, HBase, FLockDB).
Alors pourquoi ces choix ? Et comment les assumer au sein de l'entreprise ?.

Aucun commentaire: