Un Data mart est l'une des clés pour transformer efficacement les données en connaissances exploitables dans un marché dominé par le big data (dont le volume augmente quotidiennement). Généralement, les data warehouses gèrent de grands ensembles de données, mais leurs capacités d'analyse des données doivent être flexibles. Les data marts permettent aux organisations intelligentes de faire les deux : volume et agilité.

Le terme "data mart" est de plus en plus courant, mais de quoi s'agit-il exactement ?

Data mart : c’est quoi exactement ?

Un data mart est une base de données dont le contenu est lié à l'activité d'une organisation et est conçu pour répondre aux besoins spécifiques d'un groupe d'utilisateurs. Habituellement, mais pas toujours, il s'agit d'un segment partitionné de le data warehouse de l'entreprise. Les data marts accélèrent les processus en permettant de définir l'accès aux données stockées dans un data warehouse (ou autre référentiel de données opérationnelles) en quelques jours plutôt qu'en plusieurs mois ou plus. Il s'agit d'une solution peu coûteuse qui transforme les données en connaissances exploitables.

Data mart vs data warehouse

Les data marts et les data warehouses sont des référentiels qui stockent et mettent à jour des données jusqu'à ce qu'un utilisateur en ait besoin à des fins professionnelles. La principale distinction entre ces deux types de référentiels de données est que les data warehouses sont conçus pour stocker toutes les données de l'entreprise, tandis que les data marts répondent aux besoins d'un seul service ou d'une seule fonction commerciale. La fonction principale d'un data mart est d'extraire un sous-ensemble de données d'un ensemble beaucoup plus vaste.

De plus, un data mart peut être construit à partir d'un data warehouse existant (approche "top-down") ou d'autres sources, telles que des systèmes opérationnels internes ou des données externes. Le data mart, comme le data warehouse, est une base de données relationnelle qui stocke les données transactionnelles (valeur temporelle, ordre numérique, référence à un ou plusieurs objets, etc.) en colonnes et en lignes, ce qui facilite leur structuration et leur consultation.

Les différents types de data mart

Il existe trois types de data mart : dépendant, indépendant et hybride. Le type de data mart est déterminé par sa relation avec le data warehouse et la source de données utilisée pour le créer.

Data mart dépendant

Un data mart dépendant est dérivé du data warehouse existant d'une organisation. Il s'agit d'une stratégie descendante qui commence par le stockage de toutes les données de l'entreprise dans un référentiel central, puis l'extraction d'un sous-ensemble clairement défini de données à des fins d'analyse.

Certes, un ensemble spécifique de données est extrait de data warehouse pour créer un data mart. Ces données sont regroupées dans un cluster, restructurées si nécessaire, puis chargées dans le data mart, où elles sont alors immédiatement accessibles. Il peut s'agir d'un sous-ensemble logique ou physique du data warehouse.

Data mart indépendant

Un data mart indépendant est un référentiel de données autosuffisant (créé sans utiliser un data warehouse préexistant) dont les données se rapportent à un des domaines ou activités de l'entreprise. Les données sont extraites de sources de données internes et/ou externes, transformées et chargées dans le data mart, où elles sont stockées en attendant d'être analysées.

Par ailleurs, concevoir et développer des data marts indépendants est une tâche très difficile. En effet, les data marts indépendants sont utiles pour atteindre certains objectifs à court terme, mais ils peuvent être difficiles à gérer du fait que chacun utilise ses propres outils et algorithmes ETL, en particulier lorsque les besoins de l'entreprise deviennent plus complexes.

Data mart hybride

Un data mart hybride combine les données d'un data warehouse existant avec des sources supplémentaires de données opérationnelles. Au niveau de l'entreprise, il combine les avantages de l'approche descendante (rapidité et facilité d'accès pour les utilisateurs) avec les avantages de l'approche ascendante.

Quelle est la structure d’un data mart ?

Un data mart peut être structuré à l'aide de différents types de schémas, notamment en étoile, en flocon de neige, en Data vault, etc. Les équipes informatiques utilisent généralement un schéma en étoile composé d'une ou plusieurs tables de faits dans une base de données relationnelle (par exemple, un ensemble d'indicateurs relatifs à un processus ou un événement particulier) qui renvoient à des tables de dimensions (clé primaire jointe à une table de faits).

En outre, un schéma en étoile a l'avantage de nécessiter moins de jointures lors de l'écriture de requêtes, car il n'y a pas de dépendances entre les dimensions. Cette configuration simplifie le processus de requête ETL, facilitant ainsi l'accès et la navigation des analystes.

Cependant, dans un schéma flocon de neige, les dimensions ne sont pas définies de manière distincte, mais elles sont normalisées pour réduire la redondance des données et préserver leur intégrité. La structure en flocon de neige nécessite moins d'espace de stockage pour les tables de dimensions, mais elle est nettement plus complexe (plusieurs tables à alimenter et à synchroniser) et la maintenance/mise à jour peut être difficile.

Les avantages du data mart

Gérer le big data et en tirer des informations exploitables est un défi auquel toutes les organisations sont confrontées, et la majorité d'entre elles y répondent en mettant en place des data marts plus stratégiques.

Accès efficace

Un data mart est une solution qui permet de gagner du temps pour accéder à un ensemble particulier de données afin de les utiliser dans le cadre de la business intelligence.

Alternative rentable au data warehouse

Les data marts peuvent également servir d'alternative peu coûteuse au développement de data warehouse pour les organisations qui ont besoin de petits ensembles de données. Un data mart autonome peut être opérationnel en moins d'une semaine.

Améliorer les performances d’un data warehouse

Les data marts dépendants et hybrides peuvent améliorer les performances d'un data warehouse en prenant en charge une partie de la charge de travail correspondant aux besoins de l'analyste. Lorsque les data marts dépendants sont installés dans un bâtiment distinct de l'entrepôt de données, ils peuvent réduire considérablement les coûts associés au traitement analytique.

Autres avantages des data marts

Maintenance : Les différents départements sont en mesure de posséder et de contrôler leurs propres données.

Configuration très simple : la configuration des data marts au design très simple nécessite moins d'expertise technique.

Analytique : ils simplifient le suivi des indicateurs clés de performance.

Point d'entré : Les data marts peuvent servir de base à une future initiative du data warehouse d'entreprise.

Les perspectives des data marts est dans le cloud

data mart vs data warehouse

Malgré l'adaptabilité et l'efficacité des data marts, les big data sont souvent trop volumineuses pour les solutions sur site. De la même manière que les data warehouses et les data lacs migrent de plus en plus vers le cloud, il est probable que les data marts suivent le mouvement.

De plus, avec une plateforme cloud partagée pour la création et le stockage des données, l'accès et l'analyse deviennent nettement plus efficaces. Il est possible de définir des clusters de données transitoires pour les analyses à court terme et de regrouper plusieurs clusters de données persistants pour les tâches plus exigeantes.

Les data marts de clouds dépendants et hybrides présentent d'autres avantages, notamment les suivants :

  • Une architecture adaptable avec des applications cloud natives.
  • Un référentiel central pour tous les data marts.
  • Consommation de ressources à la demande.
  • Un accès immédiat et en temps réel aux données.
  • Une efficacité accrue.
  • Consolidation des actifs pour réduire les dépenses.
  • Analyses interactives en temps réel

Les moteurs d'analyse Apache Spark et Hadoop Hive permettent le développement et le déploiement rapides de data marts. La plateforme intègre des fonctions avancées d'analyse en temps réel, de machine learning et d'autres capacités, ce qui élimine la nécessité de développer des systèmes propriétaires.

Premières actions avec un data mart

Il est communément admis que les data warehouses garantissent l'exactitude et la cohérence des données d'une organisation. Un data mart peut également fournir une partie de cette assurance pour des besoins particuliers.

Certes, les entreprises sont confrontées à des quantités massives de données et à un besoin en constante évolution de transformer ces données en ensembles de données gérables, analysables et compréhensibles. Les data marts basés sur le cloud offrent une solution évolutive et durable.