Blog Ysance

    Projet Big Data pour Harmonie Mutuelle

    [fa icon="calendar"] 21/02/17 12:03 / par Hélène Allouard

    Dans le cadre d’une série d’expérimentations de valorisation de ses données, utilisant les technologies de Big Data, Harmonie Mutuelle a choisi Ysance pour la réalisation d’un outil de Vision 360° à usage de la relation clients, avec un prolongement vers d’autres usages comme la segmentation client.

    Logo-Harmonie-Mutuelle-Large.jpg
    Porteurs du projet et partenaires

    Le projet a été porté conjointement par les directions techniques et métiers : en particulier, la Direction Innovation Numérique, la Direction Architecture, Méthodes du GIE SIHM (qui gère les fonctions IT du groupe Harmonie Mutuelle) et la Direction Marketing d’Harmonie Mutuelle.

    Ysance, pour sa part, est intervenue avec une équipe polyvalente intégrant des expertises d’architecture et développement Big Data, data science et expérience utilisateur.

    Ysance Plateforme Big-Data

    Le projet

    Harmonie Mutuelle possède un patrimoine de données de grande valeur qu’elle gère actuellement dans une architecture organisée en silos applicatifs. L’accès et la modification des données se fait par le biais de logiciels différents selon les secteurs fonctionnels. Aussi, dans l’architecture de données actuelle, le rapprochement des données issues de secteurs fonctionnels différents et, par conséquence leur exploitation (y compris la Vision 360°), sont difficiles, voire impossibles à achever.

    Démontrer la valeur des nouvelles technologies Big Data pour une entreprise comme Harmonie Mutuelle était le principal objectif du Projet Vision 720. Pour y arriver, nous avons choisi de bâtir un Data Lake à partir des données fournies par Harmonie Mutuelle et d’instancier plusieurs puits de données - ou « LakeShores » - en fonction des différents cas d’usages.

    Les données brutes proviennent de quatre silos de données et de secteurs fonctionnels différents : référentiel personne/signalétique, activité commerciale/SAV/équipement, prestations et courriers de gestion sortants. Elles ont été chargées en l’état dans le système de fichiers distribués HDFS (Hadoop Files System) et comme tables externes dans Hive. Par la suite, une opération de data crunching et de data cleaning nous a permis de générer les tables Hive constituant le Data Lake.

    Une série de cas d’usage pour prouver le potentiel d’une telle plateforme a été mise en place, pour lesquels plusieurs LakeShores ont été générés.

    Tout d’abord, un moteur de recherche Elasticsearch, permettant d’effectuer des requêtes simples et complexes, a été construit pour permettre des recherches rapides dans l’ensemble des données à disposition.

    Par la suite plusieurs cas d’usages relatifs à l’outil de visualisation ont été adressés, facilitant le rapprochement des données des différents silos et l’affichage sur une seule page des informations du client : informations personnelles, équipement, consommation et interactions avec la mutuelle. Des sources externes issus de l’Open Data (INSEE, IGN,...) ont permis d’enrichir à la fois les données et leur visualisation, d’où le nom de Vision 720 donné au projet.

    Harmonie Mutuelle Vision 720

    Finalement, en capitalisant sur la plateforme Big Data et sa capacité à traiter de grands volumes, deux exemples d’études orientées marketing et employant des méthodes de machine learning ont été proposés :

    • la réalisation d’un clustering/segmentation de la base des clients sans a priori, sur l’ensemble des données (et non sur des échantillons)
    • une étude se penchant sur les facteurs déclenchant du SAV. Ces études ont été menées sur des données entièrement anonymisées.

    Les technologies utilisées

    Les caractéristiques architecturales du projet Vision 720 ont été :

    • La mise en place d’un Data Lake sur Hadoop (distribution Hortonworks), qui a permis de réconcilier facilement les données issues des différents silos et de mettre en place l’instrument de visualisation clients.
    • La construction de LakeShores avec Hive on Tez, permettant d’utiliser une simple syntaxe SQL-like (HiveQL) pour écrire les scripts d’alimentation qui néanmoins exploitent toute la puissance du paradigme map-reduce (et de son « évolution » Tez).
    • La mise en place d’un moteur de recherche sur un serveur Elasticsearch permettant à l’utilisateur d’effectuer facilement des requêtes complexes sur plusieurs champs.
    • L’application de méthodes d’analyse classiques et modernes (machine learning) à des cas d’usages de « knowledge discovery « sur l’ensemble des données.

    Valorisation observée de la donnée

    • Le data crunching met en évidence l’importance de la qualité des données.
    • Un travail essentiel sur la réconciliation des données assure la pertinence du Data Lake.
    • L’outil de visualisation permet aux utilisateurs un accès synthétique, rapide et transverse à l’ensemble des informations clients.
    • La solution donne la possibilité d’effectuer des analyses de marché utilisant des approches modernes sur la totalité des clients.

    Étapes à venir et démarche Big Data chez Harmonie Mutuelle

    • L’expérimentation ayant montré une valeur métier, elle sera transformée en une solution pérenne.
    • Pour cela, la montée en compétence des équipes IT sera organisée au travers de l’internalisation de cette expérimentation.
    • D’autres expérimentations sont prévues afin d’aller plus loin dans les fonctions de « data visualisation ».

    Salon Big Data Paris 2017

     

    Thèmes : Big Data, Data Lake, Lake Shore, Elasticsearch, Hadoop, Data Visualisation, Machine Learning

    S'abonner au blog