Ysance - Your Data in Action

    Conseil N°1 pour être un super Data Engineer

    [fa icon="calendar"] 05/12/19 15:47 / par Laurent Letourmy

    2019-12-04-Conseil1-Data-Engineer-1

    Démarrons par un sujet de conception devenu fondamental à l’ère de la RGPD, avant de se lancer plus en avant dans la technique.

    Conseil N°1 : Penser au cycle de vie d’une donnée dès la phase de conception.

    Une erreur souvent commise est de remettre à plus tard la réflexion autour de la question de la fin de vie d’une donnée. À quel moment une donnée doit-elle être supprimée ?

    Le traitement associé à la suppression de données n’est pas un sujet sur lequel on met généralement l’effort au début d’un projet, on se focalise plus rapidement sur les enjeux business plutôt que de penser à quand et surtout comment la donnée sera effacée et/ou archivée.

    Pourtant, depuis la mise en place de la réglementation européenne de protection des données personnelles (RGPD), ce sujet n’est pas à prendre à la légère. Le responsable d’un traitement associé à des données personnelles doit s’assurer du respect de cette réglementation notamment en termes de durée de conservation et de droit à l’oubli. L’entreprise s’expose à des sanctions lourdes (jusqu’à 4% du chiffre d’affaires) en cas de non-respect avéré.

    D’autre part, la durée de conservation d’une donnée peut impacter la manière dont les données doivent être modélisées. Une mauvaise modélisation peut conduire à la mise en place de traitements très lourds, voire impossibles à réaliser en l’état, si le cas de la suppression n’a pas été prévu. Il convient donc que les règles de gestion de suppression soient définies et les index et/ou les dates permettant de rechercher les données à supprimer soient correctement implémentés. Enfin, il est bon à savoir que certaines bases de données (Google BigQuery, Cassandra...) proposent des mécanismes de suppression automatique des données basés sur des durées de vie (lifecycle) faciles à mettre en oeuvre lors de l’implémentation initiale d’une table, mais beaucoup plus difficilement une fois en production.

    Conclusion:

    Nous espérons que ce premier conseil éveille de l’intérêt chez vous, il est tout aussi fonctionnel que technique. Nous aurons l’occasion de plus parler de technologie très prochainement.

    Le prochain conseil sera dédié aux modélisations de base de données distribuées qui ne suivent plus les modèles classiques (forme normale) que vous avez peut-être appris à l’école ou au début de votre carrière.

    Thèmes : Actu Ysance, Data Services, Data Engineer

    Laurent Letourmy

    Par Laurent Letourmy

    Ingénieur Epita, il a débuté sa carrière dans le groupe Cross Systems dont il a co-fondé la filiale parisienne en 1996. La société connaît une forte croissance et le groupe s'introduit sur le Nouveau Marché en 1999 et atteindra une capitalisation de 800M€. Spécialiste reconnu des architectures transactionnelles, il y exerce diverses responsabilités techniques, managériales et commerciales et travaille avec des clients tels que le Club Med, Voyages-Sncf.com, Orange. Entrepreneur passionné de technologies innovantes, vainqueur de deux hackathons dans la Silicon Valley, investisseur actif au sein de nombreux projets pionniers B2B et B2C. En 2005, il co-fonde et dirige Ysance qui connaît un fort développement depuis ses débuts.

    S'abonner au blog