Ysance - Your Data in Action

    Conseil N°4 pour être un super Data Engineer

    [fa icon="calendar"] 07/02/20 08:15 / par Laurent Letourmy

    2019-12-04-Conseil4-Data-Engineer

    L’idempotence n’a plus secret pour vous, alors on continue ? Ce conseil peut-être vu comme un complément au conseil précédent. C’est une recommandation assez technique mais souvent oubliée lorsqu’on implémente “sur-son-environnement-et-que-tout-fonctionne”.

    Conseil N°4 : Un job est responsable de son environnement de travail

    Certains jobs vont créer des espaces de travail pour stocker les résultats intermédiaires d’un traitement. 

    Ce sont généralement des fichiers ou des tables temporaires.

    Une très bonne gestion de ces données temporaire s’impose pour éviter des écueils classiques :

    • le full disk,
    • les fichiers temporaires des précédents jobs qui s'accumulent avec le temps jusqu’à ce qu’il ne reste plus de place disponible.
    • le “file already exists” quand un traitement est relancé après un incident,
    • la perte d’intégrité de données par l’utilisation d’une table temporaire avec le résidu d’un traitement  précédent.

    Pour éviter ce type de problème fréquent, vous devez donc penser à prévoir a minima en fin de traitement et de manière idéale en début, à vous assurer que l’espace de travail de votre job est propre, peut-être logger des warnings en cas d’espace disque réduit, dans tous les cas nommer vos ressources temporaires de telle sorte qu’elles ne soient pas mises en concurrences avec d’autres jobs, et facilement nettoyables par votre propre job.

     

    Conclusion: Conseil basique nous direz-vous peut-être ? Oui certes, mais qui n’a jamais laisser son propre bureau (espace de travail, qu’il soit physique ou virtuel) se remplir un peu plus tous les jours avant de démarrer sa journée de travail ? :)

    A très vite pour le conseil n°5 qui abordera le dimensionnement des jobs, sujet passionnant.

    ____________________________________________

    Pour relire le conseil N°3 c'est par ici

    Pour relire le conseil N°2 c'est par ici

    Pour relire le conseil N°1 c'est par ici

     

    Pour postuler directement et joindre notre équipe de Data Engineer, c'est par ici.

    Thèmes : Actu Ysance, Data Services, Data Engineer

    Laurent Letourmy

    Par Laurent Letourmy

    Ingénieur Epita, il a débuté sa carrière dans le groupe Cross Systems dont il a co-fondé la filiale parisienne en 1996. La société connaît une forte croissance et le groupe s'introduit sur le Nouveau Marché en 1999 et atteindra une capitalisation de 800M€. Spécialiste reconnu des architectures transactionnelles, il y exerce diverses responsabilités techniques, managériales et commerciales et travaille avec des clients tels que le Club Med, Voyages-Sncf.com, Orange. Entrepreneur passionné de technologies innovantes, vainqueur de deux hackathons dans la Silicon Valley, investisseur actif au sein de nombreux projets pionniers B2B et B2C. En 2005, il co-fonde et dirige Ysance qui connaît un fort développement depuis ses débuts.

    S'abonner au blog