img_header_blog

    Conseil N°7 pour être un super Data Engineer

    [fa icon="calendar"] 17/04/20 10:19 / par Laurent Letourmy

    2019-12-04-Conseil7-Data-Engineer

    Les bonnes pratiques peuvent parfois nous échapper. Pensez à séparer la logique d’orchestration de la logique de traitement et gardez vos données en parfaite harmonie. Nous allons continuer avec un axe majeur pour une architecture data réussie et durable : la scalabilité.

    Conseil N°7 : Utiliser des solutions scalables pour le traitement et le stockage de données

     

    En 2019, le déploiement d’une architecture monolithique peut être considérée comme une dette technique. Certains me contrediront en affirmant qu’il n’est pas toujours possible de mettre en place des architectures big data en début de projet. On doit souvent commencer avec peu de moyens, le temps de faire un proof of concept, avant d’obtenir le budget nécessaire pour passer à l’échelle. C’est vrai.

    Une architecture scalable n’est pas forcément une architecture dite “Big Data”. Par scalabilité, j’entends d’être en capacité de pouvoir ajouter davantage de ressources de calcul quand celles-ci sont en train d’atteindre leurs limites. Pas besoin d’un cluster Hadoop pour déclencher des traitements répartis sur plusieurs machines. Par exemple, une architecture de type Airflow / Celery organise l’exécution des traitements sur une ou plusieurs machines de façon robuste.

    Les bases de données classiques offrent, pour la plupart, un mode clusterisé, mais avant d’arriver à ce type de solution, ces bases peuvent déjà adresser plusieurs centaines de gigaoctets de données. Il est également possible de mettre en place une architecture en sharding (répartition des données sur plusieurs serveurs en fonction d’une clé).

    Enfin, de nombreuses solutions cloud offrent des solutions nativement scalables pour traiter et exposer de la donnée : Amazon Redshift, Google BigQuery, Azure Cosmos DB, MongoDB Atlas, etc. Elles ont pour avantage de vous affranchir, en majeure partie, des tâches d’exploitation et d’administration. Attention, elles n’ont cependant pas toutes le même rôle à jouer dans une architecture data.

     

    Conclusion:

    Les solutions de stockage sont de plus en plus variées et répondent à un grand nombre de scénarios: bases de données relationnelles, bases de données de documents, entrepôt de données, memory store, services managés, etc. Que votre projet soit en phase de conception ou en pleine production, le choix des bonnes technologies de stockage et de traitement de données reste crucial pour votre sérénité et celle de votre équipe. Avez-vous toujours des points d’interrogations ? Nos ingénieurs et architectes data mettront toutes leurs expertises entre vos mains.. 

    ____________________________________________

    Pour relire le conseil N°6 c'est par ici

    Pour relire le conseil N°5 c'est par ici

    Pour relire le conseil N°4 c'est par ici

    Pour relire le conseil N°3 c'est par ici

    Pour relire le conseil N°2 c'est par ici

    Pour relire le conseil N°1 c'est par ici

     

    Pour postuler directement et joindre notre équipe de Data Engineer, c'est par ici.

    Thèmes : Actu Ysance, Data Services, Data Engineer

    Laurent Letourmy

    Par Laurent Letourmy

    Ingénieur Epita, il a débuté sa carrière dans le groupe Cross Systems dont il a co-fondé la filiale parisienne en 1996. La société connaît une forte croissance et le groupe s'introduit sur le Nouveau Marché en 1999 et atteindra une capitalisation de 800M€. Spécialiste reconnu des architecture transactionnelles, il y exerce diverses responsabilités techniques, managériales et commerciales et travaille avec des clients tels que le Club Med, Voyages-Sncf.com, Orange. Entrepreneur passionné de technologies innovantes, vainqueur de deux hackathons dans la Silicon Valley, investisseur actif au sein de nombreux de nombreux projets pionniers B2B et B2C. En 2005, il co-fonde et dirige Ysance qui connaît un fort développement depuis ses débuts.

    S'abonner au blog