Après le Cloud et le Streaming de données, la grande nouveauté est certainement l’arrivée du concept de Data Mesh (nous trouvons ce mot trop élégant en anglais pour se risquer à le traduire).
Data Mesh, un phénomène de mode ?
[fa icon="calendar'] 10/06/21 11:07 / par Laurent Letourmy dans Data, Data Architecture, cloud, Data Mesh
Adopter la Culture Produit pour lancer des initiatives dont le Produit est la Donnée
[fa icon="calendar'] 17/03/21 08:25 / par Laurent Letourmy dans Data, Data Engineer, product

Image tirée de slon.pics Suite
Il a été rédigé par Micha Kunze qui nous a très aimablement autorisé à le traduire.
Cet article a été originellement publié ici : https://towardsdatascience.com/develop-your-data-as-a-product-f9ba268c4e20
Publication originale : 31 octobre 2020 · 7 min de lecture
Pratiques de Data Engineering
4 principes de Data Mesh pour créer une R&D data-driven
[fa icon="calendar'] 10/03/21 07:30 / par Laurent Letourmy dans Data Quality, Data, Data Architecture, Mesh
Mettre en œuvre des principes de Data-Mesh pour mettre à l'échelle la couche de données de votre organisation
Comment passer d'un DataLake monolithique à un Data Mesh distribué
[fa icon="calendar'] 03/03/21 08:10 / par Laurent Letourmy dans Data, Data Lake, Machine Learning, Data Architecture, Data Scientist, Data Engineer, temps réel, Data Mesh
De nombreuses entreprises investissent dans leur lac de données de nouvelle génération, dans l'espoir de démocratiser les données à grande échelle pour fournir des informations commerciales et, en fin de compte, prendre des décisions intelligentes automatisées. Les plateformes de données basées sur l'architecture du lac de données ont des modes de défaillance communs qui conduisent à des promesses non tenues à grande échelle. Pour faire face à ces modes de défaillance, nous devons passer du paradigme centralisé d'un lac ou de son entrepôt de données prédécesseur. Nous devons passer à un paradigme qui s'inspire de l'architecture distribuée moderne: considérer les domaines comme la préoccupation de premier ordre, appliquer la pensée de plate-forme pour créer une infrastructure de données en libre-service et traiter les données comme un produit.
Évolution des plateformes de données cloud en 2021: Le Lakehouse
[fa icon="calendar'] 26/02/21 16:01 / par Laurent Letourmy dans Data Management, Data, Data Architecture, cloud

Traduit depuis l’article : https://www.matillion.com/resources/blog/evolving-cloud-data-platform-opportunities-in-2021-the-lakehouse // Date de publication originale : 9 décembre 2020
La gestion des données cloud est à la hausse et les entreprises en prennent note. L'introduction en bourse de Snowflake à l'automne, ainsi que l' accélération de la compréhension des données en raison de la pandémie, ont augmenté la vitesse à laquelle les entreprises mettent en œuvre des stratégies de données cloud.
RCU - #1 - Les pièges à éviter
[fa icon="calendar'] 10/09/20 11:34 / par Guillaume Masseau dans Actu Ysance, Data, Data Services, rcu

A l’heure du customer-centric, le Référentiel Client Unique (RCU) est au coeur des projets d’entreprise.. Véritable pierre angulaire de la vision 360°, le RCU peut se résumer à une application qui contient l’unicité de l’identité de vos clients. Cependant, par expérience nous constatons que le plus souvent les données clients sont disséminées au sein du SI de l’entreprise et absolument pas centralisées entraînant :
- de très nombreux doublons,
- un manque de complétude,
- un risque majeur d’avoir des données disparates.
Common-Crawl Fouille de données Common-crawl avec ElasticSearch et Kibana
[fa icon="calendar'] 04/09/20 16:37 / par Catherine Verdier dans Actu Ysance, Data, Data Services, Common Crawl

Dans notre dernier article, nous avons vu comment extraire les données brutes des pages du Common-crawl et à partir des données de ces pages, nous avons produit quelques statistiques portant sur les langues utilisées dans les pages, les domaines internet des pages ainsi que sur la localisation (niveau pays) des serveurs d’où elles sont publiées.
Aujourd’hui, nous proposons de reprendre les données téléchargées et de constituer un corpus de textes. Nous indexerons ensuite ces données en “text intégral” (full-text en anglais) à l’aide du moteur ElasticSearch. Après cela, nous utiliserons l’application Kibana pour explorer en langage naturel les pages web enregistrées dans ElasticSearch.
Demain la data: Cloud-Native Softwares
[fa icon="calendar'] 07/08/20 10:26 / par Laurent Letourmy dans Actu Ysance, Data, Data Services
Common-Crawl Première extraction et construction de statistiques
[fa icon="calendar'] 31/07/20 15:37 / par Catherine Verdier dans Actu Ysance, Data, Data Services, Common Crawl

Suite à notre premier article abordant le Programme “AWS Open Data”, nous allons nous intéresser au projet Common-Crawl, inclus dans ce programme, et présenter un exemple de code écrit en Python pour voir “comment exploiter le contenu des pages WEB mises à disposition par ce projet”.
AWS Open Data Program
[fa icon="calendar'] 16/07/20 18:04 / par Catherine Verdier dans Actu Ysance, Data, Data Services, aws

Le développement de l’Open Data
Depuis environ les années 2000, un nombre grandissant d'États et d’Administrations mettent à disposition un partie des données qu’elles produisent.
En effet, au même titre que leurs acteurs militants du logiciel libre considèrent que les progrès technologiques doivent faire partie du bien commun, ce même paradigme est apparu pour la data que certains ont qualifiée de nouvel “Or Noir du XXIème siècle”.