img_header_blog

    Catherine Verdier

    Catherine Verdier

    Recent Posts

    Common-Crawl Première extraction et construction de statistiques

    [fa icon="calendar'] 31/07/20 15:37 / par Catherine Verdier dans Actu Ysance, Data, Data Services, Common Crawl

    [fa icon="comment"] 0 Commentaires

    Suite à notre premier article abordant le Programme “AWS Open Data”, nous allons nous intéresser au projet Common-Crawl, inclus dans ce programme, et présenter un exemple de code écrit en Python pour voir “comment exploiter le contenu des pages WEB mises à disposition par ce projet”.

    Lire la suite [fa icon="long-arrow-right"]

    AWS Open Data Program

    [fa icon="calendar'] 16/07/20 18:04 / par Catherine Verdier dans Actu Ysance, Data, Data Services, aws

    [fa icon="comment"] 0 Commentaires

    Le développement de l’Open Data

    Depuis environ les années 2000, un nombre grandissant d'États et d’Administrations mettent à disposition un partie des données qu’elles produisent.

    En effet, au même titre que leurs acteurs militants du logiciel libre considèrent que les progrès technologiques doivent faire partie du bien commun, ce même paradigme est apparu pour la data que certains ont qualifiée de nouvel “Or Noir du XXIème siècle”.

    Lire la suite [fa icon="long-arrow-right"]

    Le moteur de requêtes Apache Drill

    [fa icon="calendar'] 20/05/20 14:46 / par Catherine Verdier dans Actu Ysance, Data Services, Apache Drill, expert

    [fa icon="comment"] 0 Commentaires

    Apache Drill, qu’est-ce que c’est ?

    Apache Drill est un moteur de requêtes distribué avec lequel il est possible d’effectuer des requêtes SQL sur de multiples types de datasources (bases de données SQL ou NoSQL, fichiers Apache Parquet, fichiers CSV, JSON, … etc …)

    Lire la suite [fa icon="long-arrow-right"]

    S'abonner au blog