img_header_blog

    Catherine Verdier

    Catherine Verdier

    Recent Posts

    Common-Crawl Fouille de données Common-crawl avec ElasticSearch et Kibana

    [fa icon="calendar'] 04/09/20 16:37 / par Catherine Verdier dans Actu Ysance, Data, Data Services, Common Crawl

    [fa icon="comment"] 0 Commentaires

    Dans notre dernier article, nous avons vu comment extraire les données brutes des pages du Common-crawl et à partir des données de ces pages, nous avons produit quelques statistiques portant sur les langues utilisées dans les pages, les domaines internet des pages ainsi que sur la localisation (niveau pays) des serveurs d’où elles sont publiées.

     

    Aujourd’hui, nous proposons de reprendre les données téléchargées et de constituer un corpus de textes. Nous indexerons ensuite ces données en “text intégral” (full-text en anglais) à l’aide du moteur ElasticSearch. Après cela, nous utiliserons l’application Kibana pour explorer en langage naturel les pages web enregistrées dans ElasticSearch.

    Lire la suite [fa icon="long-arrow-right"]

    Common-Crawl Première extraction et construction de statistiques

    [fa icon="calendar'] 31/07/20 15:37 / par Catherine Verdier dans Actu Ysance, Data, Data Services, Common Crawl

    [fa icon="comment"] 1 Commentaire

    Suite à notre premier article abordant le Programme “AWS Open Data”, nous allons nous intéresser au projet Common-Crawl, inclus dans ce programme, et présenter un exemple de code écrit en Python pour voir “comment exploiter le contenu des pages WEB mises à disposition par ce projet”.

    Lire la suite [fa icon="long-arrow-right"]

    AWS Open Data Program

    [fa icon="calendar'] 16/07/20 18:04 / par Catherine Verdier dans Actu Ysance, Data, Data Services, aws

    [fa icon="comment"] 0 Commentaires

    Le développement de l’Open Data

    Depuis environ les années 2000, un nombre grandissant d'États et d’Administrations mettent à disposition un partie des données qu’elles produisent.

    En effet, au même titre que leurs acteurs militants du logiciel libre considèrent que les progrès technologiques doivent faire partie du bien commun, ce même paradigme est apparu pour la data que certains ont qualifiée de nouvel “Or Noir du XXIème siècle”.

    Lire la suite [fa icon="long-arrow-right"]

    Le moteur de requêtes Apache Drill

    [fa icon="calendar'] 20/05/20 14:46 / par Catherine Verdier dans Actu Ysance, Data Services, Apache Drill, expert

    [fa icon="comment"] 0 Commentaires

    Apache Drill, qu’est-ce que c’est ?

    Apache Drill est un moteur de requêtes distribué avec lequel il est possible d’effectuer des requêtes SQL sur de multiples types de datasources (bases de données SQL ou NoSQL, fichiers Apache Parquet, fichiers CSV, JSON, … etc …)

    Lire la suite [fa icon="long-arrow-right"]

    S'abonner au blog