Il existe plusieurs techniques et moyens afin d'automatiser une collecte de données d'une page web, appelée également web scraping ou harvesting. Je ne parlerais pas ici de collecte de pages d'un site internet dans sa globalité, l'objectif n'est pas d'aspirer le site internet mais bien de collecter des données précises d'une page web.
Il existe pléthore de logiciels plus ou moins complexes selon le niveau de programmation de l'utilisateur que l'on peut utiliser. Après en avoir utilisé une petite dizaine, j'ai choisis de vous présenter un de mes préférés ne nécessitant que peu de connaissance en programmation et architecture de pages web : OutWit (développé qui plus est par un français et souvent mis à jour).
Partons donc d'un exemple concret pour voir quelle est la démarche entreprise et comment s'organise la collecte. Gardez en tête que la phase de collecte de données s'accompagne nécessairement d'une mise en forme type tableur Excel (il ne s'agit pas de récupérer pour récupérer mais bien d'également faciliter la lecture).
Lire la suite de l'article : http://goo.gl/tu4hKn
Via
Ma veille,
173 Sud