Exploration de do...
Follow
Find
1.6K views | +0 today
Exploration de données
Veille autour de l'exploration de données
Curated by cyberlabe
Your new post is loading...
Your new post is loading...
Scooped by cyberlabe
Scoop.it!

Est-il possible de bannir un « troll » avant qu’il ne sévisse ?

Peut-on identifier un troll avant qu'il ne ruine une conversation en ligne ? Des chercheurs des universités américaines Stanford et Cornell pensent avoir construit un algorithme qui permet de prédire, dès les cinq à dix premiers commentaires d'une personne, si elle finira par être bannie par les modérateurs. Taux de fiabilité estimé : 80 %, rapporte la MIT Technology Review.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Temporal Effects in Trend Prediction: Identifying the Most Popular Nodes in the Future

Temporal Effects in Trend Prediction: Identifying the Most Popular Nodes in the Future | Exploration de données | Scoop.it
Prediction is an important problem in different science domains. In this paper, we focus on trend prediction in complex networks, i.e. to identify the most popular nodes in the future. Due to the preferential attachment mechanism in real systems, nodes’ recent degree and cumulative degree have been successfully applied to design trend prediction methods. Here we took into account more detailed information about the network evolution and proposed a temporal-based predictor (TBP). The TBP predicts the future trend by the node strength in the weighted network with the link weight equal to its exponential aging. Three data sets with time information are used to test the performance of the new method. We find that TBP have high general accuracy in predicting the future most popular nodes. More importantly, it can identify many potential objects with low popularity in the past but high popularity in the future. The effect of the decay speed in the exponential aging on the results is discussed in detail.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Des universitaires créent un Siri open source pour révolutionner ce marché

Des universitaires créent un Siri open source pour révolutionner ce marché | Exploration de données | Scoop.it

« Sirius est un service d’assistant personnel intelligent ouvert de bout en bout qui fonctionne à la voix et visuellement », explique le site Web de Clarity Lab. L’assistant intègre en effet une fonction de reconnaissance vocale, un traitement des questions en langage naturel, un système de question réponse et un outil, qui « définit un nouvel état de l’art » dans ce domaine, explique Jason Mars, en charge du projet, puisqu’il permet la reconnaissance d’images. On prend en photo la Tour Eiffel, par exemple, et Sirius nous dit de quoi il s’agit en cherchant dans une base de données (en provenance de Wikipedia pour une grande partie). Une fonction qui n’existe pas encore sur iPhone, par exemple.

 

 

more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Média et contenu : quand les robots raconteront des histoires

Média et contenu : quand les robots raconteront des histoires | Exploration de données | Scoop.it

Créée en 2010 pour commercialiser les technologies développées à l’université de Northwestern, Narrative Science loue désormais les services de Quill pour des mastodontes de la finance comme T. Rowe Price, le Créduit Suisse ou USAA. Son talent ? Savoir écrire des rapports en profondeur sur les performances de fonds communs de placement qui seront ensuite distribués aux investisseurs et régulateurs. « Quill arrive à produire des documents de 10 à 15 pages en quelques secondes, là où il faudrait une armée d’analystes pendant plusieurs semaines », résume Stuart Frankel. Sur l’utilisation du logiciel par certaines agences de renseignement, dont In-Q-Tel, la division investissement de la CIA, le CEO se montre plus manichéen dans ses explications.

Comme le rappelle la MIT Technology Review, Quill ne peut pas écrire sans s’appuyer sur de la data numérique, sur laquelle il se base pour réaliser des analyses statistique. Pour mieux comprendre comment fonctionne le logiciel, le chef scientifique de Narrative Science, et professeur en science de l’informatique à Northwestern, Kristian Hammond explique que le software est programmé avec des règles d’écriture qu’il utilise pour structurer ses phrases, paragraphes et pages. « Nous savons comment présenter une idée sans se répéter et comment être concis », précise Kristian Hammond.

more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

The researcher’s guide to literature: Visualising crowd-sourced overviews of knowledge domains.

The researcher’s guide to literature: Visualising crowd-sourced overviews of knowledge domains. | Exploration de données | Scoop.it
Given the enormous amount of new knowledge produced every day, keeping up-to-date on all the literature is increasingly difficult. Peter Kraker argues that visualizations could serve as universal guides to knowledge domains. He and colleagues have come up with an interactive way of automating the visualisations of entire fields along with relevant articles. Through similarity measures identified in a Mendeley-powered data-set, a researcher can see the intellectual structure of a field at a glance without performing countless searches.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

L'aversion aux algorithmes - Knowledge@Wharton

nos biais cognitifs nous font perdre plus rapidement confiance dans les algorithmes que dans les humains quand ils font une erreur et ce même quand les algorithmes font la démonstration de leur supériorité.
C’est ce qu’explique Matthew Hutson dans le Boston Globe. Les gens sont réticents à donner une seconde chance aux algorithmes quand ils semblent se tromper, et ce quand bien même les machines ont un taux de succès global plus élevé que nos propres décisions. Que ce soit par rapport à un algorithme qui vous propose un vin pour accompagner votre plat au restaurant, que par rapport à vos rapports avec votre GPS.

more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Is Incomplete Twitter Data Skewing Social Analytics?

Is Incomplete Twitter Data Skewing Social Analytics? | Exploration de données | Scoop.it
The Twitter Streaming API doesn’t allow access to the “firehose,” the total data pool, but rather to a peculiar 1% of total streams, a data bank generally called the “spritzer.” A recent research study found biased results when comparing the spritzer alongside a random 1% taken from the firehose, without clear methods as to how these samples were generated.

The Twitter Search API is problematic for additional reasons. Researchers can’t query a specific date in the past; they can only view posts from the previous week. Access is governed by a strict number of permitted calls, with a maximum return rate estimated at 450 calls per 15 minutes using multiple access tokens. In comparison to the 20 million posts being made every hour on Twitter, this is but a minuscule fraction.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Bientôt tous journalistes ?

Bientôt tous journalistes ? | Exploration de données | Scoop.it

Une équipe de chercheurs américains et portugais a mis au point un algorithme permettant de vérifier automatiquement des informations en ligne.
Selon les chercheurs, cette nouvelle méthode de vérification pourrait être utilisée par Wikipedia pour vérifier tous les nouveaux faits introduits dans l'encyclopédie.
Certains imaginent déjà une extension qui serait intégrée à nos navigateurs et qui permettrait de vérifier directement les informations trouvées sur le web.
Le gain de temps ne serait pas négligeable pour les journalistes qui ont une quantité importante d'informations à vérifier. La fonction même de journaliste pourrait être remise en cause.

 

 

more...
No comment yet.
Rescooped by cyberlabe from Le sens des choses
Scoop.it!

Linguistic Mapping Reveals How Word Meanings Sometimes Change Overnight

Linguistic Mapping Reveals How Word Meanings Sometimes Change Overnight | Exploration de données | Scoop.it
Data mining the way we use words is revealing the linguistic earthquakes that constantly change our language.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

The Dark Market for Personal Data

The Dark Market for Personal Data | Exploration de données | Scoop.it
THE reputation business is exploding. Having eroded privacy for decades, shady, poorly regulated data miners, brokers and resellers have now taken creepy classification to a whole new level. They have created lists of victims of sexual assault, and lists of people with sexually transmitted diseases. Lists of people who have Alzheimer’s, dementia and AIDS. Lists of the impotent and the depressed.

There are lists of “impulse buyers.” Lists of suckers: gullible consumers who have shown that they are susceptible to “vulnerability-based marketing.” And lists of those deemed commercially undesirable because they live in or near trailer parks or nursing homes. Not to mention lists of people who have been accused of wrongdoing, even if they were not charged or convicted.

Typically sold at a few cents per name, the lists don’t have to be particularly reliable to attract eager buyers — mostly marketers, but also, increasingly, financial institutions vetting customers to guard against fraud, and employers screening potential hires.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Partenariat entre Twitter et IBM autour de l’analyse de données

Partenariat entre Twitter et IBM autour de l’analyse de données | Exploration de données | Scoop.it
Twitter et IBM ont annoncé hier un partenariat stratégique qui verra Big Blue exploiter la masse de données générées par le site de microblogging dans ses applications analytiques. Le but est d’offrir aux entreprises des outils décisionnels en leur fournissant des indications sur les tendances de consommation et la perception des marques et des produits. Pour ce faire, les données Twitter seront intégrées aux plateformes cloud Watson et Bluemix.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Mu Sigma Launches muUniverse™

Mu Sigma, a leading private decision sciences and big data analytics company, has announced the launch of muUniverse™, a new product that serves as a Google Maps for decisions that helps leaders choose the right path. By bringing technologies, people and methodologies together under one roof, muUniverse is designed to give decision makers at Fortune 500 companies a complete view of their business decisions, allowing them to navigate an increasingly complex set of interconnected problems they face in areas such as sales, marketing, finance, supply chain, risk, and others.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Publier à l’ère des Big Data

Publier à l’ère des Big Data | Exploration de données | Scoop.it
Kobo a publié un passionnant livre blanc (.pdf) sur les Big Data appliquées au monde de l'édition.

Kobo y explique que l'analyse des données va devenir la base de la compétition, de la productivité et de l'innovation, même dans le monde de l'édition. Pourquoi ? Parce que les données vont permettre de connaître l'engagement des clients avec le livre. Elles vont permettre de savoir quels livres électroniques n'ont pas été ouverts, lesquels ont été lus jusqu'au dernier mot, à quelle vitesse... On pourrait croire que ces informations ne concernent pas les éditeurs, puisque pour eux, l'important est que le livre soit vendu. Et bien Kobo fait brillamment la démonstration du contraire.

Connaître l'engagement des lecteurs avec les auteurs (et pas seulement les ventes), va permettre aux éditeurs de savoir sur quels auteurs, sur quelles franchises investir. Pour Kobo, l'engagement se mesure en rapprochant les ventes de l'achèvement des lectures, c'est-à-dire le taux de lecteurs qui terminent le livre électronique qu'ils ont acheté.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Un logiciel d'anonymisation pour le big data

Un logiciel d'anonymisation pour le big data | Exploration de données | Scoop.it
Le big data, c’est bien, mais encore faut-il pouvoir utiliser les données récoltées. Les lois qui protègent la vie privée interdisent d’exploiter les données personnelles des utilisateurs, à moins de les anonymiser. Or, les méthodes classiques de protection de la confidentialité échouent quand on les applique à de gros volumes de données. Dans le cadre du projet Lamane, Said Oulmakhzoune et Sabir Idrees, chercheurs à Télécom Bretagne, ont mis au point le premier logiciel permettant d’anonymiser des bases de données massives de manière personnalisée.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Des métriques d’affaires… aux métriques “humaines”

Des métriques d’affaires… aux métriques “humaines” | Exploration de données | Scoop.it
Les Big Data promettent de prédire le comportement des salariés… mais pour l’instant, ça ne fonctionne pas encore si bien que ça, estime Bourree Lam pour The Atlantic. Pourtant, cela commence à faire quelques années que les entreprises ont réalisé qu’elles étaient assises sur une masse de données pour mieux comprendre leurs employés et prendre de meilleures décisions de management, estime Josh Bersin fondateur du cabinet Bersin, une filiale de Deloitte spécialisée dans ces questions. Une industrie de l’analyse des employés est pourtant née, notamment autour d’entreprises qui utilisent des algorithmes et des données pour le recrutement (voir “L’emploi à l’épreuve des algorithmes”). Selon un rapport de McKinsey, les technologies sociales, comme les réseaux sociaux d’entreprises pourraient augmenter ‘le bonheur au travail’ des employés… enfin surtout leur productivité.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Google wants to rank websites based on facts not links

Google wants to rank websites based on facts not links | Exploration de données | Scoop.it

A Google research team is adapting that model to measure the trustworthiness of a page, rather than its reputation across the web. Instead of counting incoming links, the system – which is not yet live – counts the number of incorrect facts within a page. "A source that has few false facts is considered to be trustworthy," says the team (arxiv.org/abs/1502.03519v1). The score they compute for each page is its Knowledge-Based Trust score.

The software works by tapping into the Knowledge Vault, the vast store of facts that Google has pulled off the internet. Facts the web unanimously agrees on are considered a reasonable proxy for truth. Web pages that contain contradictory information are bumped down the rankings.

 

 

more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Memex, quand la Darpa développe un moteur de recherche pour le web non-indexé

Memex, quand la Darpa développe un moteur de recherche pour le web non-indexé | Exploration de données | Scoop.it
Les crawlers développés par ces sociétés dédaignent en effet de nombreux sites web, pour des raisons parfois très différentes mais la plupart du temps dans un but d’efficacité : Google cherche avant tout à faire remonter les pages les plus populaires et les plus pertinentes. Comme l’explique le communiqué de la Darpa, Memex entend prendre le problème par l’autre bout de la lorgnette et indexer les pages habituellement délaissées par les moteurs de recherche commerciaux.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Maybe we need an automation tax

Maybe we need an automation tax | Exploration de données | Scoop.it
Imagine that a large company decides to significantly increase the level of automation at one of its facilities. A facility that currently employs a substantial number of men and women doing relatively low-skill tasks, which can now be done by a new generation of robots. Most of the workers get laid off, which for them and their families, leads to real hardship. The company was the only large employer in the area, which is economically depressed (one of the reasons perhaps that the company built the facility there in the first place), so finding alternative work is really difficult. And because most of those jobs were minimum wage, with little or no job security, redundancy payouts are small or non-existent, and this of course means that the laid-off workers have no financial buffer to help them re-skill or relocate.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

La science prédictive appliquée aux modèles d’affaires

Les données peuvent-elles aider à évaluer, statistiquement plutôt qu’intuitivement, les business models des startups pour aider à investir sur les sociétés qui devraient marcher ? C’est ce qu’envisage l’investisseur et scientifique des données Thomas Thurston.

Ses simulations auraient prédit que Snapchat, Uber et Airbnb deviendraient de grandes entreprises. Ses modèles se vérifient à 66% pour estimer qu’une entreprise sera encore présente dans 5 ans. Et quand elles prédisent qu’une entreprise va échouer, ses données s’avèrent exactes à 88%. Thurston dirige Growth Science (la science de la croissance) un cabinet de conseil qui vend ses prédictions à de grandes entreprises. Il estime que ses simulations pourraient avoir un effet radical sur le monde des affaires, même s’il reconnaît que ses modèles ont encore besoin d’être affinés.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Les voitures intelligentes créent plus de bouchons. C’est ballot

Les voitures intelligentes créent plus de bouchons. C’est ballot | Exploration de données | Scoop.it

Les chercheurs ont testé seize scénarios différents, en jouant sur la vitesse d’accélération et de décélération des véhicules, la durée des feux ou la distance entre les véhicules. A chaque fois, en démarrant et en freinant plus doucement que les humains, les voitures autonomes ont ralenti le trafic. The Atlantic, qui relaye cette étude, tire cette conclusion :
« Si nous voulons qu’un trajet en voiture sans chauffeur soit aussi confortable qu’un trajet en train, il faut savoir qu’on passera aussi plus de temps dans les bouchons. »

more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Petite bibliographie critique sur les Big Data

Les Big Data sont devenu(e)s (comme les algorithmes, l’e-réputation, etc.) une sorte « d’objet » qui cristallise de nombreux imaginaires, promesses, utopies, voire idéologies. Voici une liste (loin d’être exhaustive –voir les compléments à la fin du billet) de ressources/références critiques à prendre en compte lorsqu’on s’intéresse au sujet.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Grippe, dengue, tuberculose, comment Wikipedia permet de prédire les épidémies

L’analyse des pages vues de l’encyclopédie en ligne Wikipedia pourraient constituer une méthode de détection précoce des épidémies et même de les anticiper, avant que le système traditionnel de surveillance épidémiologique ne les ait enregistrées. Ce principe a déjà été utilisé par Google à partir des requêtes d’internautes en l’appliquant aux épidémies de grippe. Cette fois, une équipe de chercheurs du Laboratoire national de Los Alamos (Nouveau Mexique) démontre la validité de ce concept en s’appuyant sur les pages vues sur Wikipedia.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

‘Data smashing’ could automate discovery, untouched by human hands

‘Data smashing’ could automate discovery, untouched by human hands | Exploration de données | Scoop.it

From recognizing speech to identifying unusual stars, new discoveries often begin with comparison of data streams to find connections and spot outliers. But simply feeding raw data into a data-analysis algorithm is unlikely to produce meaningful results, say the authors of a new Cornell study.
That’s because most data comparison algorithms today have one major weakness: somewhere, they rely on a human expert to specify what aspects of the data are relevant for comparison, and what aspects aren’t.
But these experts can’t keep up with the growing amounts and complexities of big data.
So the Cornell computing researchers have come up with a new principle they call “data smashing” for estimating the similarities between streams of arbitrary data without human intervention, and even without access to the data sources.

more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

Big Data: New Oil or Snake Oil? | WIRED

Big Data: New Oil or Snake Oil? | WIRED | Exploration de données | Scoop.it
There are two differing perspectives on Big Data and its value. One is that it is a valuable commodity that flows through an organization powering the engines of new insight and action, the other is that Big Data is no more than a collection of sometimes outrageous claims. Each argument has merit and interestingly, both are right, but the distinction between value and snake oil is becoming quickly obvious, despite the hype.
more...
No comment yet.
Scooped by cyberlabe
Scoop.it!

'Data smashing' could unshackle automated discovery

'Data smashing' could unshackle automated discovery | Exploration de données | Scoop.it
A little-known secret in data mining is that simply feeding raw data into a data analysis algorithm is unlikely to produce meaningful results, say the authors of a new Cornell study.

From recognizing speech to identifying unusual stars, new discoveries often begin with comparison of data streams to find connections and spot outliers. But most data comparison algorithms today have one major weakness – somewhere, they rely on a human expert to specify what aspects of the data are relevant for comparison, and what aspects aren’t. But experts aren’t keeping pace with the growing amounts and complexities of big data.

Cornell computing researchers have come up with a new principle they call “data smashing” for estimating the similarities between streams of arbitrary data without human intervention, and without access to the data sources.
more...
No comment yet.