|
Réflexion sur l'utilisation de la détection d'auteur, dérivée de la détection de langue, sur Google, et sur ses implications possibles pour le référencement d'un site.
(réponse au billet sur WebContentSpinning)
de 1989 à 2010, pas mal du tout.
Cours et TP de l'Institut de Linguistique et Phonétique Générales et Appliquées (ILPGA). De nombreux exemple de code expliqués.
LSA/LSI selon Wikipedia. Article trop théorique pour être exploité directement mais qui offre de bonnes bases de réflexion.
|
Centre National de Ressources Textuelles et Lexicales
Portail lexical du Laboratoire ATILF, regroupe des ressources linguistiques et sémantiques (du dictionnaire de synonymes jusqu'au synthétiseur de voix). Le tout, en français.
Cette note fait suite à un commentaire de Laurent Bourrelly dans le billet consacré au content spinning et aux synonymes.
Script PHP détaillant l'utilisation de l'algorithme de Simhash par calculer la similarité de texte.
Mesure de similarité via fingerprint SimHash et distance de Hamming.
Calculer la fréquence des mots d'un texte, Une fonction qui permet de calculer le nombre d’occurrence des mots dans un texte - PHP...
A partir d'un texte, la fonction PHP présentée établit un vecteur en fonction des occurrences de chaque mot.
En matière de content spinning, les synonymes sont les meilleurs amis des moteurs de recherches pour détecter les near-duplicate.
Réflexions sur l'emploi des synonymes dans une application de content spinning.
|
