Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies »

Présentation

(Aller directement à la consultation des corpus XML/TEI)

Nous présentons des corpus Twitter XML et TEI quotidiens correspondant à des extractions et analyses automatiques de twitter sur la base de mots-clés afin d’illustrer les moyens d’outils de veille informative aisément déployables pour tous types de sujets. Le moteur d’authentification et de recherche est développé en XQuery grâce au moteur de bases de données Basex (http://www.basex.org).

Toutes les deux heures, nous effectuons une moisson de tweets que nous collectons et trions sur la base d’indices linguistiques qui peuvent être étendus (synonymie, multilinguisme) pour obtenir une cartographie quotidienne des emplois du mot sur le réseau. Dans le cas « Humanités numériques », on remarque assez rapidement sur la frise chronologique que les emplois du mot suivent le calendrier académique, avec de fortes accalmies les week-ends; mais aussi que les discours institutionnels les utilisent le plus souvent; enfin que des acteurs de pays émergents sont en train d’occuper cet espace politique et de culture.

Ces tweets sont automatiquement et au vol adaptés pour nourrir des outils de représentation graphique:

analyse des tweets francophones et anglophones sur le sujet

Hall of fame des tweetos sur le sujet

Annuaire des personnalités concernées

Moteur de requête directement connecté  l’API

Le but de cette collecte est avant tout de montrer les potentialités du développement des usages des bases de données XML qui permettent aux chercheurs de s’affranchir des machines à cliquer dont ils ne maîtrisent pas les fonctionnements, de souligner la puissance d’une veille automatique basée sur des critères linguistiques et enfin, de montrer le développement progressif de l’implantation des « humanités numériques » dans le débat politique et social actuel. Il s’agit donc d’une double visée, à la fois de recherche et technologique. Cet outil peut facilement être adapté à tout type de veille informative et peut produire automatiquement des données de visualisation, des tableaux de bord: pour en savoir plus, il est tout à fait possible de nous contacter pour mettre en oeuvre une solutions adaptée à des besoins de recherches, ou de tout type de projet d’entreprise innovante.

Consultations des Corpus

Nous moissonnons les données dans notre propre format, mais nous construisons une extraction au vol, sur simple consultation des URLS, au format TEI en présentant les données essentielles (nom, surnom, identifiant du tweet, texte collecté, images pertinentes). Les paramètres linguistiques sont déduits de l’emploi des mots plutôt que des données informatives de twitter :

Consulter le corpus XML/TEI des tweets 2017:

Consulter le corpus XML/TEI des tweets 2018:

Corpus 2018 : http://www.sciencedutexte.fr/twitter/bdd/2018

 

Application réalisée par Xavier-Laurent Salvador pour T.T.N dans le cadre des activités de recherches du lab’