Jeanne d'arc sur internet

Notes prises au fil de la présentation

Jeudi 19 septembre

9h45 Histoire et écriture numérique: l'exemple de la fiche Jeanne d'Arc sur Wikipédia, par Stéphane Lamassé avec Benjamin Deruelle et Léo Dumont.

Un travail ou scripts sont produits intégralement pcq contrôlés

Avons exhumé des sites qui faisaient renaître des discours XIXe sur Jeanne d'arc fille de mauvaise vie, bâtarde royale. Au même moment Colette Beaune sort une somme. Une interview

Au montage Jeanne d'arc brulée disparait

Elle est furieuse elle sort un bouquin, Jeanne d'Arc, vérités et légendes, Perrin, 2008

Question que peut un livre érudit à notre époque, au point qu'elle vient d'accepter un podcast

Une guerre des mémoire sur Internet

A origine travail avec L1 histoire

Les étudiants nous ont fait remonter des sites "révisionnistes" qui étaient les sites qui apparaissaient sur les premières lignes avec un moteur

Une coexistence de discours et de registre, et il y a occultation du discours académique au profit du sens commun.

Un matériau nouveau.

Plusieurs rapports à l'écrit qui se trouvent télescopés. Moins vrai ou vrai différemment avant internet.

Quand Wikipedia a commencé à grossir, se sont intéressés à émergence d'une nouvelle forme d'autorité. En avril 2008, 88% des requêtes sur internet passent par Google. S'interrogeait peu sur l'usage d'un instrument unique et le classement des réponses.

A même époque étudie pratiques internautes. Environ 10% des internautes vont au dela du rank 10. Wikipedia arrivant en tte, une nouvelle autorité se met en place.

WIki entend pacifier les débats et offre ses propres systèmes classification et qualification ds contenus et des contributeurs. A partir de 5 critères d'admissibilité entend juger qualité

- pertinence encyclo (citer, ref biblio)

- neutralité du point de vue. Ne pas favoriser un point de vue

- contenu est libre

- cordialité

Ces critères d'admissibilité déterminent la relation des universitaires à wiki

CB est blacklisté parc au nom neutralité n'admet pas introduction élément dont vous êtes l'auteur, donc refus introduction du savoir académique le plus récent. C'est vrai aussi pour les maths et l'informatique.

Les indicateurs récupérés par des collègues pour évaluer la qualité des fiches.

Trois exemples d'outils pour

-wikipedia bis Fekete. Propose naviguer dans wikipedia en conservant les fiches, dans une perspective évaluation qualité qui n'est pas ce que nous cherchons, Fanny Chevalier, Stéphane Huot and Jean-Daniel Fekete (2010) Visualisation de mesures agrégées pour l'estimation de la qualité des articles Wikipedia. In Proceedings of EGC 2010: Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances, Revue des Nouvelles Technologies de l'Information RNTI-E-??. Cépaduès-Éditions, pages 351-362.

- un outil python dev par collègues belges, qui permet récupérer et lemmatiser

- 3 e outil, un logiciel IBM history flow, permet un suivi des états temporels. Peut suivre les écritures de chaque contributeur, donc quelques débats, http://www.bewitched.com/historyflow.html

Permet d'aborder la dynamique temporelle et la façon dont la fiche se construit

Voulions aborder étude

- sans intérêt pour la notion qualité

- écriture de l'histoire dans et par l'espace public

Trois questions

- dans quelle mesure internet et wikipedia pris comme espace expérimentation prenaient en compte ou pas discours adac

- mode construction connaissance

- processus collabo construit une nouvelle norme ?

Def d'un corpus :

premier pb récupérer de la donnée, des fiches wiki qui se sont succédées depuis la création de la fiche jusqu'à aujourd'hui. Une fiche wikipedia une fiche dans une base de données. Chaque correction crée une nouvelle entrée et de fait une nouvelle fiche. Recupère environ 2000 notices sur 10 ans

Voulions arriver à qq chose de reproductible. Des scripts perl et python.

Premier problème, le sql de 2003 est du mysql 3 qui n'a plus les mêmes fonctions que version 5.

Donc passé par récupération directe des fichiers html. Prend environ une semaine pour récupérer les données.

Suivi trois pistes

- transformation des fiches

- structure fiche et son évolution

- évolution bilbio.

+ Question sémantique

Qui dit quoi de Jeanne d'arc

+ S'interroger sur les auteurs. La majorité sont anonymes. Question que peut-on peut savoir des auteurs.

- Premières tentative avons voulu chercher la trace de l'activité sur les fiches. Ce qui apparaît d'abord ce sont les actes de vandalisme. Peut les filtrer.

- Pb pour nous était modélisation des rythmes d'écriture, temporalités de l'écriture.

- biblio, avons compté les lignes et daté les apparitions. 2012 croissance sensible ref biblio et tille notice, correspond intro livre de Colette Beaune ds la biblio et apparition nouveau contributeur

Intérêt écriture numérique c'est que

- en anglais la page Joan of arc est très fréquemment vandalisée. N'avons pas déterminé la raison.

- chrono manifestement pas la même

Peut travailler en différentes langues et s'interroger sur le mode d'écriture selon les langues.

Une différence majeure entre écriture en français et en anglais. En anglais il y a des sources qui ont été reproduites

+ Evolution de la structure des pages

- sstrucure de la notice (distribution en sections) se fige très vite

- peut arriver qu'une section (ici le mythe de jeanne d'arc) va devenir une fiche autonome

- mais à l'intérieur de chaque section des mouvements brutaux

Analuse sémantique

Les logiciels habituels ne nous permettaient pas de travailler. Nous avons travaillé sur un échantillon et 230 formes les plus occurentes;

Pb tous les logiciels de traitements ne vont pas accepter les mêmes formats d'entrée. Si veut produire scripts réutilisables, un vrai problème.

AFC sur tableau lexical obtenu. Une très bonne décroissance des facteurs et vu les volumes pas de souci de seuil ou de chi 2. Les deux premiers facteurs plus de 60%. A partir du 4, ajoute peu d'infos.

Graph produit par analyse. http://analyse.univ-paris1.fr/

Sans intervenir sur mode discrétsation, matériel se structure de manière chrono. Repère des champs sémantique associés à des périodee.

2003-2007 structure axe, en conjonction vocabulaire renvoie à mystique, données de faits, récits au passé

Période suivante associé avec apparition structure et sommaire

Sur une autre période voit apparaître un vocabulaire plus associé au vocabulaire de l'historien académique (connecteurs logiques, formes impersonnelles)

+ Structure des contributeurs

Construction des indicateurs est compliquée. Qui sont les plus forts contributeurs, ceux qui interviennent souvent, ceux qui écrivent beaucoup. Vite vu que nombre contributeurs réguliers est faible et que collaboration entre un très petit nombre de personnes.

Ecriture collaborative est collaboration entre très peur de gens. Vu aussi profils de gens qui viennent intervenir sur relecture et orthographe, d'autres uniquement sur la blbliographie

Peut faire le graphe des contributeurs (cad ceux qui co-interviennent sur les mêmes fiches)

Plusieurs choses repérables. Question est comment définir le profil de ceux qui écrivent sur Jeanne d'Arc et voir comment peut les caractériser par les objets sur lesquels ils écrivent.

Un travail en cours, et demeurent à la fois beaucoup de travail sur les outils et clarification des notions et concepts mis en oeuvre.

Questions : Une remarque sur la fiche en espagnol, elle est très longue, me demande pourquoi. Qui sont ces contributeurs. Voudrais en savoir plus sur insertion de tout cela dans votre enseignement

SL: Sur les réseaux, me semble que écriture fiche wiki est assez émiettée.
BD : ecclectisme est assez frappant intervention dans des domaines assez variés. Il y a des contributeurs spécialisés dans la faute d'orthographe, peuvent intervenir dans plein de domaines. Donc assez compliqué à débrouiller.
Tout ce qui a été présenté est produit par nous, les étudiants n'ont jamais produit une ligne de code. Ce qui est fait avec les étudiants c'est de leur faire faire de la critique de sites. Voulu mettre les étudiants dans une posture critique face à l'info wikipédia traitée comme source.
BD : Ne fait pas coder les étudiants, mais fait ouvrir le code source et repérer des infos qui ne sont pas à l'écran et qui sont utiles à critique.
Q : coeur de ce qu'on appelle aujourd'hui le web sémantique, c'est de fait wikipedia, ce qui au regard de ce que vous montrez pose problème
SL : outils utilisés renvoient à la linguistique de corpus
Q : Sur la notion d'archives. Comment penser les nouvelles archives du monde électronique
BD : Peut probablement adapter des outils qui viennent de la génétique de textes.