Comment savoir si un texte a été écrit par un homme ou une femme quand celui qui l’a écrit se dissimule derrière un pseudonyme, ou bien qu’il porte un prénom androgyne ou exotique ? En développant un programme capable de détecter correctement le sexe de l’auteur dans 80 % des cas, le professeur Moshe Koppel et ses collègues du département d’informatique de l’Université Bar-Ilan en Israël ont apporté une réponse empirique à une vieille controverse de la linguistique : le style est-il sexué ?
D’après Koppel, les hommes, qui préfèrent catégoriser les choses, utilisent plus de déterminants (le/la, cette/ce, un/une, etc.) et de quantificateurs (deux, plus, peu, etc.). Les femmes, elles, s’intéressent plus aux relations et recourent donc plutôt plus que les hommes aux pronoms personnels (je, tu, moi, son, etc).
L’algorithme de Koppel consiste donc à quantifier dans un texte la récurrence de 467 mots clés anglais (a, too, us, yourself, their, etc.) afin de "calculer" le sexe de son auteur. Ses travaux seront prochainement publiés dans les revues Literary and Linguistic Computing et Text.
Le programme a été entraîné et corrigé sur un corpus de 604 textes issus du British national corpus. Les oeuvres analysées relevaient de tous les styles d’écriture : fictions, manuels, essais, etc. Cela va de How to use homeopathy à Linford Christie : an autobiography en passant par Feminism and linguistic theory.
A l’issue de cette phase d’apprentissage, le logiciel était capable de fournir une réponse correcte quatre fois sur cinq.
Ce principe d’apprentissage artificiel est le même que celui qu’emploient les logiciels anti-spam, qui apprennent à reconnaître les tournures de style typiques de spammeurs en ingurgitant des milliers de messages de publicité indésirables, dont ils font ensuite une analyse statistique qualitative, dite "bayesienne".
Ces travaux ont d’abord été refusés par la revue scientifique PNAS qui leur reprochait de véhiculer certains archétypes sexistes (du type : "Les hommes décrivent, les femmes s’impliquent"). Koppel, qui présentera ses recherches lors de la 18ème Conférence interdisciplinaire internationale sur l’intelligence artificielle (IJCAI-03) qui se tiendra en août à Acapulco au Mexique, rejette ces accusations de sexisme rampant. Il rappelle que son approche est purement empirique.
Une approche qu’il espère désormais approfondir pour développer un programme capable de reconnaître le style personnel d’un auteur et non plus seulement son sexe. De quoi faire sortir les nègres de l’ombre...
L’article de Koppel, "Automatically categorizing written texts by author gender":
->http://www.cs.biu.ac.il/koppel/male-female-LLC-final.pdf
Le sit de la revue Literary and Linguistic Computing:
http://www3.oup.co.uk/litlin/contents/