« Résume-moi ce texte, ordinateur ! »
Le cerveau humain n'est plus requis pour résumer
des articles savants. Un logiciel fera l'affaire. Devant
notre journaliste, un document scientifique de 15 pages
a été abrégé en une fraction
de seconde. Le résultat (cohérent, précis
et grammaticalement correct) tenait sur 12 lignes.
Le logiciel, encore expérimental, est la somme
du travail d'étudiants du Laboratoire de recherche
appliquée en linguistique informatique de l'Université de
Montréal, sous la supervision du professeur Guy
Lapalme , professeur au Département d'informatique
et de recherche opérationnelle. Après le
logiciel SumUM, qui produisait des résumés
de 10 à 15 lignes à partir d'articles
scientifiques, Atefeh Farzindar s'est penchée
sur des textes de jurisprudence. Un travail qui n'est
pas simple, mais qui donne des résultats étonnants. « Actuellement,
dit-elle, nous ne travaillons que sur des documents en
anglais, mais rien n'empêche d'étendre notre
expertise à d'autres langues. »
Les ordinateurs, bien entendu, ne comprennent pas le
sens des mots. Les chercheurs doivent donc avoir recours à diverses
stratégies pour leur « apprendre » à écrire
des résumés. Une approche consiste à analyser
le travail des rédacteurs en chair et en os. Où ceux-ci
puisent-ils leur information lorsqu'ils résument
un texte ? En général, ils consultent l'introduction,
la conclusion, les titres, les légendes et les
débuts de paragraphes. L'ordinateur doit donc
s'y prendre de cette façon, lui aussi.
Appliquée à l'ordinateur, cette méthode
permet de réduire la quantité de texte à analyser.
L'ordinateur effectue ensuite des calculs statistiques
qui permettent d'établir la fréquence anormale
de certains mots, de constater que des mots en particulier
sont toujours associés à d'autres ou que
certains semblent être des mots clés. Le
logiciel mémorise ces expressions significatives
et les restitue ensuite dans une langue correcte, en
les insérant dans une grille de rédaction
prédéterminée.
Le travail d'Atefeh Farzindar est mené en collaboration
avec le Centre de recherche en droit public de la Faculté de
droit, qui lui fournit une grande quantité de
documents déjà numérisés.
Si le logiciel fonctionne déjà en partie,
il reste à déterminer quelle information
doit absolument se retrouver dans le résumé.
Il faut aussi élaborer des algorithmes permettant à l'ordinateur
de faire la différence entre les expressions « appel
téléphonique » et « jugement
porté en appel », par exemple.