|
Atefeh Farzindar |
Le cerveau humain n’est plus requis pour résumer des articles savants. Un logiciel fera l’affaire. Devant notre journaliste, un document scientifique de 15 pages a été abrégé en une fraction de seconde. Le résultat – cohérent, précis et grammaticalement correct – tenait sur 12 lignes.
Le logiciel, encore expérimental, est la somme du travail d’étudiants du Laboratoire de recherche appliquée en linguistique informatique (RALI) de l’Université, sous la supervision du professeur Guy Lapalme, du Département d’informatique et de recherche opérationnelle. Après le logiciel SumUM, qui produisait des résumés de 10 à 15 lignes à partir d’articles scientifiques, Atefeh Farzindar s’est penchée sur des textes de jurisprudence. Un travail qui n’est pas simple, mais qui donne des résultats étonnants. «Actuellement, dit-elle, nous ne travaillons que sur des textes en anglais, mais rien n’empêche d’étendre notre expertise à d’autres langues.»
Les ordinateurs, bien entendu, ne comprennent pas le sens des mots. Les chercheurs doivent donc avoir recours à diverses stratégies pour leur «apprendre» à écrire des résumés. Une première approche consiste à analyser le travail des rédacteurs en chair et en os. Où ceux-ci puisent-ils leur information lorsqu’ils résument un texte? En général, ils consultent l’introduction, la conclusion, les titres, les légendes et les débuts de paragraphes. L’ordinateur doit donc s’y prendre de cette façon, lui aussi.
Appliquée à l’ordinateur, cette méthode permet de réduire la quantité de texte à analyser. L’ordinateur effectue ensuite des calculs statistiques qui permettent d’établir la fréquence anormale de certains mots, de constater que des mots sont toujours associés à d’autres ou que certains semblent être des mots clés. Le logiciel accumule ces expressions significatives et les restitue ensuite dans une langue correcte, en les insérant dans une grille de rédaction prédéterminée.
Collaboration du CRDP
Le travail d’Atefeh Farzindar est mené en collaboration avec le Centre de recherche en droit public (CRDP), de la Faculté de droit, qui lui fournit une grande quantité de documents numérisés. Si le logiciel fonctionne déjà en partie, il reste à déterminer quelle information doit absolument se retrouver dans le résumé. Il faut aussi élaborer des algorithmes qui permettent à l’ordinateur de faire la différence entre un appel téléphonique et un jugement porté en appel par exemple.
«La première version du logiciel juridique va couvrir environ 50 % des cas, affirme l’étudiante au doctorat, qui y travaille depuis 2002. Les versions suivantes vont prendre en charge des cas de plus en plus difficiles, jusqu’à ce que je sois satisfaite.» Atefeh Farzindar a fait une maîtrise en informatique linguistique à l’Université Paris-Sorbonne avant de revenir à l’UdeM.
Les chercheurs du RALI sont les premiers au Canada à s’intéresser aux textes juridiques. Leurs compétiteurs se sont surtout attaqués au résumé de textes journalistiques. Un problème facile par comparaison, car les journalistes sont formés à mettre toute l’information pertinente en introduction.
«Le traitement de la langue naturelle est un domaine en expansion, souligne Guy Lapalme. On nous demande de faire du travail toujours plus complexe sur les textes. Il y a maintenant beaucoup de documents disponibles en format électronique, qui constituent notre matière première. La seule limite, c’est qu’il nous faut travailler à partir de textes bien écrits. Si l’orthographe et la syntaxe sont mauvaises au départ, cela se reflétera dans le résumé.»
Malgré l’intérêt de ces travaux, les transferts de technologie vers l’industrie restent rares. Les logiciels mis au point par les étudiants ne sont pas intégrés à un environnement de travail qui les rendraient véritablement pratiques. Dans certains cas, des étudiants qui avaient élaboré de bons concepts ont fondé leur propre entreprise pour les réaliser. Mais l’objectif premier du Département reste la formation, pas la conception d’algorithmes pour l’industrie.
Le logiciel SumUM a été présenté à la compétition internationale DUC et s’est classé, selon les catégories, premier ou deuxième parmi la vingtaine de logiciels mis à l’épreuve. En fait, les résumés produits étaient si bons qu’il a fallu réviser le concours par la suite. «En général, l’être humain a le dessus sur l’ordinateur, mais ce n’est pas toujours le cas», affirme Guy Lapalme.
Qu’entend-il par là? Certains jours, le rédacteur peut être moins en forme alors que l’ordinateur est d’une compétence constante. Par ailleurs, la machine peut être plus qualifiée (et moins coûteuse) qu’un être humain pour une tâche répétitive et fastidieuse, telle la production de résumés de longs articles.
Philippe Gauthier
Collaboration spéciale