L'orthographe du français constitue-t-elle un obstacle particulier dans le traitement automatique des langues ?
Il ne faut pas surestimer les problèmes de l'orthographe française dans le Traitement Automatique des Langues: pour nous, ils ne sont pas plus importants que les problèmes de l'orthographe anglaise par exemple, qui présente des difficultés particulière, liées plutôt à la transcription de phonèmes que l'on ne peut pas déduire d'une règle
Comment rencontre-t-on l'orthographe en TAL ?
Les logiciels de bureautique d'usage courant possèdent tous un correcteur orthographique. Le programme qui le gère contient un dictionnaire de graphies, et lorsqu'il tombe sur un mot inconnu, il cherche un mot graphiquement proche à une lettre près, en moins, en plus, ou inversée. Il vous propose alors des solutions alternatives par distance croissante à une, deux ou trois lettres près. Il y a déjà une trentaine d'années que l'on sait faire cela. Ces dictionnaires ne sont cependant pas extensibles : on ne peut pas rentrer la totalité des noms propres, ni les mots techniques. Mais il est toujours possible d'introduire de nouveaux termes, de se fabriquer des dictionnaires personnels.
En quoi ces dictionnaires de graphies diffèrent-ils d'un dictionnaire classique ?
Ils reposent sur un important travail de corpus est nécessaire au préalable. Pour avoir des dictionnaires de graphie, c'est moins coûteux d'acheter cent millions de mots au journal Le Monde et d'en faire un index que de partir d'un dictionnaire comme Le Robert. C'est moins coûteux en termes d'énergie: si vous disposez de texte électronique, vous pouvez faire un index de cent millions de mots en 1h ou 2h. C'est très facile Ce qu'il faut, ce sont des corpus en taille suffisante et dont on est certains qu'il représentent un niveau de langue assez général. Si vous prenez comme corpus des manuels de construction d'avion, vous risquez d'avoir de gros problèmes. Mais de ce point de vue-là le français n'est pas plus compliqué que n'importe quelle autre langue, ne pose pas plus de problèmes.
Et pour la correction grammaticale ?
On aborde ici quelque chose de plus complexe : il faut disposer d'un dictionnaire de graphies avec les différentes étiquettes grammaticales de chaque mot. Si on prend le mot la, par exemple, il faut savoir que la peut être un déterminant, un pronom ou, plus rarement un nom quand il s'agit d'une note de musique. Il faut ensuite élaborer un programme étiqueteur qui a pour fonction de dire, en contexte, quelle est la bonne étiquette, un outil qui puisse dire : dans l'énoncé "je la vois", "la" est un pronom, dans l'énoncé "la ferme", "la" est un déterminant, et dans l'énoncé "donnez-moi le la", "la" est un nom. La technique de l'étiquetage est actuellement bien maîtrisée. On atteint des performances de 95 à 98% d'étiquettes correctes pour l'anglais comme pour le français. On est aussi capable de dire quelle est l'étiquette correcte en contexte et on peut utiliser ces connaissances pour repérer des accords. Par exemple, si on a écrit "le ferme est joli", le correcteur va pouvoir repérer que le est un déterminant masculin singulier, ferme un nom féminin singulier et que donc quelque chose ne va pas : l'accord est incorrect. Une fois qu'on a l'étiquetage, on peut disposer de règles pour vérifier si les suites de catégories sont correctes.
Cela semble assez simple pour l'accord les noms et les déterminants, mais que se passe-t-il pour les formes verbales?
Vous pouvez disposer pour chaque graphie d'un analyseur morphologique. C'est un outil qui a une connaissance des différentes flexions des formes verbales et qui est capable de défléchir une forme qu'il rencontre. Il est capable, face à la forme "mangerons" de dire qu'il s'agit de mang + erons et donc de la première personne du pluriel du futur de l'indicatif du verbe manger.
Il s'agit donc de donner à chaque mot la bonne etiquette, puis de faire fonctionner ensuite des règles qui regardent chaque étiquette, et ensuite de vérifier si les étiquettes qui entourent chaque mot correspondent bien. Par exemple, ils+ mangerons est une faute classique. Il est assez facile d'établir une règle selon laquelle : ils et ont = 3 ème personne du pluriel, nous et ons =1ère personne du pluriel. Ce sera plus compliqué quand le sujet est un groupe nominal comme dans "les petits enfants de l'école mangeront". Ce que l'on maîtrise aujourd'hui, ce sont les dictionnaires de graphie, les dictionnaires d'étiquettes, le choix d'étiquette en contexte et l'utilisation partielle par des règles qui vont dire : cette suite d'étiquettes est irrecevable, donc il y a une erreur. Dans les correcteurs orthographiques de bureautique classique la partie d'analyse syntaxique n'est pas forcément existante et reste assez limitée. On peut aussi travailler à partir d'un repérage des fautes les plus fréquentes dans des corpus d'apprenants. Mais les fautes les plus fréquentes ne sont pas nécessairement celles que l'on sait traiter du point de vue technique. Il y a à l'évidence des horizons difficilement atteignables actuellement; en français, l'accord du participe passé par exemple, mais il y a dans d'autres langues des obstacles tout aussi difficiles à surmonter.
Y a-t-il d'autres applications ?
Le traitement de l'orthographe joue également un rôle dans une utilisation grand public à laquelle on ne pense pas forcément: ce sont les moteurs de recherche que l'on utilise sur le web. Quand vous cherchez les informations sur un sujet, le langage des signes par exemple, il faut l'on vous rapporte des éléments même s'il y a langage de signes, ou une autre forme approchant. Vous voulez voir apparaître une liste de documents dans lesquels ce mot est éventuellement fléchi. L'orthographe ne pose en fait pas tant de problème que l'on pourrait l'imaginer car les documents sont soumis à des traitements destinés à faciliter la recherche. Quand iun moteur de recherche crée un dictionnaire il indexe les documents à partir de mots qu'on appelle les descripteurs et qui sont des formes simplifiées. Des programmes ont pour fonction d'enlever les flexions souvent de manière extrêmement brutale pour ne garder qu'une pseudo-racine de manière à obtenir une forme facile à manipuler. Le moteur ba faire subir au mot un certain nombre de modifications que vous ne verrez pas. De ce point de vue également, l'orthographe française n'est pas un obstacle
Pour les grands éditeurs, la question de l' orthographe est plus cruciale. Ils ont besoin de correcteurs orhographiques beaucoup plus puissants que ceux de la bureautique courante. Toutes les maisons n'ont pas nécessairement les moyens d'avoir à disposition un outil performant qui reste très cher à l'achat.
L'orthographe française est assez mal traitée par le secteur de l'édition mais c'est pour des raisons économiques, pas pour des questions techniques
Que pensez-vous du laxisme orthographique qui semble devenir une norme sur le web, notamment dans les forums de discussion?
Cela rend très difficile tout travail d'analyse de corpus constitués à partir de forums de discussion. Par exemple, je suis chargé pour un hôpital du traitement de données sur les très grands prématurés : le corpus est constitué de fiches remplies par les infirmières et saisies par des secrétaires. Ce matériel comprend de nombreuses fautes d'orthographes ou de fautes de frappe, parce qu'il s'agit de notes prises ce qui perturbe considérablement le travail d'analyse. Dans les forums de discussion, le jeu des questions réponses fait que les phrases ne sont plus des phrases, il n'y a plus de régularités. Les logiciels vont avoir des difficultés rendent travail très compliqué. Les textes sont bourrés d'onmatopées, de mots d'origine étrangère, de nouvelles conventions typographiques pour exprimer des émotions, pour ponctuer le texte. Par exemple on utilise (: ou :) pour exprimer un sourire. On appelle ces signes des émoticons et on en a dénombré jusqu'à 200.
Les logiciels d'étiquetage automatique ne sont pas capables de traiter ces éléments. Il faut donc créer des dictionnaires spécifiques. Dans les forums de discussion, c'est un certain type de fautes d'orthographe que l'on voit apparaître, différent de celles que l'on peut faire en écrivant un article ou bien encore une lettre. On a des outils généralistes ou bien on peut acheter à des sociétés des logiciels spécialisés selon leur secteur d'activité, par exemple la documentation aéronautique. Mais on ne dispose pas de programme adaptable.
Propos receuillis par Dominique Rolland
Sur la toile
Sur le même thème, ne manquez pas de lire, uniquement sur notre site, l’article de Christine Jacquet-Pfau, du Collège de France : http://www.fdlm.org/doss/correcteur.htm
L’orthographe en ligne
On aura noté le nombre, sans cesse grandissant, de sites consacrés à l’orthographe de la langue française. Pour s’orienter sur la toile, voici quelques-uns d’entre eux :
http://www.sdv.fr/orthonet/ : Pour vérifier ses connaissances écrites, éviter les pièges et développer sa vigilance orthographique et lexicale, ce site propose des jeux linguistiques, des tests corrigés en temps réel et un lexique de dépannage. La rubrique d’aide personnalisée offre une correction de textes entiers.
http://mapage.cybercable.fr/marcpage/bof.htm : cet aide-mémoire recense les règles d'orthographe et leurs exceptions. Un bref récapitulatif grammatical l'accompagne. Facilement téléchargeable et très agréable à manier.
http://www.fltr.ucl.ac.be/FLTR/ROM/ess.html : pour savoir l’essentiel sur la nouvelle orthographe, l’Association pour l’Application des Recommandations Orthographique, met à disposition des articles de presse, des débats, des exposés et des outils de référence imprimés, informatiques et télématiques.
http://www.montefiore.ulg.ac.be/cgi-bin-ulg/pivot : on trouvera un récapitulatif des erreurs les plus courantes et quelques moyens pour les éviter, de nombreux textes de dictées de Pivot, avec tests et QCM. Pour ceux qui souhaitent la version audio des ces dictées et des commentaires sur l’orthographe des mots les plus compliqués et les plus rares, le site officiel des dicos d'or : http://www.dicosdor.com/index.php
http://dictee.pgl.sympatico.ca/p_pgl.html : ce site ludique et éducatif pour enfants met en ligne des dictées interactives (différents niveaux) à faire seul ou à plusieurs. Correction et explications données en fin de parcours.
http://www.portail.lettres.net/ : Grammaire et orthographe : Leçons, exercices autour de l'orthographe et de la grammaire, dictées, jeux et tests, ainsi que de nombreux liens.
http://www.lemeonde.fr/service/0,2321,127-QUO,00.html : J.-P. COLIGNON, chef correcteur du journal Le Monde et enseignant en écoles de formation de correcteurs et de journalistes, assure un service questions/réponses de langue française.
http://www.netinfo.fr/BCDL/SFG.html : Sans-Faute/Grammaire, un logiciel de vérification de l'orthographe, de la grammaire et de la ponctuation.
http://www.orthotypographie.fr.st/ : un ensemble de règles sur l’utilisation des majuscules, des petites capitales, de l’italique et des abréviations.
http://www.uni-muenster.de/Romanistik/Lacouriere/La-grammaire.htm : exercices et activités pédagogiques pour améliorer son orthographe.
Hélène Katsaras
|