Traitement informatique des Langues

Avec le développement de l'internet, du multimédia et de la bureautique, le traitement automatique du langage intervient de plus en plus souvent dans notre vie. En effet, chaque jour, nous avons besoin de créer, traiter, traduire, analyser, stocker, récupérer et diffuser des données orales, écrites, chiffrées et imagées.

Le Traitement Informatique des Langues (TIL) c'est l'alliance de l'informatique et de la linguistique pour créer des outils, des ressources et des techniques capables de traiter automatiquement les langages écrit et oral.

Le TIL couvre différents domaines. Nous en proposons une classification, domaines () et
catégories
(). L'objectif de cette classification n'est pas de fixer les frontières externes et internes du secteur TIL mais de faciliter l'organisation d'un Inventaire TIL. De plus, dans la pratique, une application TIL est généralement basée sur l'association de divers domaines TIL.

 

Analyse et génération de texte

Les analyseurs linguistiques visent à produire des représentations (sous forme symbolique ou graphique) caractéristiques des phénomènes linguistiques (morphologie, syntaxe, sémantique et pragmatique) dans un texte, et cela dans le but d'en mettre en évidence le ou les sens. Ils traitent aussi bien des données linguistiques écrites qu'orales.

Les générateurs sont des programmes qui permettent l'extraction sélective des données. Par exemple, un générateur morphologique offre la possibilité de fléchir automatiquement les mots d'un texte.

Analyseur morphologique

Générateur automatique

Analyseur syntaxique

Générateur automatique

Analyseur sémantique

Générateur morphologique

Education, formation

L'ingénierie de formation peut comprendre l'analyse de la demande, des besoins de formation, le diagnostic, la conception du projet formatif, les moyens mis en oeuvre, la coordination et le contrôle de sa mise en oeuvre et l'évaluation de la formation. (AFNOR)

L'Enseignement assisté par ordinateur, EAO, est l'ensemble des techniques et des méthodes d'utilisation de systèmes informatiques comme outils pédagogiques. Concernant l'Enseignement à Distance, EAD, les outils et l'accompagnement pédagogiques sont accessibles à travers Internet ou un Intranet.

Un dictaticiel est un ensemble de modules de formation ciblés sur un besoin de l'apprenant.

Le domaine Education/Formation inclut également les systèmes auteurs destinés à créer des applications multimédias dédiées à la formation.

Didacticiel

Formation/Enseignement assisté par ordinateur

Système auteur

Formation/Enseignement assisté par ordinateur

Evaluation

Le domaine de l'évaluation inclut, d'une part, les outils capables d'évaluation de connaissances (QCM), de projets ou méthodes, et d'autre part, la mise en place de procédures d'évaluation de produits ou projets en regard des caractéristiques du français et des langues partenaires.

Evaluation d'organismes

Evaluation de projets

Evaluation de connaissances

Evaluation de produits

Evaluation de méthodes

Evaluation de réseaux

Informatique documentaire

Les outils de l'informatique documentaire permettent, entre autres, d'indexer, d'archiver et d'extraire automatiquement des informations pertinentes de la masse de documents, structurés ou non.
La conception de tels outils requiert une connaissance des tâches impliquées dans la gestion et l'analyse de l'information. Ces tâches concernant, par exemple, la compréhension d'un texte, sont analysées et représentées dans un langage formel. Cette étape s'appelle la modélisation qui fait référence à plusieurs approches telles l'intelligence artificielle, l'informatique théorique, la linguistique, la psychologie, etc.

Une base de données (BD) est un outil qui permet de stocker, gérer, consulter et exploiter des informations. Le contenu et l'organisation d'une BD sont définis en fonction de son objectif. Par exemple, les BD textuelles servent à l'analyse de texte par ordinateur, les BD lexicales servent de référence lors de la catégorisation d'un texte, les Bd bibliographiques fournissent des notices bibliographiques (titre, résumé, ...), les BD multimédia gèrent textes, images, sons, ...) et les BD factuelles sont des encyclopédies électroniques, BD de résultats d’expériences, ...

Outils de consultation, de gestion documentaire (indexation, thésaurus, interrogation en langage naturel,...)

BD multimédia

BD bibliographiques

BD textuelles

BD factuelles

Localisation

La localisation est l'ensemble des opérations linguistiques et informatiques qui permettent l'adaptation d'un produit (logiciel, site, ...) aux besoins spécifiques d'une communauté d'utilisateurs. La localisation implique souvent la traduction du produit conçu dans une langue vers une ou plusieurs autres langues. La qualité linguistique de la traduction repose sur l'utilisation de nombreux glossaires multilingues. Outre les interférences lexicales et phraséologiques, le traducteur prend également en compte les interférences conceptuelles et culturelles.

Localisation de logiciel, de site

Normalisation et internationalisation

La normalisation est une activité propre à établir face à des problèmes réels ou potentiels, des dispositions destinées à un usage commun répété, visant à l'obtention d'un degré optimal d'ordre dans un contexte donné.

L'internationalisation vise la mise au point de méthodes normalisées capables de permettre la création de logiciels "neutres", tant au plan culturel que linguistique.

Dans le domaine Normalisation et internationalisation nous retrouvons des organismes qui participent, par exemple, à des groupes d’harmonisation terminologique ou de normalisation de solutions concernant l’informatique multilingue. Ce domaine présente également des recherches visant à produire un environnement unifié et standardisé pour des applications TIL.

Normalisation et Internationalisation

Outils inforoutiers

Les outils inforoutiers sont des logiciels utilisés pour collecter, trier, traiter, diffuser, échanger et transmettre de l'information sur Internet. L'Inventaire Francophone répertorie principalement des outils conviviaux prenant en compte les caractéristiques de la langue française et des langues partenaires.

Courrier électronique

Editeur

Logiciel de transfert

Agent de veille

Outil de navigation

Moteur de recherche

Rédaction et édition de texte

Le domaine de la rédaction et de l'édition de textes englobe toutes les techniques informatiques qui permettent, facilitent la conception, le traitement et la publication d'un document. Cette assistance s'applique à différentes étapes : le choix, l'orthographe des mots, la construction de la phrase, l'emploi des temps de conjugaison, la présentation du texte, la mise en page du document, ...

Traitement de texte

Dictionnaire (synonymes, homonymes, ...)

Correcteur orthographique

Dictionnaire de langue et de spécialité

Correcteur orthographique

Editeur

Outil grammatical

PAO

Traduction, lexicographie, terminotique

Rem : Par souci de classification, le domaine LTT de l'Inventaire distingue les ressources des outils linguistiques. Au niveau des applications, il n'est pas possible de les dissocier, de nombreuses applications nécessitant des ressources lexicographiques pour fonctionner.

La Traduction automatique est l’application de l’informatique à la traduction de textes en langage naturel. A partir du document source en français on obtient un document cible rédigé, par exemple, en anglais.

La Traduction assistée par Ordinateur (TAO) consiste à offrir des outils de bureautique linguistique à des traducteurs : dictionnaire (monolingue, bilingue), bases de données terminologiques, concordancier permettant d'interroger des mémoires de traduction, etc.

La Lexicographie s'occupe à recenser des mots et des expressions (sous leur forme et/ou leur signifiant) d'une langue déterminée. Le lexicographe utilise des sources de documentation (corpus linguistiques écrits ou oraux, corpus métalinguistiques, ... ) et des outils lexicométriques ( fréquence des occurrences, ...) et linguistiques (analyseur morpho-syntaxique, désambiguïseur, lemmatiseur, ... ). Les outils lexicographiques facilitent le processus de gestion de corpus pour l'élaboration de dictionnaires.

La terminologie est l'ensemble des termes propres à un domaine ou à un groupe de personnes. La termonotique utilise les développements en informatique et en intelligence artificielle pour proposer des outils au terminologue : extracteur terminologique, concordancier, etc.

Traduction automatique

Outils de gestion terminologique

Traduction assistée

Corpus écrit

Outils d'aide à la traduction

Corpus oral

Ressources lexicographiques (dictionnaire, lexique, ...)

Grammaire

Outils lexicographiques (lemmatiseur, concordancier, désambiguïseur, ...)

Ressources terminologiques (dictionnaire, lexique, BD spécialisées mono/multilingues)

Systèmes experts

Un système expert est une application capable d'effectuer, dans un domaine, des raisonnements logiques comparables à ceux que feraient des experts humains de ce domaine. Il s'appuie sur des bases de données de faits et de connaissances, ainsi que sur un moteur d'inférence, lui permettant de réaliser des déductions logiques.

Cette application est utilisée dans le domaine TIL : système d'aide à la décision pour la constitution d'un cahier des charges, système de recherche d'information, base de connaissances linguistiques qui permettra de traiter un corpus (règles d'exploration contextuelles, ...), logiciels de dialogue homme-machine en langue naturelle, etc.

Outil d'aide à la décision

Interface en langage naturel

Base de connaissances

Agent intelligent de recherche

Traitement de l'écrit

La reconnaissance optique de caractères (OCR) est un procédé permettant de récupérer les symboles de textes numérisés. Dans le cas où ce processus pourrait occasionner des erreurs de reconnaissance de caractères, on utilisera la reconnaissance des formes. Cette technique est indépendante de la langue usitée et tolère les fautes d'orthographe, les caractères parasites, etc

Les principales applications de l'OCR sont le scannage, l'indexation et la recherche de textes.

Reconnaissance optique de caractères

Reconnaissance de l'écriture cursive, des signatures, ...

Traitement de la parole

Le codage de la parole exige la description pertinente et l'extraction précise d'informations du signal
(analyse et représentation du signal ).

La reconnaissance de la parole consiste à traiter un signal de parole pour en extraire des informations comme les mots prononcés, l'identité de la personne qui parle, ou la langue utilisée. La transcription orthographique peut faire l'objet de traitements ultérieurs pour en analyser le contenu sémantique. Les applications de ce domaine les plus connues du grand public sont la dictée vocale et la demande de renseignements par téléphone ou sur borne multimodale.

La synthèse de la parole à partir du texte est la passerelle entre le monde de l'écrit et celui de l'oral. La transcription texte/parole nécessite l'utilisation de la technologie de l'analyse morphosyntaxique.

Le corpus parlé sert aux linguistes dans un but d'analyse. Il repose sur des transcriptions associant éventuellement l'alphabet phonétique et des signes spécifiques pour noter la prosodie.
Le corpus de parole sert aux chercheurs en reconnaissance de la parole. Il est plus proche de l'enregistrement sonore.

Codage de la parole

Synthèse vocale

Reconnaissance vocale

Corpus oral

TIL: Traitement Informatique des Langues