 |
Traitement informatique des Langues |
|
|
| Avec le développement de
l'internet, du multimédia et de la bureautique,
le traitement automatique du langage intervient de
plus en plus souvent dans notre vie. En effet, chaque
jour, nous avons besoin de créer, traiter,
traduire, analyser, stocker, récupérer
et diffuser des données orales, écrites,
chiffrées et imagées.
Le Traitement Informatique des Langues (TIL)
c'est l'alliance de l'informatique et de la linguistique
pour créer des outils, des ressources et des
techniques capables de traiter automatiquement les
langages écrit et oral.
Le TIL couvre différents domaines. Nous en
proposons une classification, domaines
( )
et
catégories ( ).
L'objectif de cette classification n'est pas de fixer
les frontières externes et internes du secteur
TIL mais de faciliter l'organisation d'un Inventaire
TIL. De plus, dans la pratique, une application TIL
est généralement basée sur l'association
de divers domaines TIL. |
|
|
|
Analyse et génération de texte
|
|
| Les analyseurs
linguistiques visent à produire des représentations
(sous forme symbolique ou graphique) caractéristiques des
phénomènes linguistiques (morphologie, syntaxe, sémantique
et pragmatique) dans un texte, et cela dans le but d'en mettre en
évidence le ou les sens. Ils traitent aussi bien des données
linguistiques écrites qu'orales.
Les générateurs sont
des programmes qui permettent l'extraction sélective des
données. Par exemple, un générateur morphologique
offre la possibilité de fléchir automatiquement les
mots d'un texte.
|
Analyseur morphologique |
Générateur automatique |
Analyseur syntaxique |
Générateur automatique |
| Analyseur sémantique |
Générateur morphologique |
|
|
|
Education, formation
|
|
L'ingénierie
de formation peut comprendre l'analyse de la demande, des
besoins de formation, le diagnostic, la conception du projet formatif,
les moyens mis en oeuvre, la coordination et le contrôle de
sa mise en oeuvre et l'évaluation de la formation. (AFNOR)
L'Enseignement assisté par ordinateur,
EAO, est l'ensemble des techniques et des méthodes d'utilisation
de systèmes informatiques comme outils pédagogiques.
Concernant l'Enseignement à Distance, EAD,
les outils et l'accompagnement pédagogiques sont accessibles
à travers Internet ou un Intranet.
Un dictaticiel est un ensemble
de modules de formation ciblés sur un besoin de l'apprenant.
Le domaine Education/Formation inclut également
les systèmes auteurs destinés à
créer des applications multimédias dédiées
à la formation.
|
Didacticiel |
Formation/Enseignement
assisté par ordinateur |
|
Système auteur |
Formation/Enseignement assisté
par ordinateur |
|
|
Evaluation
|
|
| Le domaine de l'évaluation
inclut, d'une part, les outils capables d'évaluation de connaissances
(QCM), de projets ou méthodes, et d'autre part, la mise en
place de procédures d'évaluation de produits ou projets
en regard des caractéristiques du français et des
langues partenaires.
| Evaluation d'organismes |
Evaluation de projets |
Evaluation de connaissances |
Evaluation de produits |
| Evaluation de méthodes |
Evaluation de réseaux |
|
|
Informatique documentaire
|
|
| Les outils
de l'informatique documentaire permettent, entre autres,
d'indexer, d'archiver et d'extraire automatiquement des informations
pertinentes de la masse de documents, structurés ou non.
La conception de tels outils requiert une connaissance des tâches
impliquées dans la gestion et l'analyse de l'information.
Ces tâches concernant, par exemple, la compréhension
d'un texte, sont analysées et représentées
dans un langage formel. Cette étape s'appelle la modélisation
qui fait référence à plusieurs approches telles
l'intelligence artificielle, l'informatique théorique, la
linguistique, la psychologie, etc.
Une base de données (BD)
est un outil qui permet de stocker, gérer, consulter et exploiter
des informations. Le contenu et l'organisation d'une BD sont définis
en fonction de son objectif. Par exemple, les BD textuelles servent
à l'analyse de texte par ordinateur, les BD lexicales servent
de référence lors de la catégorisation d'un
texte, les Bd bibliographiques fournissent des notices bibliographiques
(titre, résumé, ...), les BD multimédia gèrent
textes, images, sons, ...) et les BD factuelles sont des encyclopédies
électroniques, BD de résultats d’expériences,
...
|
Outils de consultation, de gestion documentaire (indexation,
thésaurus, interrogation en langage naturel,...) |
BD multimédia |
BD bibliographiques |
| BD textuelles |
BD factuelles |
|
|
|
Localisation
|
|
La localisation
est l'ensemble des opérations linguistiques et informatiques
qui permettent l'adaptation d'un produit (logiciel, site, ...) aux
besoins spécifiques d'une communauté d'utilisateurs.
La localisation implique souvent la traduction du produit conçu
dans une langue vers une ou plusieurs autres langues. La qualité
linguistique de la traduction repose sur l'utilisation de nombreux
glossaires multilingues. Outre les interférences lexicales
et phraséologiques, le traducteur prend également
en compte les interférences conceptuelles et culturelles.
|
| Localisation de logiciel, de site |
|
|
Normalisation et internationalisation
|
|
La normalisation
est une activité propre à établir face à
des problèmes réels ou potentiels, des dispositions
destinées à un usage commun répété,
visant à l'obtention d'un degré optimal d'ordre dans
un contexte donné.
L'internationalisation vise la mise au point de
méthodes normalisées capables de permettre la création
de logiciels "neutres", tant au plan culturel que linguistique.
Dans le domaine Normalisation et internationalisation
nous retrouvons des organismes qui participent, par exemple,
à des groupes d’harmonisation terminologique ou de
normalisation de solutions concernant l’informatique multilingue.
Ce domaine présente également des recherches
visant à produire un environnement unifié et standardisé
pour des applications TIL.
|
| Normalisation et Internationalisation |
|
|
Outils inforoutiers
|
|
| Les outils
inforoutiers sont des logiciels utilisés pour collecter,
trier, traiter, diffuser, échanger et transmettre de l'information
sur Internet. L'Inventaire Francophone répertorie principalement
des outils conviviaux prenant en compte les caractéristiques
de la langue française et des langues partenaires.
| Courrier électronique |
Editeur |
Logiciel de transfert |
Agent de veille |
| Outil de navigation |
Moteur de recherche |
|
|
|
Rédaction et édition de texte
|
|
Le domaine de la
rédaction et de l'édition de textes
englobe toutes les techniques informatiques qui permettent, facilitent
la conception, le traitement et la publication d'un document. Cette
assistance s'applique à différentes étapes
: le choix, l'orthographe des mots, la construction de la phrase,
l'emploi des temps de conjugaison, la présentation du texte,
la mise en page du document, ...
|
Traitement de texte |
Dictionnaire (synonymes,
homonymes, ...) |
|
Correcteur orthographique |
Dictionnaire de langue et de spécialité |
| Correcteur orthographique |
Editeur |
| Outil grammatical |
PAO |
|
|
Traduction, lexicographie, terminotique
|
|
| Rem
: Par souci de classification, le domaine LTT de l'Inventaire distingue
les ressources des outils linguistiques. Au niveau des applications,
il n'est pas possible de les dissocier, de nombreuses applications
nécessitant des ressources lexicographiques pour fonctionner.
La Traduction automatique est l’application
de l’informatique à la traduction de textes en langage
naturel. A partir du document source en français on obtient
un document cible rédigé, par exemple, en anglais.
La Traduction assistée par Ordinateur
(TAO) consiste à offrir des outils de bureautique linguistique
à des traducteurs : dictionnaire (monolingue, bilingue),
bases de données terminologiques, concordancier permettant
d'interroger des mémoires de traduction, etc.
La Lexicographie s'occupe à
recenser des mots et des expressions (sous leur forme et/ou leur
signifiant) d'une langue déterminée. Le lexicographe
utilise des sources de documentation (corpus linguistiques écrits
ou oraux, corpus métalinguistiques, ... ) et des outils lexicométriques
( fréquence des occurrences, ...) et linguistiques (analyseur
morpho-syntaxique, désambiguïseur, lemmatiseur, ...
). Les outils lexicographiques facilitent le processus de gestion
de corpus pour l'élaboration de dictionnaires.
La terminologie est l'ensemble des termes propres
à un domaine ou à un groupe de personnes. La termonotique
utilise les développements en informatique et en intelligence
artificielle pour proposer des outils au terminologue : extracteur
terminologique, concordancier, etc.
|
Traduction automatique |
Outils de gestion terminologique |
| Traduction assistée |
Corpus écrit |
| Outils d'aide à la traduction |
Corpus oral |
Ressources lexicographiques (dictionnaire,
lexique, ...) |
Grammaire |
Outils lexicographiques
(lemmatiseur, concordancier, désambiguïseur,
...) |
| Ressources terminologiques
(dictionnaire, lexique, BD spécialisées
mono/multilingues)
|
|
|
Systèmes experts
|
|
Un système
expert est une application capable d'effectuer, dans un
domaine, des raisonnements logiques comparables à ceux que
feraient des experts humains de ce domaine. Il s'appuie sur des
bases de données de faits et de connaissances, ainsi que
sur un moteur d'inférence, lui permettant de réaliser
des déductions logiques.
Cette application est utilisée dans le domaine
TIL : système d'aide à la décision pour la
constitution d'un cahier des charges, système de recherche
d'information, base de connaissances linguistiques qui permettra
de traiter un corpus (règles d'exploration contextuelles,
...), logiciels de dialogue homme-machine en langue naturelle, etc.
|
Outil d'aide à la décision |
Interface en langage naturel |
| Base de connaissances |
Agent intelligent de recherche |
|
|
Traitement de l'écrit
|
|
La reconnaissance optique de
caractères (OCR) est un procédé permettant
de récupérer les symboles de textes numérisés.
Dans le cas où ce processus pourrait occasionner des erreurs
de reconnaissance de caractères, on utilisera la reconnaissance
des formes. Cette technique est indépendante de la langue
usitée et tolère les fautes d'orthographe, les caractères
parasites, etc
Les principales applications de l'OCR sont le scannage,
l'indexation et la recherche de textes.
|
Reconnaissance optique de caractères |
| Reconnaissance de l'écriture
cursive, des signatures, ... |
|
|
Traitement de la parole
|
|
Le codage
de la parole exige la description pertinente et l'extraction
précise d'informations du signal
(analyse et représentation du signal ).
La reconnaissance de la parole consiste
à traiter un signal de parole pour en extraire des informations
comme les mots prononcés, l'identité de la personne
qui parle, ou la langue utilisée. La transcription orthographique
peut faire l'objet de traitements ultérieurs pour en analyser
le contenu sémantique. Les applications de ce domaine les
plus connues du grand public sont la dictée vocale et la
demande de renseignements par téléphone ou sur borne
multimodale.
La synthèse de la parole
à partir du texte est la passerelle entre le monde de l'écrit
et celui de l'oral. La transcription texte/parole nécessite
l'utilisation de la technologie de l'analyse morphosyntaxique.
Le corpus parlé sert aux
linguistes dans un but d'analyse. Il repose sur des transcriptions
associant éventuellement l'alphabet phonétique et
des signes spécifiques pour noter la prosodie.
Le corpus de parole sert aux chercheurs en reconnaissance
de la parole. Il est plus proche de l'enregistrement sonore.
|
Codage de la parole |
Synthèse vocale |
| Reconnaissance vocale |
Corpus oral |
|
|
| TIL: Traitement
Informatique des Langues |
|