LIMSI, groupe ILES (Orsay) - Page personnelle
Mes thèmes de recherche sont tous orientés vers la fouille de texte.
Extraction d'information
Ce thème a été mené à IBISC, équipe AMISBIO (Evry) de septembre 2007 à juin 2009, et est poursuivi au LIMSI
L’extraction d’information à partir de textes de spécialité consiste à analyser des textes afin d’en extraire automatiquement ou semi-automatiquement des informations. Ces informations sont celles dont les chercheurs du domaine ont besoin pour alimenter leurs modèles et mener à bien leurs expérimentations, ou bien celles qui permettront de mieux décrire et représenter les connaissances du domaine. Les applications qui en découlent sont alors soit du peuplement de base de données par des informations précises soit des applications destinées à construire des ontologies utilisées pour améliorer la recherche et la compréhension de textes.
Voir le détail ici
Question-réponse
L'objectif est d'étudier et évaluer l'apport des processus de TAL pour extraire des réponses à des questions factuelles en domaine ouvert : analyse syntaxique, paraphrase, variation sémantique.
Dans le groupe ILES (ex LIR), nous avons réalisé différents systèmes :
- QALC sur l'anglais à partir de 1999, système qui a été évalué à TREC pendant 4 ans (1999-2002)
- FRASQUES, à partir de 2004, sur le français, pour la campagne EQUER
- MUSQAT, en multilingue (question enfrançais et réponse extraite de textes anglais), à partir de 2004, et MUSCLEF (une architecture pour choisir entre les réponses de plusieurs systèmes) qui a participé à CLEF pendant 3ans
- FIDJI, dans le cadre du projet ANR blanc, CONIQUE
Les points plus spécifiquement étudiés :
- l'analyse des questions afin d'en extraire le type de réponse attendu, la catégorie syntaxique permettant d'y associer des paraphrases de la formulation de la réponse, en prenant le "focus" de la question comme pivot.
- la sélection de documents en fonction des termes et variantes de la question qu'ils contiennent
- l'extraction de réponses des phrases candidates en fonction des paraphrases possibles
- la justification et la validation des réponses, avec participation à la tâche AVE de CLEF, par apprentissage sur des critères lexicaux, ainsi que par la recherche d'inférences lors d'informations manquantes ou non reconnues dans le passage candidat
Apprentissage de connaissances à partir de textes
La compréhension de textes nécessitant l'utilisation de connaissances sur les situations prototypiques, classiquement représentées par des schémas, cet axe vise à apprendre ce type de connaissances à partir des textes eux-mêmes et à les réutiliser pour améliorer la compréhension.
Les processus mis en oeuvre reposent sur une analyse thématique pour l'aspect compréhension, et sur un apprentissage incrémental par accumulation d'expériences. Cette approche est étudiée aussi bien au niveau conceptuel qu'au niveau lexical dans le but de construire automatiquement des connaissances par paliers successifs.
Ce type d'apprentissage a été développé :
pour élaborer des connaissances structurées (unités thématiques agrégées et schémas) à partir d'une représentation des situations d'un texte sous forme de graphes conceptuels
le même principe a été appliqué sur des situations formées d'un ensemble de mots pondérés afin de faire émerger des représentations de domaines (signatures thématiques).
Analyse de texte
Selon le niveau d'analyse des textes que l'on désire et les connaissances disponibles, des processus d'analyse thématique différents ont été élaborés fondés sur :
- l'utilisation de connaissances structurées sur les situations (schémas ou unité thématiques agrégées)
- l'utilisation d'un réseau de cooccurrences entre mots
- la reconnaissance de la structure rhétorique et thématique du texte.
L'analyse thématique est aussi vue comme un processus s'intégrant dans un processus d'apprentissage, et devant concourir à la formation de connaissances.