photo

 

Brigitte Grau

language langue

Professeur à l'ENSIIE (Ecole nationale supérieure d'Informatique pour l'industrie et l'entreprise)

Bureau : 104
Tél. : +33 1 69 36 73 44
Email : prénom.nom@ensiie.fr
 
1 square de la résistance
91025 Evry

Laboratoire de recherche

LIMSI, groupe ILES (Orsay) - Page personnelle

Activités de recherche

Mes thèmes de recherche sont tous orientés vers la fouille de texte.

  • extraction d'information à partir de textes de spécialités, notamment des articles en biologie.
  • systèmes de question-réponse en domaine ouvert
  • acquisition de connaissances à partir de textes et analyse thématique de texte.

Extraction d'information

Ce thème a été mené à IBISC, équipe AMISBIO (Evry) de septembre 2007 à juin 2009, et est poursuivi au LIMSI

L’extraction d’information à partir de textes de spécialité consiste à analyser des textes afin d’en extraire automatiquement ou semi-automatiquement des informations. Ces informations sont celles dont les chercheurs du domaine ont besoin pour alimenter leurs modèles et mener à bien leurs expérimentations, ou bien celles qui permettront de mieux décrire et représenter les connaissances du domaine. Les applications qui en découlent sont alors soit du peuplement de base de données par des informations précises soit des applications destinées à construire des ontologies utilisées pour améliorer la recherche et la compréhension de textes.

Voir le détail ici

Question-réponse

L'objectif est d'étudier et évaluer l'apport des processus de TAL pour extraire des réponses à des questions factuelles en domaine ouvert : analyse syntaxique, paraphrase, variation sémantique.

Dans le groupe ILES (ex LIR), nous avons réalisé différents systèmes :

  • QALC sur l'anglais à partir de 1999, système qui a été évalué à TREC pendant 4 ans (1999-2002)
  • FRASQUES, à partir de 2004, sur le français, pour la campagne EQUER
  • MUSQAT, en multilingue (question enfrançais et réponse extraite de textes anglais), à partir de 2004, et MUSCLEF (une architecture pour choisir entre les réponses de plusieurs systèmes) qui a participé à CLEF pendant 3ans
  • FIDJI, dans le cadre du projet ANR blanc, CONIQUE

Les points plus spécifiquement étudiés :

  • l'analyse des questions afin d'en extraire le type de réponse attendu, la catégorie syntaxique permettant d'y associer des paraphrases de la formulation de la réponse, en prenant le "focus" de la question comme pivot. 
  • la sélection de documents en fonction des termes et variantes de la question qu'ils contiennent
  • l'extraction de réponses des phrases candidates en fonction des paraphrases possibles
  • la justification et la validation des réponses, avec participation à la tâche AVE de CLEF, par apprentissage sur des critères lexicaux, ainsi que par la recherche d'inférences lors d'informations manquantes ou non reconnues dans le passage candidat

Apprentissage de connaissances à partir de textes

 

La compréhension de textes nécessitant l'utilisation de connaissances sur les situations prototypiques, classiquement représentées par des schémas, cet axe vise à apprendre ce type de connaissances à partir des textes eux-mêmes et à les réutiliser pour améliorer la compréhension.

Les processus mis en oeuvre reposent sur une analyse thématique pour l'aspect compréhension, et sur un apprentissage incrémental par accumulation d'expériences. Cette approche est étudiée aussi bien au niveau conceptuel qu'au niveau lexical dans le but de construire automatiquement des connaissances par paliers successifs.

Ce type d'apprentissage a été développé :

  • pour élaborer des connaissances structurées (unités thématiques agrégées et schémas) à partir d'une représentation des situations d'un texte sous forme de graphes conceptuels

  • le même principe a été appliqué sur des situations formées d'un ensemble de mots pondérés afin de faire émerger des représentations de domaines (signatures thématiques).

Analyse de texte

Selon le niveau d'analyse des textes que l'on désire et les connaissances disponibles, des processus d'analyse thématique différents ont été élaborés fondés sur :

  • l'utilisation de connaissances structurées sur les situations (schémas ou unité thématiques agrégées)
  • l'utilisation d'un réseau de cooccurrences entre mots
  • la reconnaissance de la structure rhétorique et thématique du texte.

L'analyse thématique est aussi vue comme un processus s'intégrant dans un processus d'apprentissage, et devant concourir à la formation de connaissances.