Apr 11, 2005 ... 2. La fouille de textes. ○ Objectifs, exemples : – Recherche des pages ..... RV (x,
y) = a.log(a) + b.log(b) + c.log(c) + d.log(d) - (a+b).log(a+b).
Extraction de la terminologie dans un processus global de fouille de textes Mathieu Roche Equipe Inférence et Apprentissage - LRI 11 avril 2005 Bordeaux
La fouille de textes z
Objectifs, exemples : – – – –
z
Approches : – –
2
Recherche des pages pertinentes sur le Web. Traitement automatique des courriels (spams, réponses automatisées aux courriels, etc.). Recherche des informations précises dans des textes techniques (médecine, biologie, etc.). Conception de systèmes de questions/réponses.
–
méthodes linguistiques méthodes statistiques méthodes mixtes
Le processus global en fouille de textes [Kodratoff et al., JDS'03 ; Roche et al., IIPWM'04] Acquisition
---------
Normalisation
---------
-----
Étiqueteur
-----
-----
-----
-----
Corpus brut
Corpus normalisé
Corpus étiqueté
Extraction des "termes" - Règles d’association
-----
- extraction d’informations par patrons d’extraction
-----
Extraction d’informations
3
Classification conceptuelle
Détection des traces de concepts
----Termes
Les corpus étudiés
4
z
Tests de psychologie - Ressources Humaines (Société PerformanSe) - 3784 Ko (en français).
z
Curriculum Vitæ (Groupe VediorBis) - 2470 Ko (en français).
z
Introductions d’articles sur la Fouille de Données (acquisition par un expert) - 369 Ko (en anglais).
z
Résumés d’articles sur la Biologie Moléculaire (acquisition par une base de données spécialisée) - 9424 Ko (en anglais).
=> Corpus journalistique de TREC'04 (Text REtrieval Conferences)
Problème spécifique étudié : les termes (1/2) z
Importance de la caractérisation des termes –
Exemple : traduction automatique z
Constitution européenne, article III-10 :
The right to vote and to stand as a candidate in elections... Le droit de vote et d'éligibilité aux élections ...
5
Problème spécifique étudié : les termes (2/2) z
Collocation (candidat-terme) : groupe de mots dont le sens global est déductible des unités composant le groupe [Clas 1994]. –
z
Terme : collocation ayant des propriétés syntaxiques + trace linguistique de concepts pour une tâche en cours. – –
6
Exemple, "maire de Paris"
Exemples, "intelligence artificielle" et "génie logiciel" sont des termes Exemple, "chalon sur saône" est-il un terme ?
Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie)
7
4. Extraction de la terminologie : une approche d'apprentissage supervisé
État de l'art (1/5)
8
Systèmes
linguistiques
statistiques
références
TERMINO
X
[David et Plante 1990]
LEXTER
X
[Bourigault 1993]
FASTR
X
[Jacquemin 1996]
INTEX
X
[Silberztein1994 ; Ibekwe-SanJuan 2001]
ANA
X
[Enguehard 1993]
MANTEX
X
[Frath et al. 2000]
XTRACT
X
X
[Smadja 1993]
ACABIT
X
X
[Daille 1994]
CLARIT
X
X
[Evans et Zhai 1996]
TERMIGHT
X
X
[Dagan et Church 1997]
C/NC VALUE
X
X
[Frantzi et al. 2000]
SYNTEX
X
X
[Bourigault et Fabre 2000]
WASPBENCH
X
X
[Kilgarriff et Tugwel 2001]
FIPS
X
X
[Nerima et al. 2003]
ESATEC
X
X
[Biskri et al. 2004]
État de l'art (2/5) Exemple de système linguistique : FASTR [Jacquemin 1996] z z z
Entrée : termes de base (congé de formation) Sortie : termes variants (congé annuel de formation). 3 types de règles (linguistiques) : coordinations insertions permutations
z
9
association rule Æ association and classification rules MRI image Æ MRI brain image knowledge discovery Æ discovery of knowledge
Limite : nécessite de considérer une fenêtre plus grande [VilleOmetz et al. 2004]. Exemple : thymus gland Æ thymus and adrenal gland contexte : rat thymus and adrenal gland
État de l'art (3/5) Exemple de système statistique : ANA [Enguehard 1993] z
Module Familiarisation qui initialise la liste de bootstrap. –
z
Exemple : {chef, contrat, rayon, etc.}
Module Découverte qui construit de manière incrémentale une liste de termes fréquents en utilisant les mots du bootstrap. Exemple : chef de rayon Entrée : {chef, contrat, rayon, etc.} Sortie : {chef, contrat, chef de rayon, etc.}
10
État de l'art (4/5) Exemple de système mixte : ACABIT [Daille 1994]
11
z
Extraction de collocations respectant des patrons d'extraction simples Nom-Nom, Nom-Préposition-Nom, Nom-Adjectif, etc.
z
Les termes variants sont détectés grâce à des règles morphosyntaxiques (par exemple, centre de formation Æ centre régional de formation).
z
Comptabilisation de tous les couples de mots en collocation notés par exemple (centre, formation).
z
Classement statistique des couples de mots.
État de l'art (5/5)
12
Systèmes
linguistiques
statistiques
références
TERMINO
X
[David et Plante 1990]
LEXTER
X
[Bourigault 1993]
FASTR
X
[Jacquemin 1996]
INTEX
X
[Silberztein1994 ; Ibekwe-SanJuan 2001]
ANA
X
[Enguehard 1993]
MANTEX
X
[Frath et al. 2000]
XTRACT
X
X
[Smadja 1993]
ACABIT
X
X
[Daille 1994]
CLARIT
X
X
[Evans et Zhai 1996]
TERMIGHT
X
X
[Dagan et Church 1997]
SYNTEX
X
X
[Bourigault et Fabre 2000]
C/NC VALUE
X
X
[Frantzi et al. 2000]
WASPBENCH
X
X
[Kilgarriff et Tugwel 2001]
FIPS
X
X
[Nerima et al. 2003]
ESATEC
X
X
[Biskri et al. 2004]
EXIT
X
X
[Roche et al. 2004]
Itératif Coopératif
Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie)
4. Extraction de la terminologie : une approche d'apprentissage supervisé 13
Présentation du système EXIT
(EXtraction Itérative de la Terminologie)
14
z
Système mixte (linguistique et statistique)
z
Système itératif
z
Système coopératif
z
Extension du TF X IDF aux termes
3.1. Processus itératif (1/3)
[Roche, EGC'03 ; Roche et al., IIPWM'04 ; Roche et al., JADT'04]
z
Processus itératif pour extraire les termes nominaux, adjectivaux et adverbiaux. Extraction
-----
-----
-----
-----
-----
-----
-----
-----
ETIQ
----Corpus normalisé
[Amrani et al. 04]
Corpus étiqueté
Introduction des termes avec "-"
Termes
Exemple : 1ère itération : assistant de gestion
15
2ème itération : assistant-de-gestion de production
3.1. Processus itératif (2/3) z
Extraction des collocations typées – – – – – –
16
Adjectif-Adjectif collocations de modifieurs Adverbe-Adverbe (adjectif et adverbe) Adverbe-Adjectif Adjectif-Nom collocations nominales Nom-Nom ... Æ exploitation des itérations + connaissances de l'expert
3.1. Processus itératif (3/3) z
Paramètre CIP (Coefficient Itérations Précédentes)
z
But : utiliser les connaissances de l’expert CIP privilégie les collocations – avec des mots inclus dans les collocations pertinentes des itérations précédentes. – avec des mots absents des collocations non pertinentes des itérations précédentes.
17
=> pourcentage de collocations pertinentes amélioré (+2% à +16%).
Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT (EXtraction Itérative de la Terminologie) 3.1. Processus itératif 3.2. Mesures statistiques 3.2.1. État de l'art des mesures statistiques 3.2.2. Évaluation expérimentale des mesures existantes 3.2.3. Proposition de mesures hybrides 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT
4. Extraction de la terminologie : une approche d'apprentissage supervisé
18
3.2. Mesures statistiques [Roche et al., JFT'03 ; Roche et al., INFORSID'04]
Rang
Collocations
Nb
Rang
1
mise en place
111
1
2
traitement de textes
57
2
3
assistante de direction
60
3
4
hôtesse de caisse
28
4 ...
... 50
chalon sur saône
4
63
jéjunum de rat
3
67
64
beurre de karité
3
... 74
...
19
43 ...
...
69
Collocations
puy en velay
3
...
...
144
...
...
Rapport de Vraisemblance
Information Mutuelle
Nb
3.2.1. État de l'art des mesures statistiques (1/4) Exemples de mesures fondées sur l'Information Mutuelle z Information Mutuelle [Church et Hanks 1990] P ( x, y ) IM ( x, y ) = log 2 P( x) P( y ) I ( x, y ) = log 2 (nb( x, y )) − log(nb( x)) − log(nb( y )) z
Information Mutuelle au Cube [Daille 1994] I 3 ( x, y ) = 3. log 2 (nb( x, y )) − log(nb( x)) − log(nb( y ))
20
3.2.1. État de l'art des mesures statistiques (2/4) z
Mesure d’Association [Jacquemin 1997] : –
isobarycentre des valeurs normalisées de l’information mutuelle et du nombre d’occurrences.
1 I ( x, y ) 1 nb( x, y ) + Ass ( x, y ) = 2 I M − I m 2 nbM − nbm I
M
=max I ( p, q ), I
m
= min I ( p, q )
nb = max nb( p, q ), nb = min nb( p, q ) M m
21
3.2.1. État de l'art des mesures statistiques (3/4) z
Rapport de Vraisemblance [Dunning, 1993] y
y' avec y' ≠ y
x
a
b
x' avec x' ≠ x
c
d
RV (x,y) = a.log(a) + b.log(b) + c.log(c) + d.log(d) - (a+b).log(a+b) - (a+c).log(a+c) - (b+d).log(b+d) - (c+d).log(c+d) + (a+b+c+d).log(a+b+c+d)
22
3.2.1. État de l'art des mesures statistiques (4/4) Mesures
23
Références
I
Information Mutuelle
[Church et Hanks 1990]
I3
Information Mutuelle au Cube
[Daille 1994]
Ass
Mesure d'Association
[Jacquemin 1997]
Dice
Coefficient de Dice
[ Smadja et al. 1996]
RV
Rapport de Vraisemblance
[Dunning 1993]
Khi 2
Khi 2
[Manning et Scütze 1999; Curran et Moens 2002]
Ttest
T-test
[Manning et Scütze 1999; Curran et Moens 2002]
SeSc
Sebag - Schoenauer
[Sebag et Schoenauer 1988]
J
J-mesure
[Goodman et Smyth 1988]
Conv
Conviction
[Brin et al. 1997]
MC
Moindre Contradiction
[Azé et Kodratoff 2003]
Mul
Multiplicateur de Cote
[Lallich et Teytaud 2004]
TALN
Règles d'association
3.2.2. Évaluation expérimentale des mesures existantes (1/6) z
Objectif : Choix d'une mesure pour une tâche en cours
z
Critères de performance : – – – – –
24
Précision Courbe d'élévation ("lift chart") Rappel Fscore Courbes ROC
3.2.2. Évaluation expérimentale des mesures existantes (2/6) Corpus de Fouille de Données (FD), des Ressources Humaines (RH) et des CVs. Nb collocations
Nb collocations après élagage (3)
FD RH CV FD RH CV
25
Nom-Prep-Nom
313
4703
3634
7
1268
307
Nom-Nom
2070
98
1781
223
11
162
Adjectif-Nom
2411
1260
1291
176
478
103
Nom-Adjectif
X
5768
3455
X
1628
448
Exemples : emploi solidarité action communication fichier client service achat …
3.2.2. Évaluation expérimentale des mesures existantes (3/6) z
Les résultats présentés portent sur le corpus FD (relation Nom-Nom).
z
Sur ce corpus, 1074 termes sont associés à un concept par l'expert du domaine.
z
Protocole expérimental : – –
26
Expérimentations sur la tâche d’extraction des collocations pertinentes pour la classification conceptuelle. 12 mesures de qualité expérimentées.
3.2.2. Évaluation expérimentale des mesures existantes (4/6) I
I3
Ass
Dice
RV
Khi 2
Ttest
SeSc
J
Conv
MC
Mul
20%
59.0
75.0
70.4
68.1
88.6
70.4
70.4
65.9
84.0
59.0
77.2
61.3
40%
66.2
73.0
66.2
73.0
75.2
69.6
69.6
65.1
79.7
65.1
65.1
60.6
60%
60.1
67.6
63.9
66.1
69.9
65.4
65.4
65.4
71.4
63.9
62.4
62.1
80%
58.9
63.4
60.6
61.7
62.3
61.7
61.7
60.5
65.1
62.9
62.3
59.6
Précision (en %) sur le corpus de FD avec les collocations Nom-Nom.
27
3.2.2. Évaluation expérimentale des mesures existantes (5/6) z
Courbes d'élévation avec le corpus FD. 100 Rapport de vraisemblance (RV) J mesure (J) Information mutuelle au cube (I3) Information mutuelle (I)
90
80
Precision (%)
70
60
50
40
30
20 0
28
50
100 150 Nombre de collocations fournies aux experts
200
3.2.2. Évaluation expérimentale des mesures existantes (6/6) z
Résultats similaires avec les 3 autres corpus – – –
Æ
Bon comportement global des mesures suivantes : – – –
29
CV Ressources Humaines Biologie
Rapport de Vraisemblance Information Mutuelle au Cube J-mesure
3.2. Proposition de mesures hybrides (1/2) [Roche et al., INFORSID'04]
Motivations d'utiliser une nouvelle mesure. z Ajout de λ à la mesure d’association : Assλ ( x, y ) = λ z
I ( x, y ) nb( x, y ) + (1 − λ ) IM − Im nbM − nbm
Problème d'optimisation avec λ. => λ* = 0 => Mise en place de la mesure OccRV
30
- classement selon le nombre d'occurrences - classement des collocations ayant le même nombre d'occurrences avec RV
3.2. Proposition de mesures hybrides (2/2) [Roche et al., INFORSID'04]
z
Courbes d'élévation avec le corpus FD. 100 Occ_RV Rapport de vraisemblance (RV) J mesure (J) Information mutuelle au cube (I3) Information mutuelle (I)
90
80
Precision (%)
70
60
50
40
30
20
31
0
50
100 150 Nombre de collocations fournies aux experts
200
Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 3.1. Processus itératif 3.2. Mesures statistiques 3.3. Extension du TF X IDF aux termes 3.4. L'interface d'EXIT
32
4. Extraction de la terminologie : une approche d'apprentissage supervisé
3.3. Extension du TFXIDF pour les termes (1/2) [Roche, EGC'03 ; Roche et al., JADT'04] Paramètre privilégiant les collocations présentes dans des textes différents. z
Paramètre DiffTextes nbi ( x , y ) −1 j ) DiffTextes( x, y ) = ∑ nbi ( x, y ) − ∑ 10 i =1 j =1 N
N : nombre total de textes du corpus. nbi : nombre de fois où une collocation est présente dans le i ème texte –
Exemple : z z
33
z
nombre de collocations : 3 nombre de textes : 1
Paramètre TF/IDF
DiffTextes = 2.7 ( 3-(3/10) )
3.3. Extension du TFXIDF pour les termes (2/2) z
Expérimentation du paramètre DiffTextes sur le corpus FD. I3
RV
J
OccRV
20%
+1.7
+4.4
+4.3
+4.4
40%
+0.5
+2.9
+1.9
-0.3
60%
+1.6
-1.5
+0.1
+2.5
80%
+2.6
+0.9
+4.4
+2.1
Î Amélioration globale de la précision
34
3.4. L'interface d'EXIT [Roche et al., JADT'04; Heitz et al., EGC'05]
35
Plan de l'exposé 1. Contexte 2. État de l'art 3. Système EXIT 4. Extraction de la terminologie : une approche d'apprentissage supervisé 36
Approche supervisée pour apprendre une mesure [Roche et al., ROCAI'04 ; Azé et al., ICCI'04] Æ Entrée : quelques collocations étiquetées (positives ou négatives). Æ Sortie : fonction de rang [Cohen et al. 1999] z
Évaluation d’une fonction de rang : somme des rangs des exemples positifs.
Minimiser la somme des rangs des exemples positifs ⇔ maximiser l'aire sous la courbe ROC Σrangs = 21 Σrangs = 25 z
37
h1: ++++++----
h2 : +++-+++---
AUC
AUC
Area Under the Curve
Protocole expérimental (1/2) z
38
Données utilisées # collocations
% collocations pertinentes
% collocations non pertinentes
CV, fréquents
376
85.7
14.3
CV, rares
2822
56.6
43.4
Biologie
1028
90.9
9.1
Protocole expérimental (2/2) AUC
AUC
collocations fréquentes
collocation fréquentes
corpus de CVs
corpus de Biologie
OccRV - Occurrence + RV [Roche et al. 2004]
0.58
0.57
RV - Rapport de Vraisemblance
0.43
0.42
I3 - Information Mutuelle au cube [Daille et al. 1998]
0.40
0.35
Dice - Coefficient de Dice [Smadja et al. 1996]
0.39
0.31
I - Information Mutuelle [Church and Hanks 1990]
0.31
0.30
Critères statistiques
39
[Dunning 1993]
Î Combinaison de mesures
Algorithme ROGER (ROC based GEnetic learneR) (1/2) Approche linéaire h(Coll) = ∑wi x mesi (Coll) avec (Coll, +/-) Approche non linéaire h(Coll) = ∑wi x | mesi (Coll) - ci | avec (Coll, +/-) Hypothèses : Aire sous la courbe ROC
h → (rang(Coll), Etiq(Coll)) classer les exemples par rangs croissants ++++-+---++-----+++----------+ : collocation pertinente - : collocation non pertinente
40
rang
Algorithme ROGER (2/2) z
Protocole expérimental –
90% Apprentissage, 10% Test, 10 validations croisées
–
21 exécutions indépendantes
–
Soit h1,...,hT les meilleurs hypothèses retenues à partir de T (T=21) exécutions indépendantes de ROGER.
Bh( x) = Médiane({ht ( x), t = 1..T })
41
Algorithme ROGER (2/2) z
Validation expérimentale sur les ensembles tests Bagged-Roger OccRV
Linéaire
Non linéaire
Linéaire
Gaussien
Quadratique
Biologie, fréquents
0.57
0.61 ± 0.04
0.67 ± 0.05
0.51 ± 0.13
0.54 ± 0.12
0.32 ± 0.07
CV, fréquents
0.58
0.59 ± 0.10
0.61 ± 0.11
0.46 ± 0.13
0.42 ± 0.14
0.52 ± 0.07
z
Etude de généralité – – –
42
Bagged-SVM
différents domaines différentes langues différentes fréquences des collocations
Étude de généralité (1) : apprentissage CVs / application Biologie (fréquents) AUC
1
Collocation fréquentes
Corpus de Biologie 0.57
RV
0.42
I3
0.35
Dice
0.31
I
0.30
SVM
43
0.8
relevant rate taux deTrue vrais positifs
OccRV
Bagged-ROGER
Linéaire
Linéaire
Non Linéaire
0.59
0.63
0.71
0.6
0.4
0.2 Bagged-Roger non lineaire Bagged-Roger lineaire SVM lineaire Occ+L 0 0
Autres noyaux donnent des résultats plus faibles
0.2
0.4
0.6
False relevant rate
taux de faux positifs
0.8
1
Étude de généralité (2) : apprentissage Biologie / validation CVs (fréquents) AUC
1
Collocations fréquentes
Corpus de CVs 0.58
RV
0.43
I3
0.40
Dice
0.39
I
0.31
SVM
44
0.8
relevant rate taux deTrue vrais positifs
OccRV
Bagged-ROGER
Linéaire
Linéaire
Non Linéaire
0.65
0.64
0.63
0.6
0.4
0.2 Bagged-Roger non lineaire Bagged-Roger lineaire SVM lineaire Occ+L 0 0
0.2
0.4
0.6
taux de faux positifs False relevant rate
0.8
1
Étude de généralité (3) : apprentissage
coll. fréquentes / application coll. rares (CVs) AUC
1
Collocations rares
Corpus de CVs 0.37
Dice
0.32
RV
0.30
I3
0.30
I
0.29
SVM
0.8
relevant rate taux deTrue vrais positifs
OccRV
Bagged-ROGER
Linéaire
Linéaire
Non Linéaire
0.56
0.67
0.70
0.6
0.4
0.2 Bagged-Roger non lineaire Bagged-Roger lineaire SVM lineaire Occ+L 0 0
0.2
0.4
0.6
False relevant rate
taux de faux positifs
45
0.8
1
Conclusions z
La méthode supervisée proposée donne de bons résultats. –
z
bonne généralisation selon les langues, les domaines et la fréquence des collocations.
Principales caractéristiques d'EXIT : – – –
Approche itérative Approche coopérative Ajout de paramètres
46
CIP (Coefficient Itérations Précédentes) critères statistiques DiffTextes
Perspectives
47
z
Apprentissage actif : demander à l'expert de valider un nombre restreint de collocations à chaque exécution de ROGER.
z
Étude approfondie de la terminologie verbale.
z
Étude du bruit et du silence.
z
Étude de la terminologie à partir d'autres langues.
Annexe
48
Méthode (1/2) z
Utilisation des courbes ROC (Receiver Operating Characteristic): courbe dont le taux de vrais positifs est représenté en ordonnées et le taux de faux positifs est représenté par l'axe des abscisses.
z
Avantage : pas de sensibilité dans le cas d'un déséquilibre entre les classes. 1
taux de vrais positifs
0
z
49
taux de faux positifs
1
But : optimiser l'aire sous les courbes ROC (AUC) [Sebag et al. 2003].
Méthode (2/2) Etape d'optimisation maximiser l'aire sous la courbe ROC ⇔ minimiser la somme des rangs des exemples positifs
50
Σrangs = 21
Σrangs = 25
Σrangs = 26
h1: ++++++----
h2 : +++-+++---
h3 : ++-+-++-+-
Exemple z z
Type de collocations : adj3 adj2 adj1 nom1 et adj3 adj2 adj1 nom2 Elagage : élagage 1 à la première itération et 2 à la deuxième
Extraction :
Extraction :
1. Type Adjectif-Adjectif
1. Type Adjectif-Nom
Æ Itération 1 : adj3 adj2 (2 fois)
Æ Itération 1 : adj1 nom1 (1 fois)
Æ Itération 2 : adj3-adj2 adj1 (2 fois)
adj1 nom2 (1 fois)
2. Type Adjectif-Nom
2. Type Adjectif-Adjectif
Æ Itération 1 : adj3-adj2-adj1 nom1 (1 fois)
Æ Itération 1 : adj3-adj2 (2 fois)
adj3-adj2-adj1 nom2 (1 fois)
adj3-adj2-adj1-nom1 et adj3-adj2-adj1-nom1 non extraites
Exemple : latent semantic analysis
51
latent semantic indexing