La FReeBank : La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS) Eckhard Bick (University of Southern Denmark) Laurent Romary (LORIA – INRIA) Jean-Marie Pierrel (ATILF – CNRS)
Trois constats Manque de corpus annotés réutilisables - modélisation, apprentissage, évaluation
- retard important par rapport à l’anglais
Initiatives d’annotation au-delà de la morphologie - syntaxe (Abeillé 2003, Vilnat & al. 2003)
- anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002)
- sémantique (Projet Evalda Média)
- majorité de ressources sous droits et/ou non normalisées
Initiatives de mise en ligne de ressources libres - lexiques : tables LADL/IGM, LEFFF, ABU, Papillon
- corpus : Asila, GDR Sémantique, Ananas, Text®, ABU
- mais peu de ressources annotées
- problèmes d’interfaçage et de mise à jour
Un objectif Espace ouvert de dépôt de ressources libres - pas un simple espace de méta-données (cf. OLAC)
- téléchargement et dépôt de données brutes ou annotées
- dépôt d’annotations sur ressources existantes
- méta-annotations
- annotations concurrentes
- corrections, affinages
- annotation d’extraits
- pas de validation a priori des annotations
- documentation
… et un rêve Annotations « stand-off » - séparation entre données primaires et annotations
- souhaitables pour
- annotations concurrentes : comparaison de deux étiqueteurs
- annotations non hiérarchiques : antécédents complexes
Annotations normalisées - suivi des recommandations (TEI, ISO TC37/SC4, RNIL)
- indispensables pour
- interfaçage avec outils TAL
- évaluation des ressources
- partage d’outils de traitement de corpus
- pérennisation
- documentation partagée
Du rêve à la réalité…
Du rêve à la réalité…
Du rêve à la réalité…
Du rêve à la réalité…
Du rêve à la réalité…
Du rêve à la réalité…
Du rêve à la réalité…
Concepts fondamentaux
Concepts fondamentaux
Concepts fondamentaux « Couverture linguistique » - conditions de production & contenu linéaire
- « Je sais que le langage courant est plein de pièges. »
- => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004
« Corpus » - collection de données caractérisée par une même couverture linguistique
- Goriot, chap. I
- Le Monde 09/1986 articles sportifs du Monde 09/1986
- corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)
« Ressource » - unité physique de dépôt de données relatives à un corpus
- Goriot scanné (image)
- Goriot texte brut (Word)
- Goriot étiqueté + arboré (XML Tiger)
Concepts fondamentaux « Niveau de description » - ensemble cohérent d’informations explicitées relatif à un corpus
- fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours
- analyse humaine ou traitement automatique
- instancié par un schéma d’annotation (Ide & Romary, 2001)
- données primaires et secondaires
- considération pratique : reconstitution de la couverture
- continuum théorique (texte balisé TEI ?)
« Méta-données » - identification et gestion des données
Organisation linguistique
Organisation opérationnelle
Méta-données Complémentarité des initiatives internationales - Dublin Core, OLAC, IMDI, TEI
- convergence sur les descripteurs du TC 37 de l’ISO
- répertoire de catégories de données : rôles, codes de langue…
- pertinence vis-à-vis de corpus, ressource et niveau de description
- prévoir des méta-données plus fines à terme
- documentation des étiquettes morpho-syntaxiques
- caractérisation de données « primaires » / « secondaires »
Méta-données codées sous forme d’en-têtes TEI - dissémination de bonnes pratiques pour la représentation et la transcription
- diffusion au format OLAC et IMDI
- moissonnage de la FReeBank par les portails correspondants
Exemple « types de discours » Classification stable dans OLAC - drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech
Caractérise la composante « niveau de description » - utilisation de / dans l’en-tête TEI
A définir… - opérationnalité de la classification
- percolation vers la composante « corpus » ?
Exemple « rôles » Ensemble complexe de rôles dans OLAC - caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques
Distribution vis-à-vis de l’architecture de la FReeBank - Corpus
- Ressource
- Depositor, Compiler, Editor, Researcher, Sponsor
- Niveau de description
- [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor
- [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker
Contenu : amorce Corpus libres de droits - Asila (corpus de dialogue)
- Ananas (corpus annotés en anaphores)
- GDR Sémantique, L’Arboratoire, Text®, ABU
- toute contribution est la bienvenue !
État actuel (cf. papier)
Annotation syntaxique (Arboratoire) FrAG (French Annotation Grammar, E. Bick) - http://sandbox.visl.sdu.dk/visl/fr/
Annotation référentielle (Ananas) Analyse syntaxique - étiquetage TreeTagger & constituants + dépendances (VISL)
- structure arborescente
- correction manuelle partielle
Normalisation - format Negra-TIGER + stand-off
Extraction GNs Annotation référentielle - filtrage semi-manuel des GN référentiels
- annotation manuelle (double annotation + évaluation accord)
Granularité, versions, corrections Nouveau dépôt - ressource + niveaux de description
- méta-données (catégories de données, évaluation, annotateur)
- extraction de GN => catégorisation entités nommées
- sur-spécification étiquettes morpho-syntaxiques
- correction manuelle des dépendances syntaxiques
Bilan & Perspectives
Et en plus, ça existe vraiment…
Do'stlaringiz bilan baham: |