La freeBank : La freeBank

Download 445 b.

Sana	09.03.2017
Hajmi	445 b.
	#1961

La FReeBank :

La FReeBank :
vers une base libre de corpus annotés
Susanne Salmon-Alt (ATILF – CNRS)
Eckhard Bick (University of Southern Denmark)
Laurent Romary (LORIA – INRIA)
Jean-Marie Pierrel (ATILF – CNRS)

Trois constats

Manque de corpus annotés réutilisables

modélisation, apprentissage, évaluation
retard important par rapport à l’anglais

Initiatives d’annotation au-delà de la morphologie

syntaxe (Abeillé 2003, Vilnat & al. 2003)
anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002)
sémantique (Projet Evalda Média)
majorité de ressources sous droits et/ou non normalisées

Initiatives de mise en ligne de ressources libres

lexiques : tables LADL/IGM, LEFFF, ABU, Papillon
corpus : Asila, GDR Sémantique, Ananas, Text®, ABU

mais peu de ressources annotées
problèmes d’interfaçage et de mise à jour

Un objectif

Espace ouvert de dépôt de ressources libres

pas un simple espace de méta-données (cf. OLAC)
téléchargement et dépôt de données brutes ou annotées
dépôt d’annotations sur ressources existantes

méta-annotations
annotations concurrentes
corrections, affinages
annotation d’extraits

pas de validation a priori des annotations
documentation

schémas
pratiques

… et un rêve

Annotations « stand-off »

séparation entre données primaires et annotations
souhaitables pour

annotations concurrentes : comparaison de deux étiqueteurs
annotations non hiérarchiques : antécédents complexes

Annotations normalisées

suivi des recommandations (TEI, ISO TC37/SC4, RNIL)
indispensables pour

interfaçage avec outils TAL
évaluation des ressources
partage d’outils de traitement de corpus
pérennisation
documentation partagée

Du rêve à la réalité…

Du rêve à la réalité…

Du rêve à la réalité…

Du rêve à la réalité…

Du rêve à la réalité…

Du rêve à la réalité…

Du rêve à la réalité…

Concepts fondamentaux

Concepts fondamentaux

Concepts fondamentaux

Concepts fondamentaux

« Couverture linguistique »

conditions de production & contenu linéaire

« Je sais que le langage courant est plein de pièges. »
=> S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004

« Corpus »

collection de données caractérisée par une même couverture linguistique

Goriot, chap. I
Le Monde 09/1986  articles sportifs du Monde 09/1986

corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)

« Ressource »

unité physique de dépôt de données relatives à un corpus

Goriot scanné (image)
Goriot texte brut (Word)
Goriot étiqueté + arboré (XML Tiger)

Concepts fondamentaux

« Niveau de description »

ensemble cohérent d’informations explicitées relatif à un corpus

fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours
analyse humaine ou traitement automatique
instancié par un schéma d’annotation (Ide & Romary, 2001)

données primaires et secondaires

considération pratique : reconstitution de la couverture
continuum théorique (texte balisé TEI ?)

« Méta-données »

identification et gestion des données

Organisation linguistique

Organisation opérationnelle

Méta-données

Complémentarité des initiatives internationales

Dublin Core, OLAC, IMDI, TEI
convergence sur les descripteurs du TC 37 de l’ISO

répertoire de catégories de données : rôles, codes de langue…

Méta-données utiles pour la FReeBank

pertinence vis-à-vis de corpus, ressource et niveau de description
prévoir des méta-données plus fines à terme

documentation des étiquettes morpho-syntaxiques
caractérisation de données « primaires » / « secondaires »

Méta-données codées sous forme d’en-têtes TEI

dissémination de bonnes pratiques pour la représentation et la transcription
diffusion au format OLAC et IMDI

moissonnage de la FReeBank par les portails correspondants

Exemple « types de discours »

Classification stable dans OLAC

drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech

Caractérise la composante « niveau de description »

utilisation de / dans l’en-tête TEI

A définir…

opérationnalité de la classification
percolation vers la composante « corpus » ?

Exemple « rôles »

Ensemble complexe de rôles dans OLAC

caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques

Distribution vis-à-vis de l’architecture de la FReeBank

Corpus

Depositor

Ressource

Depositor, Compiler, Editor, Researcher, Sponsor

Niveau de description

[Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor
[Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker

Contenu : amorce

Corpus libres de droits

Asila (corpus de dialogue)
Ananas (corpus annotés en anaphores)
GDR Sémantique, L’Arboratoire, Text®, ABU
toute contribution est la bienvenue !

État actuel (cf. papier)

Annotation syntaxique (Arboratoire)

FrAG (French Annotation Grammar, E. Bick)

http://sandbox.visl.sdu.dk/visl/fr/

Annotation référentielle (Ananas)

Analyse syntaxique

étiquetage TreeTagger & constituants + dépendances (VISL)
structure arborescente
correction manuelle partielle

Normalisation

format Negra-TIGER + stand-off

Extraction GNs

TIGER-Search
XSL

Annotation référentielle

filtrage semi-manuel des GN référentiels
annotation manuelle (double annotation + évaluation accord)

Granularité, versions, corrections

Nouveau dépôt

ressource + niveaux de description
méta-données (catégories de données, évaluation, annotateur)
extraction de GN => catégorisation entités nommées
sur-spécification étiquettes morpho-syntaxiques
correction manuelle des dépendances syntaxiques

Bilan & Perspectives

Et en plus, ça existe vraiment…

Download 445 b.

Do'stlaringiz bilan baham:

Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling