La freeBank : La freeBank


Download 445 b.
Sana09.03.2017
Hajmi445 b.


La FReeBank :

  • La FReeBank :

  • vers une base libre de corpus annotés

  • Susanne Salmon-Alt (ATILF – CNRS)

  • Eckhard Bick (University of Southern Denmark)

  • Laurent Romary (LORIA – INRIA)

  • Jean-Marie Pierrel (ATILF – CNRS)


Trois constats

  • Manque de corpus annotés réutilisables

    • modélisation, apprentissage, évaluation
    • retard important par rapport à l’anglais
  • Initiatives d’annotation au-delà de la morphologie

    • syntaxe (Abeillé 2003, Vilnat & al. 2003)
    • anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002)
    • sémantique (Projet Evalda Média)
    • majorité de ressources sous droits et/ou non normalisées
  • Initiatives de mise en ligne de ressources libres

    • lexiques : tables LADL/IGM, LEFFF, ABU, Papillon
    • corpus : Asila, GDR Sémantique, Ananas, Text®, ABU
      • mais peu de ressources annotées
      • problèmes d’interfaçage et de mise à jour


Un objectif

  • Espace ouvert de dépôt de ressources libres

    • pas un simple espace de méta-données (cf. OLAC)
    • téléchargement et dépôt de données brutes ou annotées
    • dépôt d’annotations sur ressources existantes
      • méta-annotations
      • annotations concurrentes
      • corrections, affinages
      • annotation d’extraits
    • pas de validation a priori des annotations
    • documentation
      • schémas
      • pratiques


… et un rêve

  • Annotations « stand-off »

    • séparation entre données primaires et annotations
    • souhaitables pour
      • annotations concurrentes : comparaison de deux étiqueteurs
      • annotations non hiérarchiques : antécédents complexes
  • Annotations normalisées

    • suivi des recommandations (TEI, ISO TC37/SC4, RNIL)
    • indispensables pour
      • interfaçage avec outils TAL
      • évaluation des ressources
      • partage d’outils de traitement de corpus
      • pérennisation
      • documentation partagée


Du rêve à la réalité…



Du rêve à la réalité…



Du rêve à la réalité…



Du rêve à la réalité…



Du rêve à la réalité…



Du rêve à la réalité…



Du rêve à la réalité…



Concepts fondamentaux



Concepts fondamentaux



Concepts fondamentaux



Concepts fondamentaux

  • « Couverture linguistique »

    • conditions de production & contenu linéaire
      • « Je sais que le langage courant est plein de pièges. »
      • => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004
  • « Corpus »

    • collection de données caractérisée par une même couverture linguistique
      • Goriot, chap. I
      • Le Monde 09/1986  articles sportifs du Monde 09/1986
    • corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)
  • « Ressource »

    • unité physique de dépôt de données relatives à un corpus
      • Goriot scanné (image)
      • Goriot texte brut (Word)
      • Goriot étiqueté + arboré (XML Tiger)


Concepts fondamentaux

  • « Niveau de description »

    • ensemble cohérent d’informations explicitées relatif à un corpus
      • fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours
      • analyse humaine ou traitement automatique
      • instancié par un schéma d’annotation (Ide & Romary, 2001)
    • données primaires et secondaires
      • considération pratique : reconstitution de la couverture
      • continuum théorique (texte balisé TEI ?)
  • « Méta-données »

    • identification et gestion des données


Organisation linguistique



Organisation opérationnelle



Méta-données

  • Complémentarité des initiatives internationales

    • Dublin Core, OLAC, IMDI, TEI
    • convergence sur les descripteurs du TC 37 de l’ISO
      • répertoire de catégories de données : rôles, codes de langue…
  • Méta-données utiles pour la FReeBank

    • pertinence vis-à-vis de corpus, ressource et niveau de description
    • prévoir des méta-données plus fines à terme
      • documentation des étiquettes morpho-syntaxiques
      • caractérisation de données « primaires » / « secondaires »
  • Méta-données codées sous forme d’en-têtes TEI

    • dissémination de bonnes pratiques pour la représentation et la transcription
    • diffusion au format OLAC et IMDI
      • moissonnage de la FReeBank par les portails correspondants


Exemple « types de discours »

  • Classification stable dans OLAC

    • drama, formulaic discourse, interactive discourse, language play, oratory, narrative, procedural discourse, singing, unintelligible speech
  • Caractérise la composante « niveau de description »

    • utilisation de / dans l’en-tête TEI
  • A définir…

    • opérationnalité de la classification
    • percolation vers la composante « corpus » ?


Exemple « rôles »

  • Ensemble complexe de rôles dans OLAC

    • caractérisation des agents intervenant dans la création, gestion et distribution de données linguistiques
  • Distribution vis-à-vis de l’architecture de la FReeBank

    • Corpus
      • Depositor
    • Ressource
      • Depositor, Compiler, Editor, Researcher, Sponsor
    • Niveau de description
      • [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor
      • [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker


Contenu : amorce

  • Corpus libres de droits

    • Asila (corpus de dialogue)
    • Ananas (corpus annotés en anaphores)
    • GDR Sémantique, L’Arboratoire, Text®, ABU
    • toute contribution est la bienvenue !
  • État actuel (cf. papier)



Annotation syntaxique (Arboratoire)

  • FrAG (French Annotation Grammar, E. Bick)

    • http://sandbox.visl.sdu.dk/visl/fr/


Annotation référentielle (Ananas)

  • Analyse syntaxique

    • étiquetage TreeTagger & constituants + dépendances (VISL)
    • structure arborescente
    • correction manuelle partielle
  • Normalisation

    • format Negra-TIGER + stand-off
  • Extraction GNs

    • TIGER-Search
    • XSL
  • Annotation référentielle

    • filtrage semi-manuel des GN référentiels
    • annotation manuelle (double annotation + évaluation accord)


Granularité, versions, corrections

  • Nouveau dépôt

    • ressource + niveaux de description
    • méta-données (catégories de données, évaluation, annotateur)
    • extraction de GN => catégorisation entités nommées
    • sur-spécification étiquettes morpho-syntaxiques
    • correction manuelle des dépendances syntaxiques


Bilan & Perspectives



Et en plus, ça existe vraiment…



Download 445 b.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2020
ma'muriyatiga murojaat qiling