Article (Scientific journals)
Expériences sur l'analyse morphosyntaxique des corpus oraux avec l'annotateur multi-niveaux DisMo
Christodoulides, George; Barreca, Giulia
2017In Corela - Cognition Représentation Langage, (HS21), p. 15
Peer reviewed
 

Files


Full Text
2017 Christodoulides & Barreca DisMo Corela 4867.pdf
Publisher postprint (1.14 MB)
Download

All documents in ORBi UMONS are protected by a user license.

Send to



Details



Abstract :
[en] Annotating spoken corpora poses unique challenges stemming from the particular characteristics of spontaneous speech and its transcription. Automatic annotation tools need to adapt to these challenges. At the same time, it is desirable to define a 'least common denominator' of written and spoken language corpora, to allow for comparisons between these two modalities, and apply an enriched annotation scheme for phenomena specific to spoken language. In this article, we present the approach implemented in the DisMo automatic annotator, which is specifically designed for spoken corpora, and which generates a multi-level annotation, including : part-of-speech tagging, lemmatisation, multi-word unit detection, detection and annotation of disfluencies and discourse markers, and chunking. We present our work on the French corpus of the Phonologie du Français Contemporain (PFC) project ; this work allowed us to improve the tool. We discuss the theoretical and practical considerations that informed the choice of levels of annotation, types of phenomena detected, and tag sets, and we present a performance evaluation of the automatic annotation.
[fr] L'annotation des corpus oraux présente des défis particuliers, liés aux caractéristiques de la langue parlée et sa transcription. Si la méthodologie d'analyse et les outils d'annotation automatique doivent être adaptés à ces défis, il est toutefois souhaitable de garder la possibilité de comparer un corpus oral avec un corpus écrit, sur base d'un « dénominateur commun », et d'enrichir l'annotation avec des couches supplémentaires pour décrire les phénomènes propres à l'oral. Dans cet article nous présentons l'approche implémentée dans l'outil DisMo, un annotateur automatique conçu spécifiquement pour les corpus oraux, qui propose une analyse à plusieurs niveaux : étiquetage morphosyntaxique, lemmatisation, détection des unités poly-lexicales, détection et annotation des phénomènes de disfluence et des marqueurs de discours, et découpage en unités syntaxiques minimales. Nous présenterons nos travaux sur le corpus Phonologie du Français Contemporain (PFC) qui ont permis de réviser l'outil et d'améliorer sa performance. Nous préciserons les choix théoriques et pratiques quant aux niveaux d'annotation, les phénomènes détectés, les jeux d'étiquettes, ainsi qu'une évaluation de la performance de l'annotation automatique.
Disciplines :
Languages & linguistics
Author, co-author :
Language :
French
Title :
Expériences sur l'analyse morphosyntaxique des corpus oraux avec l'annotateur multi-niveaux DisMo
Publication date :
16 February 2017
Journal title :
Corela - Cognition Représentation Langage
Publisher :
Cercle Linguistique du Centre et de l'Ouest (CERLICO), Poitiers, France
Issue :
HS21
Pages :
15pp
Peer reviewed :
Peer reviewed
Available on ORBi UMONS :
since 25 December 2018

Statistics


Number of views
3 (0 by UMONS)
Number of downloads
0 (0 by UMONS)

Bibliography


Similar publications



Contact ORBi UMONS