Paper published in a journal (Scientific congresses and symposiums)
Un concordancier multi-niveaux pour des corpus oraux
Barreca, Giulia; Christodoulides, George
2014
 

Files


Full Text
2014 Barreca & Christodoulides - Un concordancier multi-niveaux et multimedia pour des corpus oraux (TALN2014).pdf
Publisher postprint (570.56 kB)
Download

All documents in ORBi UMONS are protected by a user license.

Send to



Details



Abstract :
[en] Concordances have always played an important role in the analysis of language corpora, for studies in humanities, literature, linguistics, translation and language teaching. However, very few of the available systems support multi-level queries against a richly-annotated, sound-aligned spoken corpus. The rapid growth in the development of spoken corpora, particularly for French, increases the need for scalable, high-performance solutions. We present the preliminary results of our project to develop a multi-level multimedia concordancer for spoken language corpora. We test our prototype on the PFC corpus of spoken French (1.5 million tokens, transcriptions aligned to the utterance level). Our tool allows researchers to query the corpus and produce concordances correlating several annotation levels (part-of-speech tags, lemmas, annotation of phonological phenomena such as the liaison and schwa, etc.) while allowing for multi-modal access to the associated sound recordings and other data.
[fr] Les concordanciers jouent depuis longtemps un rôle important dans l'analyse des corpus linguistiques, tout comme dans les domaines de la philologie, de la littérature, de la traduction et de l'enseignement des langues. Toutefois, il existe peu de concordanciers qui soient capables d'associer des annotations à plusieurs niveaux et synchronisées avec le signal sonore. L'essor des grands corpus de français parlé introduit une augmentation des exigences au niveau de la performance. Dans ce travail à caractère préliminaire, nous avons développé un prototype de concordancier multi-niveaux et multimédia, que nous avons testé sur le corpus de français parlé du projet Phonologie du Français Contemporain (PFC, 1,5 million de tokens de transcription alignée au niveau de l'énoncé). L'outil permet non seulement d'enrichir les résultats des concordances grâce aux données relevant de plusieurs couches d'annotation du corpus (annotation morphosyntaxique, lemme, codage de la liaison, codage du schwa etc.), mais aussi d'élargir les modalités d'accès au corpus.
Disciplines :
Languages & linguistics
Computer science
Author, co-author :
Language :
French
Title :
Un concordancier multi-niveaux pour des corpus oraux
Publication date :
01 July 2014
Event name :
21ème Conférence Traitement Automatique du Langage Naturel (TALN)
Event place :
Marseille, France
Event date :
2014
Available on ORBi UMONS :
since 26 December 2018

Statistics


Number of views
4 (0 by UMONS)
Number of downloads
1 (0 by UMONS)

Scopus citations®
 
0
Scopus citations®
without self-citations
0

Bibliography


Similar publications



Contact ORBi UMONS