Un concordancier multi-niveaux pour des corpus oraux

[en] Concordances have always played an important role in the analysis of language corpora, for studies in humanities, literature, linguistics, translation and language teaching. However, very few of the available systems support multi-level queries against a richly-annotated, sound-aligned spoken corpus. The rapid growth in the development of spoken corpora, particularly for French, increases the need for scalable, high-performance solutions. We present the preliminary results of our project to develop a multi-level multimedia concordancer for spoken language corpora. We test our prototype on the PFC corpus of spoken French (1.5 million tokens, transcriptions aligned to the utterance level). Our tool allows researchers to query the corpus and produce concordances correlating several annotation levels (part-of-speech tags, lemmas, annotation of phonological phenomena such as the liaison and schwa, etc.) while allowing for multi-modal access to the associated sound recordings and other data.
[fr] Les concordanciers jouent depuis longtemps un rôle important dans l'analyse des corpus linguistiques, tout comme dans les domaines de la philologie, de la littérature, de la traduction et de l'enseignement des langues. Toutefois, il existe peu de concordanciers qui soient capables d'associer des annotations à plusieurs niveaux et synchronisées avec le signal sonore. L'essor des grands corpus de français parlé introduit une augmentation des exigences au niveau de la performance. Dans ce travail à caractère préliminaire, nous avons développé un prototype de concordancier multi-niveaux et multimédia, que nous avons testé sur le corpus de français parlé du projet Phonologie du Français Contemporain (PFC, 1,5 million de tokens de transcription alignée au niveau de l'énoncé). L'outil permet non seulement d'enrichir les résultats des concordances grâce aux données relevant de plusieurs couches d'annotation du corpus (annotation morphosyntaxique, lemme, codage de la liaison, codage du schwa etc.), mais aussi d'élargir les modalités d'accès au corpus.

Disciplines :

Languages & linguistics
Computer science

Author, co-author :

Barreca, Giulia

Christodoulides, George

Language :

French

Title :

Un concordancier multi-niveaux pour des corpus oraux

Publication date :

01 July 2014

Event name :

21ème Conférence Traitement Automatique du Langage Naturel (TALN)

Event place :

Marseille, France

Event date :

2014

Available on ORBi UMONS :

since 26 December 2018

Statistics

Number of views

4 (0 by UMONS)

Number of downloads

1 (0 by UMONS)

More statistics

Scopus citations^®

Scopus citations^®
without self-citations

Bibliography

BERNARD, P., LECOMTE, J., DENDIEN, J., PIERREL, J-M. (2002). Computerized linguistic resources of the research laboratory ATILF for lexical and textualanalysis: Frantext, TLFi, and the software Stella Actes de Language Resources and Evaluation (LREC 2002), 1090-1096, Las Palmas, Espagne.
BOERSMA, P., WEENINK, D. (2014). Praat: doing phonetics by computer, ver. 5.3.77, www.praat.org
BOKAN, N. éditeur (2000). Contemporary Mathematics. Proceedings of the Symposium, Belgrade.
BYBEE, J. (2001). Frequency effects on French liaison. In (Bybee, Hopper, 2001), 337-359.
BYBEE, J., SCHEIBMAN, J. (1999). The effect of usage on degrees of constituency: the reduction of don't in English. Linguistics 37(4): 575-596.
BYBEE, J., HOPPER, P., éditeurs (2001). Frequency and the Emergence of Linguistic Structure. Amsterdam: John Benjamins.
BYBEE, J., THOMPSON, S. (1997). Three frequency effects in syntax. Pragmatics and Grammatical Structure 23: 378-388.
CABALLERO, M. R. (1999). Using a Concordancer in Literary Studies. TheEuropean English Messenger 8(2): 59-62. http://www.edict.com.hk/Concordance/
CHRISTODOULIDES, G. (2014). Praaline: Integrating tools for speech corpus research. Actes de IX Language Resources and Evaluation Conference (LREC 2014), 26-31 mai, Reykjiavic, Islande.
CHRISTODOULIDES, G., AVANZI, M., GOLDMAN, J.P. (2014). DisMo: A Morphosyntactic, Disfluency and Multi-Word Unit Annotator. Actes de IX Language Resources and Evaluation Conference (LREC 2014), 26-31 mai, Reykjavik, Islande.
DETEY, S., DURAND, J., LAKS, B., LYCHE, C. (2010). Les variétés du français parlé dans l'espace francophone: ressources pour l'enseignement. Paris: Ophrys.
DOSTIE, G. (2004). Pragmaticalisation et marqueurs discursifs. Analyse sémantique et traitement lexicographique. Bruxelles: Duculot
DURAND, J., LAKS, B., LYCHE, C. (2002). La phonologie du français contemporain: usages, variétés et structure. In (Pusch et Raible, 2002), 93-106.
GROSS, M. (2000). A bootstrap method for constructing local grammars. In (Bokan, 2000), 229-250.
HEIDEN, S., MAGUÉ, J-P., PINCEMIN, B. (2010). TXM: Une plateforme logicielle open-source pour la textométrie - conception et développement. In. I. C. Sergio Bolasco (Ed.), Proc. of 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010) (Vol. 2, p. 1021-1032). Edizioni Universitarie di Lettere Economia Diritto, Roma, Italy.
JACQUET-PFAU, C. (1994). L'intérêt des logiciels de concordances pour la traduction. Langages 116: 82-86.
LAKS B. (2005). Phonologie et construction syntaxique: la liaison, un test de figement et de cohésion. Linx 53, 155-171.
NEW, B. (2006). Lexique 3: Une nouvelle base de données lexicales. Actes de la Conférence Traitement Automatique des Langues Naturelles (TALN 2006), avril 2006, Louvain, Belgique.
PAUMIER, S. (2003). A Time-Efficient Token Representation for Parsers. Actes de EACL Workshop on Finite-State Methods in Natural LanguageProcessing, 83-90, Budapest, Hongrie.
PINCEMIN, B., ISSAC, F., CHANOVE, M., MATHIEU-COLAS, M. (2006). Concordanciers: Thème et variations, Lexicometrica, numéro spécial, 769-780. Actes des Journées d'analyse statistiques des données textuelles (JADT).
PUSCH, C., RAIBLE, W., éditeurs (2002). Romanistische Korpuslinguistik- Korpora und gesprochene Sprache/Romance Corpus Linguistics - Corpora and Spoken Language. Gunter Narr Verlag.
TOGNINI-BONELLI, E. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: John Benjamins.
TOMASELLO, M. (2000). First steps toward a usage-based theory of language acquisition. Cognitive Linguistics 11: 61-82.