Corpus of digital interactions: systematization of techniques to collect data on WhatsApp
Corpus de interacciones digitales: sistematización de técnicas para recoger datos en WhatsApp;
Corpus de interações digitais: sistematização de técnicas para coleta de dados no WhatsApp
Author
Cantamutto, Lucía
Vela Delfa, Cristina
Abstract
The collection of datasets from real interactions is an unavoidable step in many research works aiming to understand language use. In the field of digital discourse analysis, data collection is complex due to the fast paced changes in the applications and the ethical decisions involved. This work has two goals. First, we seek to show an overview of the literature on datasets of digital exchanges by WhatsApp. Then, we aim to systematize different sampling techniques used in previous research. We thus proceeded by applying content analysis to 100 research articles and theses retrieved from open access portals. We conducted a descriptive analysis that included the amount of data collected, the technique employed in the collection of the data, the method used to contact participants, and the online access to the linguistic corpora, among other variables. The results show the existence of some corpora annotated and available in languages other than Spanish. In addition, most of the literature shows a combination of different techniques to collect a wide set of linguistic and multimodal data. Then, we systematize the main methodological alternatives for data collection from digital interactions by WhatsApp, with the participant observation method standing out. La recolección de conjuntos de datos de interacciones reales es un paso ineludible en muchas investigaciones que buscan comprender los usos lingüísticos. En el campo del análisis del discurso digital, esto resulta complejo tanto por las características cambiantes de las aplicaciones como por las decisiones éticas que suponen. Este artículo tiene un doble objetivo. En primer lugar, ofrecer un estado de la cuestión sobre los conjuntos de datos de intercambios digitales por WhatsApp y, en segundo lugar, sistematizar diferentes técnicas de recolección de estas muestras, utilizadas en investigaciones previas. La metodología empleada es el análisis de contenido de cien tesis y artículos de investigación recuperados de portales científicos. Se realizó un análisis descriptivo que consideró, entre otras variables, la cantidad de datos recogidos, la técnica de recolección de datos utilizada, la forma de contacto con los participantes y el acceso en línea a los corpus lingüísticos. Los resultados muestran la existencia de algunos corpus anotados y disponibles en lenguas diferentes a la española. Asimismo, se observa, en la mayoría de los antecedentes, la combinación de diferentes técnicas para recoger un conjunto amplio de datos lingüísticos y multimodales. En tal sentido, se sistematizan las principales alternativas metodológicas con las que es posible recolectar datos de interacciones digitales por WhatsApp. A coleta de conjuntos de dados de interações reais é um passo inevitável em muitas investigações que buscam compreender os usos linguísticos. No campo da análise do discurso digital, a coleta de dados é complexa tanto pelas características mutáveis das aplicações quanto pelas decisões éticas envolvidas. O artigo tem um duplo objetivo. Em primeiro lugar, oferecer um estado da arte sobre os conjuntos de dados de trocas digitais por WhatsApp e, em segundo lugar, sistematizar diferentes técnicas de coleta de amostras utilizadas em pesquisas anteriores. A metodologia utilizada é a análise de conteúdo de 100 artigos de pesquisa e teses recuperados de portais científicos. Foi realizada uma análise descritiva que levou em consideração, entre outras variáveis, a quantidade de dados coletados, a técnica de coleta de dados utilizada, forma de contato com os participantes e acesso online ao material linguístico. Os resultados mostram a existência de alguns corpus anotados e disponíveis em outros idiomas além do espanhol. Além disso, observa-se, na maioria dos pesquisas, a combinação de diferentes técnicas para coletar um amplo conjunto de dados linguísticos e multimodais. Nesse sentido, são sistematizadas as principais alternativas metodológicas com as quais é possível coletar dados de interações digitais pelo WhatsApp, dentre as quais se destaca a observação participante.
Metadata
Show full item recordRelated items
Showing items related by title, author, creator and subject.
-
The sermon in the language of chile in the historical corpus of mapudungun from colonial text to digital text
Molineaux, Benjamín. Revista de Lenguas y Literatura Indoamericanas - antes Lengua y Literatura Mapuche; Vol. 23 No. 2 (2021): Revista de Lenguas y Literatura Indoamericanas (RLLI). Número Monográfico; 21-50 -
The score as multiplicity: the work of extracting utterances from a corpus: o trabalho de extração de afirmações de um corpus
Astaburuaga, Santiago. Hermenéutica Intercultural; Número 38 (julio-diciembre) 2022; 91-124 -
Approaching grammatical free indirect style based on the CEILE corpus
Estevez-Rionegro, Noelia. Árboles y Rizomas; Vol 2 No 2 (2020): Julio-Diciembre; 28-43