Clusterización de animes para clasificación automática y configuración de demografías
Anime clustering for automatic classification and configuration of demographics;
Clusterização de animes para classificação automática e configuração de demografias
Author
Ferreira, Julio Cesar Valente
Ribeiro Furtado, Thiago
Regis, Rafael Dirques David
Diniz, Gabriela Rodrigues
Gonçalves, Paula
Tavares, Vitor Pedro da Silva Castelo
Abstract
La industria cultural asumió mayor relevancia como sistema productivo y amplió su cuota de mercado con distintas formas de recepción, transmisión y comunicación con el público, con un creciente uso de los llamados algoritmos de clasificación, recomendación y manipulación de datos procesados en masa, que no requieren sistemas ciber-físicos para la catalogación ni una retroalimentación constante de todas las partes involucradas. En este sentido, este trabajo propone una metodología para apoyar la clasificación y creación de grupos correspondientes de forma automática de obras y producciones culturales de determinados segmentos mediante técnicas de Robot Process Automation (RPA) para extraer, primeramente, datos públicos creados por fans de determinados segmentos culturales, y Latent Dirichlet Allocation (LDA), para la agrupación de estos trabajos a partir de los datos de los términos extraídos por RPA. Como caso de estudio para se observó específicamente el mercado de animes, definido como un producto cultural originariamente japonés con un fuerte compromiso y apoyo de los fans y alta escala de producción anual, sustentado en datos obtenidos de dos bases de datos de carácter público construidos en colaboración por fans: MyAnimeList y AniDB. La aplicación de la metodología propuesta permitió la clasificación automática de animes, agrupándolos en temas que permiten proponer una nueva demografía de obras de este género diferente de la actual, proporcionando un mayor nivel de detalle y permitiendo contemplar la expansión de temas nuevos. The cultural industry assumed greater relevance as a productive system and expanded its market share with different forms of reception, transmission, and communication with the public, increasingly using the so called classification and recommendation algorithms and manipulation of mass processed data, which do not require cyber-physical systems for cataloging andconstant feedback from all parties involved for cataloging. In this regard, this paper proposes a methodology to support the classification and creation of corresponding groups, automatically, of cultural productions of certain segments through Robot Process Automation (RPA) techniques, to first extract public data created by fans of certain cultural segments, and Latent Dirichlet Allocation (LDA), for the clustering of these productions based on the data of the terms extracted by RPA. As a case study for this proposal, we specifically observed the anime market, defined as an originally Japanese cultural product with high fan engagement and high annual production scale, supported by data obtained from two public databases data: MyAnimeList and AniDB, built collaboratively by fans. The application of the methodology allowed the automatic classification of anime, grouping them into topics that allow the proposal of a new demography of products of this genre in relation to the current one, providing a greater level of detail and allowing to contemplate the expansion of new themes. A indústria cultural assumiu maior relevância como sistema produtivo e ampliou sua participação mercadológica com diversas formas de recepção, transmissão e comunicação com o público, utilização cada vez maior dos chamados algoritmos de classificação e recomendação e manipulação de dados processados em massa, os quais prescindem de sistemas ciber-físicos para catalogação e constante retroalimentação por todas as partes envolvidas. Neste sentido, o presente trabalho propõe uma metodologia de apoio à classificação e criação de grupos correspondentes, de forma automática, de obras e produções culturais de determinados segmentos através de técnicas de Robot Process Automation (RPA), para primeiramente extrair dados públicos criados por fãs de certos segmentos culturais, e de Latent Dirichlet Allocation (LDA), para a clusterização destas obras com base nos dados dos termos extraídos por RPA. Como estudo de caso para a presente proposta, observou-se em específico o mercado de animes, sendo estes definidos como um produto cultural originalmente japonês com alto engajamento dos fãs e alta escala de produção anual, tendo como suporte de dados aqueles obtidos em duas bases de dados públicas, o MyAnimeList e o AniDB, construídos colaborativamente por fãs. A aplicação da metodologia proposta permitiu a classificação automática de animes, agrupando-os em tópicos que possibilitam a proposição de uma nova demografia de obras deste gênero em relação à atual, provendo um nível de detalhamento maior e permitindo contemplar a expansão de novas temáticas.