Clasificación de Textos Multi-etiquetados con Modelo Bernoulli Multi-variado y Representación Dependiente de la Etiqueta
Author
Alfaro Arancibia, Rodrigo Marcelo
Allende O., Héctor
Abstract
La asignación de una o más categorías predefinidas a los textos en lenguaje natural, basados en su contenido, es un componente importante y necesario en muchas tareas de las organizaciones. La clasificación automática de textos es la tarea de clasificar documentos dentro de un conjunto de categorías predefinidas por medio de un modelo y método computacional. La representación de los textos para propósitos de clasificación automática, ha sido tradicionalmente llevada a cabo usando un modelo de espacio vectorial debido a su simplicidad y buen rendimiento. Por otro lado, la clasificación automática de texto por multi-etiquetados ha sido típicamente abordada por medio de métodos de clasificación de etiqueta simple, por medio de transformar el problema estudiado para aplicar técnicas binarias, o al adaptar algoritmos binarios para que funcionen con múltiples etiquetas. En este paper evaluamos un factor de ponderación de términos en el modelo booleano para representación de texto en clasificación multi-etiqueta usando una combinación de dos enfoques: transformación de problema y adaptación de modelo. El rendimiento fue testeado con cuatro conocidas conjuntos de datos y comparado con técnicas alternativas en términos de tres medidas de evaluación bien conocidas. Resultados experimentales muestras mejoras en todos los casos.