dc.creator | Ceballos,Alexander | |
dc.creator | Serna-Morales,Andrés F | |
dc.creator | Prieto,Flavio | |
dc.creator | Gómez,Juan B | |
dc.creator | Redarce,Tanneguy | |
dc.date | 2011-08-01 | |
dc.date.accessioned | 2019-04-24T21:28:14Z | |
dc.date.available | 2019-04-24T21:28:14Z | |
dc.identifier | https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012 | |
dc.identifier.uri | http://revistaschilenas.uchile.cl/handle/2250/58732 | |
dc.description | Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo seguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para la inicialización automática del algoritmo se emplearon transformaciones de color y contornos activos con información de flujo del vector gradiente ("GVF snakes") sobre la región labial, mientras que para el seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidas en el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automático del habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov (HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleando únicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas (AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en español y francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robusto que ASR y VSR. | |
dc.format | text/html | |
dc.language | es | |
dc.publisher | Universidad de Tarapacá. | |
dc.relation | 10.4067/S0718-33052011000200012 | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.source | Ingeniare. Revista chilena de ingeniería v.19 n.2 2011 | |
dc.subject | Reconocimiento audiovisual del habla | |
dc.subject | modelo oculto de Markov (HMM) | |
dc.subject | coeficientes de Mel | |
dc.subject | contorno activo | |
dc.subject | pseudotono | |
dc.subject | estándar MPEG-4 | |
dc.subject | puntos FAPs | |
dc.subject | seguimiento de características | |
dc.title | Sistema audiovisual para reconocimiento de comandos | |