Sistema audiovisual para reconocimiento de comandos

Ceballos,Alexander; Serna-Morales,Andrés F; Prieto,Flavio; Gómez,Juan B; Redarce,Tanneguy

dc.creator	Ceballos,Alexander
dc.creator	Serna-Morales,Andrés F
dc.creator	Prieto,Flavio
dc.creator	Gómez,Juan B
dc.creator	Redarce,Tanneguy
dc.date	2011-08-01
dc.date.accessioned	2019-04-24T21:28:14Z
dc.date.available	2019-04-24T21:28:14Z
dc.identifier	https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0718-33052011000200012
dc.identifier.uri	http://revistaschilenas.uchile.cl/handle/2250/58732
dc.description	Se presenta el desarrollo de un sistema automático de reconocimiento audiovisual del habla enfocado en el reconocimiento de comandos. La representación del audio se realizó mediante los coeficientes cepstrales de Mel y las primeras dos derivadas temporales. Para la caracterización del vídeo se hizo seguimiento automático de características visuales de alto nivel a través de toda la secuencia. Para la inicialización automática del algoritmo se emplearon transformaciones de color y contornos activos con información de flujo del vector gradiente ("GVF snakes") sobre la región labial, mientras que para el seguimiento se usaron medidas de similitud entre vecindarios y restricciones morfológicas definidas en el estándar MPEG-4. Inicialmente, se presenta el diseño del sistema de reconocimiento automático del habla, empleando únicamente información de audio (ASR), mediante Modelos Ocultos de Markov (HMMs) y un enfoque de palabra aislada; posteriormente, se muestra el diseño de los sistemas empleando únicamente características de vídeo (VSR), y empleando características de audio y vídeo combinadas (AVSR). Al final se comparan los resultados de los tres sistemas para una base de datos propia en español y francés, y se muestra la influencia del ruido acústico, mostrando que el sistema de AVSR es más robusto que ASR y VSR.
dc.format	text/html
dc.language	es
dc.publisher	Universidad de Tarapacá.
dc.relation	10.4067/S0718-33052011000200012
dc.rights	info:eu-repo/semantics/openAccess
dc.source	Ingeniare. Revista chilena de ingeniería v.19 n.2 2011
dc.subject	Reconocimiento audiovisual del habla
dc.subject	modelo oculto de Markov (HMM)
dc.subject	coeficientes de Mel
dc.subject	contorno activo
dc.subject	pseudotono
dc.subject	estándar MPEG-4
dc.subject	puntos FAPs
dc.subject	seguimiento de características
dc.title	Sistema audiovisual para reconocimiento de comandos

This item appears in the following Collection(s)

Ingeniare: Revista Chilena de Ingeniería

Show simple item record