el
intérprete de la lengua de los signos
07 de febrero
de 2007.
¿Cómo favorecen las TIC la inclusión social?. Descubra en
este artículo una de las facetas más humanas de las nuevas tecnologías.
1.- Introducción

Según la Encuesta de Discapacidades, Deficiencias y Estado de Salud [1] de 1999,
en España había aproximadamente unas 110.000 personas sordas (sordera profunda y
severa) y un total de 250.000 personas con dificultades para comunicarse por
problemas auditivos, de las cuales al menos 50.000 se comunican mediante
lenguaje de signos. Estas personas encuentran grandes dificultades para
integrarse y relacionarse normalmente en la sociedad. Su relación con el resto
de la población oyente, que en general no conoce la lengua de signos, se ve
prácticamente restringida al entorno familiar y a aquellas situaciones en las
que es posible contar con un intérprete de la lengua de signos. La intención del
Intérprete Audiovisual del Lenguaje de Signos (IALS) que se describe en este
artículo es crear, empleando las tecnologías de la información, un sistema de
comunicación asistencial que facilite a una persona sorda la comunicación con
una oyente-parlante y la realización de tareas concretas, como, por ejemplo,
sacar dinero del banco o fijar una cita médica, tareas que para una persona
oyente-parlante no suponen ninguna complejidad.
Uno de los aspectos más importantes a la hora de desarrollar aplicaciones
asistenciales es la importancia de su facilidad de uso y la adaptación de las
interfaces de usuario a las características de las personas que lo van a
utilizar. Características como accesibilidad 2 y facilidad de uso son
fundamentales para un dispositivo que está destinado a ser utilizado por
cualquier persona, incluyendo niños y ancianos, que en muchos casos no son
capaces de leer o no están acostumbrados a usar modernos dispositivos
tecnológicos, llegando incluso a rechazarlos. Por este motivo, la interfaz del
usuario sordo debe ser visual: toda la información se debe mostrar gráficamente
en una pantalla, y por medio de una cámara de vídeo captar imágenes del usuario,
procesar en tiempo real los gestos y signos que realice el usuario sordo,
permitiendo así que emplee su lengua habitual, el lenguaje de signos, para
comunicarse. De forma análoga, el usuario hablante dispone de una interfaz
basada en la tecnología del habla, que le permitirá hablar y escuchar, evitando
en lo posible el uso del teclado en ambos casos.
El
proyecto de investigación que se describe en este artículo tenía como objetivo
principal desde su inicio desarrollar una aplicación práctica, útil y amigable.
Por este motivo ha sido necesario buscar la colaboración de asociaciones de
personas sordas, en especial para buscar visiones comunes a los desafíos
sociales y tecnológicos que se han planteado. El énfasis de la investigación ha
recaído en el desarrollo de interfaces avanzadas con vistas a su integración en
dispositivos asistenciales para personas con necesidades especiales y en la
integración de las personas sordas en la Sociedad de la Información.
Desde un punto de vista tecnológico, el proyecto IALS se plateó como el marco
para realizar una investigación prospectiva del uso de las TIC para facilitar la
comunicación humana, entre personas hablantes y personas signantes. Como
resultado del proyecto IALS se ha construido un prototipo cuya misión ha sido
demostrar la viabilidad de la tecnología, y aunque aún dista de poseer la
calidad necesaria para poder ser utilizable por usuarios finales, supone un
primer impulso a este tipo de tecnologías y establece un punto de partida para
futuros desarrollos.
2.- Tecnologías para la integración social
Los últimos veinte años han supuesto un cambio radical en el desarrollo de las
comunicaciones y de la informática que ha conducido a una convergencia y
potenciación mutuas. Prueba de ello es que las Tecnologías de la Información y
las Comunicaciones (TIC) tienen cada vez más importancia en todos los aspectos
de la vida humana. Asistimos a un panorama cambiante en donde el usuario obtiene
cada vez mayores beneficios de la Sociedad de la Información. Esta realidad trae
como consecuencia una mayor ubicuidad, simplificación y abaratamiento de la
oferta tecnológica y de los servicios, por lo cual acceder a las comunicaciones
avanzadas que ofrece Internet es cada vez más sencillo. Además, para las
personas con discapacidad presenta diversos aspectos de interés, tales como:
• Oportunidades continuas de mejora del entorno
cotidiano y de los servicios de apoyo
• La compensación de las limitaciones funcionales
de las personas
• La potenciación de las capacidades alternativas
del individuo
Por el contrario, la evolución de la tecnología también presenta nuevos
desafíos, ya que:
• Agranda la brecha tecnológica, al hacer mayores
las diferencias entre los que tienen acceso a las nuevas tecnologías y los que
no
• Crea barreras excluyentes que hay que prever y
resolver con nuevos medios
• El foco del dinamismo y de las nuevas ofertas
abandona los canales tradicionales, y sólo es accesible desde las nuevas
tecnologías
Los avances tecnológicos suelen traer consigo de modo implícito las bases de la
solución a sus propios desafíos. Las herramientas con las que las TIC hacen
evolucionar constantemente a la Sociedad de la Información son, entre otras, las
nuevas tecnologías, una mayor potencia de cálculo que aplicar a viejos
algoritmos, las nuevas formas de resolver problemas y los nuevos dispositivos e
interfaces. El principal objetivo del movimiento social conocido como
e-inclusión 1 es conseguir que cualquier persona forme parte y tenga acceso a la
Sociedad de la Información, para de este modo reducir en lo posible la brecha
digital, es decir, la división de las sociedades según su posibilidad para hacer
uso de las nuevas tecnologías.

Las medidas encaminadas
a disminuir la brecha digital no deberían centrarse únicamente en el
despliegue de equipos informáticos y en el acceso a Internet, sino que
deberían ser complementadas con medidas asistenciales que favorezcan la
integración de los colectivos que ya sufren otros factores de exclusión,
como los ancianos, los discapacitados, etc. Para lograr una Sociedad de
la Información realmente incluyente, las tecnologías han de entenderse
como herramientas sociales capaces de mejorar la vida de todas las
personas, y en especial como un mecanismo de integración social en favor
de los colectivos excluidos. En este sentido, es necesario desarrollar
sistemas informáticos que, además de satisfacer la demanda general,
tengan en cuenta las necesidades de los colectivos minoritarios. Así el
sistema IALS pretende facilitar la integración social de las personas
sordas, mediante el uso de un conjunto de tecnologías como son:
• La tecnología del habla, para el usuario
oyente. Es una tecnología con muchas aplicaciones, aunque aún pueden
mejorarse la calidad del reconocimiento de voz y la conversión texto a
voz.
• La tecnología de visión artificial y de
reconocimiento de signos, que son fundamentales para los usuarios
sordos. Es una tecnología que ya ha dado algunos frutos en campos como
la robótica, la inspección automática de piezas o la detección de
formas. Pero aún están en ciernes en todo lo relacionado con el
reconocimiento de gestos, gestos en movimiento, influencia de la
posición del gesto respecto al cuerpo, expresión corporal, expresión
facial y comunicación humana.
• La tecnología de generación de imágenes.
Esta tecnología se aplica fundamentalmente en juegos de ordenador y en
efectos especiales de cine, donde las figuras se comportan cada vez de
un modo más parecido a las personas en su forma de moverse, en sus
gestos, etc. Estas mismas tecnologías se pueden aplicar a la generación
dinámica de gestos y signos de la lengua de signos.
• Las Tecnologías de la Información y las
Comunicaciones (TIC). Algo lógico, pues se trata de una solución que se
implementada con ordenadores y sobre la infraestructura de
comunicaciones y estándares que ofrece Internet.
La incorporación de los conocimientos de la teoría de la comunicación
humana ha sido de especial importancia para garantizar el éxito de la
experiencia. En concreto, ha sido necesario la realización de estudios
sobre el modo en que se comunica una persona sorda, para aprender cómo
aportarle la información y cómo reconocer los signos, cuál es la parte
significativa de cada signo y extraer la información correspondiente,
dado que un mismo gesto puede significar cosas distintas dependiendo del
contexto (fenómeno similar a la polisemia y la homofonía), de la
posición en la que se articule o de otros factores.
3.- Tecnologías audiovisuales
Tal y como se ha indicado anteriormente, las tecnologías audiovisuales
son la clave del sistema IALS, pues el objetivo último es lograr la
comunicación entre una persona sorda y otra hablante. Es decir, permitir
que una persona limitada a la comunicación visual dialogue con otra que
únicamente está acostumbrada a la comunicación oral y desconoce el
lenguaje visual de la primera. En este sentido la mejora de los equipos
y prestaciones de Internet están propiciando una tendencia hacia la
proliferación de aplicaciones multimedia, donde, además de las
interfaces tradicionales, se integra la voz, la imagen y el vídeo.
La tecnología del habla se encuentra consolidada y está siendo utilizada
en muchos campos, puesto que se encuentra incorporada en los
teleoperadores virtuales para servicios de telefonía, en los móviles con
agendas de voz, en los portales web con voz (recitadores), en
aplicaciones ofimáticas de dictado, etc. La síntesis de voz es
probablemente la tecnología del habla más desarrollada. La calidad de
las emisiones de voz obtenidas hacen que en muchos casos parezca voz
grabada. Los retos actuales son la mejora de la entonación según el tipo
de frase que se esté sintetizando (enunciativa, interrogativa, etc.), y
el permitir la expresión de los sentimientos acerca de lo que se está
diciendo: afección, tristeza, alegría, etc.
Por su parte, la tecnología de reconocimiento del habla no está tan
desarrollada y existen distintos tipos de reconocedor con diferentes
aplicaciones. Se encuentran desde los que reconocen unas pocas palabras
dichas por cualquier locutor, hasta los que son capaces de reconocer el
habla continua, pero que requieren de un entrenamiento previo. Lo ideal
sería disponer de un reconocedor de habla independiente del locutor, de
habla continua y de vocabulario grande o ilimitado. Sin embargo, ese
reconocedor aún no existe. Si admite habla continua y vocabularios
grandes será un reconocedor monolocutor que precisará de entrenamiento
previo. Ejemplos de ello son Viavoice o Dragon Natural Speaking.
En el caso de que el reconocedor sea independiente del locutor, sólo
podrá reconocer palabras conectadas con vocabularios de tamaño medio.
Este último es el tipo de reconocedor que, por el momento, se utiliza en
el sistema IALS. En concreto, se hace uso del reconocedor de habla de
Telefónica I+D, que puede considerarse como el mejor reconocedor de
habla independiente del locutor en lengua castellana, y también posee
versiones para las lenguas gallega, catalana y vasca.
El caso de la visión artificial es diferente. Aunque lleva años
empleándose en procesos de control industrial para aplicaciones como la
detección de defectos en piezas, o la colocación de piezas, es aún una
tecnología incipiente. Hay algunas tareas como la identificación de
objetos en una imagen fija arbitraria que presentan todavía grandes
retos, más aún si se trata de un vídeo, donde los objetos se mueven y
cambian de forma (giros, pliegues, ocultación parcial por otros objetos,
etc.). Todas estas dificultades hacen de la visión artificial un campo
apasionante de investigación, donde aún quedan muchos obstáculos que
superar.
Para reconocer la lengua de signos es necesario tener cierta información
previa sobre ella, lo que se conoce como teoría de la comunicación
humana aplicada a la lengua de sordos. Se puede afirmar que la lengua de
sordos es una lengua tetradimensional [2], ya que es visual, gestual,
simultánea y espacial, explotando de esta manera sus posibilidades
sintácticas. Los mecanismos gramaticales se basan en aspectos como:
• El uso particular del espacio
• La modificación sistemática del
movimiento con que viene producido el signo
• La producción de movimientos no manuales.
En este sentido, es destacable la utilización lingüística del espacio
La complejidad a la que hay que enfrentarse cuando se quieren aplicar
técnicas de visión artificial al reconocimiento de la lengua de signos
es elevada. Además, hay que considerar la dificultad añadida de la
polisemia de determinados gestos, cuyo significado varía en función del
contexto o de la expresión facial o corporal. Un factor fundamental para
la visión artificial es la correcta iluminación del usuario, siendo
preferible la luz blanca indirecta, que no cree brillos ni saturaciones
de color. Si la iluminación no es la adecuada se obtienen unos
resultados muy pobres.
Dada la complejidad del reconocimiento de gestos por visión artificial,
la estrategia que se ha seguido en el proyecto IALS ha sido la de
empezar por los signos más sencillos: las letras del alfabeto,
inicialmente las letras de gesto estático y posteriormente las
dinámicas. Además, para simplificar la tarea de identificación de la
mano y poder centrar la investigación en el reconocimiento del signo
realizado, se requiere el uso de un guante de color suficientemente
contrastado con el entorno. De esta manera se han conseguido reconocer
las letras del alfabeto sordo, incluso aquellas con gestos dinámicos,
los números y algunas palabras de uso frecuente, como 'sí' y 'no'.
La tecnología de visión artificial ha sido creada específicamente para
esta experiencia. Entre otros aspectos, se han desarrollado algoritmos
capaces de realizar tareas tales como:
• La detección de la mano de la persona. Se
realiza mediante selección por el color. En las pruebas se ha utilizado
un guante, principalmente por dos motivos:
- En primer lugar, porque el color de la piel humana puede presentar
mucha variabilidad, tanto entre personas como en una misma persona,
dependiendo de la zona del cuerpo (dorso o palma de la mano) o de
determinados factores ambientales, como pueden ser los cambios de
iluminación (luz solar, tubos fluorescentes, lámparas incandescentes).
- En segundo lugar, porque otro de los problemas que presenta el uso de
la mano desnuda es que sin procesamiento adicional no se sabe dónde está
el límite entre la mano y el brazo, lo que limita las garantías que
ofrece el sistema de reconocimiento.
• El análisis de formas, para identificar
el signo que se está realizando. Una vez que se ha aislado la mano, hay
que reconocer el signo que representa. Las pruebas se han centrado en el
reconocimiento de la silueta, que en la mayoría de los casos es lo
bastante descriptiva para el propósito que se pretende conseguir y que
tiene un coste computacional razonable.
• La discriminación de signos semejantes.
En algunos casos no basta con la información proporcionada por la
silueta para distinguir entre dos signos distintos, como pueden ser los
correspondientes a las letras F y T (ver la Figura 1). En esta situación
se debe buscar más información en la imagen, como puede ser la
extracción de los contornos internos.


a. Signos
para las letras F (izquierda) y T (derecha) b. Siluetas reconocidas de
las letras F (izquierda) y T (derecha)
Figura 1. Signos y siluetas reconocidas de las letras F y T
•
El seguimiento de las trayectorias de la mano. Por último, muchos de los
signos no se caracterizan sólo por la pose de la mano, sino también por
su movimiento. En estos casos es necesario analizar la trayectoria de la
mano en combinación con los posibles cambios de forma para identificar
correctamente el signo (ver la Figura 2)

Figura 2. Trayectoria de la letra Z
4.- El intérprete audiovisual del lenguaje de signos
Telefónica I+D, en colaboración con la Fundación CARTIF y Redhada, ha
desarrollado un prototipo que facilita la comunicación de las personas
sordas, cuyo modo de comunicación 'natural' es la lengua de signos, con
personas hablantes, que, en general, no conocen dicha lengua. En el
diseño del sistema, que emplea tecnologías audiovisuales, se han
simplificado los elementos que lo componen y se ha procurado que, además
de útil, resulte barato para sus usuarios. En un extremo, un ordenador
con una cámara de bajo coste, dotado de un sistema de procesado de
imagen, interpreta los signos que genera el usuario sordo y los traduce
en tiempo real a lenguaje escrito. En el otro extremo, un sintetizador
de voz pronuncia en voz alta los signos realizados por dicho usuario
(Vídeoclip demostración del interprete -
14s/441KB). Para comunicarse en sentido contrario, la persona
hablante utiliza un reconocedor de voz que convierte la voz en texto, a
partir del cual se generan en el ordenador del usuario sordo las
imágenes dinámicas o se emiten vídeos pregrabados en la lengua de signos
(ver la Figura 3).

Figura 3. Funcionalidad del Intérprete Audiovisual del Lenguaje de
Signos (IALS)
La comunicación se
establece extremo a extremo, entre dos personas. Y son ellas las que
deciden como evoluciona el diálogo, es decir, la iniciativa del diálogo
la tienen los usuarios. Él sistema se limita a traducir lo que un
usuario diga y a comunicarlo al otro. Se asumen ciertas restricciones
debido a la complejidad del problema que se está tratando, de manera
que:
• El diálogo es guiado. El diálogo está
basado en situaciones típicas, que puedan ser de uso cotidiano para las
personas sordas, como puede ser, por ejemplo, pedir cita para el médico,
realizar trámites en la ventanilla de un banco o de la administración
pública, etc. De esta manera se reducen drásticamente los problemas
relacionados con la ambigüedad de gestos y palabras, facilitando la
interpretación.
• El vocabulario es limitado. En parte esto
es consecuencia de la restricción anterior, ya que al tratarse de
escenarios concretos hay muchos conceptos que nunca se usarán. Pero
también se debe a que la limitación en el número de gestos que puede
articular la persona sorda facilita su reconocimiento, y por tanto
aumenta la velocidad de reconocimiento y la tasa de aciertos, y como
consecuencia de ello la utilidad para el usuario. Por el mismo motivo,
también se limita la forma en la que se pueden expresar los usuarios
(gestos o palabras), dando preferencia a aquellas expresiones y gestos
que sean más comunes, en detrimento de las menos habituales.
Estas restricciones de diseño se irán suavizando según progrese la
tecnología, sin embargo, aunque inicialmente parece que limitan el
sistema, permiten que los usuarios puedan comenzar a beneficiarse del
uso del mismo mucho antes que si tuvieran que esperar a que las
tecnologías involucradas estuviesen maduras. En este sentido, según se
vaya mejorando la calidad de los reconocedores de habla y de gestos se
podrá ir ampliando, por ejemplo, el vocabulario permitido, dando mayor
libertad de expresión al usuario. Aunque las frases posibles estén
fijadas, aún existe cierto grado de naturalidad, ya que el usuario podrá
elegir cual de las frases prefijadas quiere decir y, básicamente, se
expresará en su lenguaje natural.
Uno de los principales requisitos definidos para el sistema IALS es que
su coste no suponga una barrera para su uso. Por este motivo se ha
elegido un diseño basado en el uso de PCs y dispositivos convencionales:
micrófono, altavoces y cámara web. En el futuro, a medida que se
requieran menores prestaciones por parte del dispositivo, el PC podrá
ser sustituido por dispositivos ligeros como ordenadores de mano (PDA) o
teléfonos móviles.
5.- Conclusiones
La facilidad con la que Internet permite almacenar, distribuir y acceder
a la información, convierte el uso de la red en el indicador clave para
establecer el nivel de integración de cada colectivo en la Sociedad de
la Información. Hasta el momento la mayoría de las medidas encaminadas a
disminuir la brecha digital están relacionadas con el despliegue de los
equipos informáticos y el acceso a la red, el siguiente paso deberá ser
la potenciación de las medidas asistenciales.
Experiencias como el Intérprete Audiovisual del Lenguaje de Signos (IALS),
gracias al uso de las tecnologías de la información, permite que una
persona sorda pueda comunicarse con otra persona que no conozca la
lengua de signos, y por tanto promueven la superación de las barreras y
la integración social. Además, sirven para establecer las bases que
facilitan la integración de las personas sordas en la Sociedad de la
Información, pues desarrollan interfaces que permiten que una persona
sorda pueda asomarse a la red, sin tener conocimientos previos.
Aún queda camino por recorrer y plataformas como IALS pueden evolucionar
siguiendo diversas líneas de desarrollo, por este motivo características
como la flexibilidad y la modularidad son fundamentales para este tipo
de plataformas. Algunas de estas líneas de evolución son:
• Las conferencias entre personas sordas y
hablantes utilizando las características que ofrece Internet. Para
lograr esto será necesario que se produzca una mejora importante en los
reconocedores, tanto de habla como de signos, que tendrán que
evolucionar hasta convertirse en reconocedores de habla continua.
• El desarrollo de interfaces avanzadas
basadas en tecnologías del habla y de visión artificial. Estas
interfaces permitirán que sea posible navegar y buscar información en
Internet, así como controlar electrodomésticos y aparatos domóticos. Por
tanto, sustituirán a los periféricos habituales (teclado, ratón, mandos
a distancia) por otros basados en habla natural.
• La traducción automática de textos en
contextos semánticos definidos, gracias a la experiencia adquirida a la
hora de diseñar y traducir diálogos.
Es previsible que en el futuro la voz y la imagen tengan cada vez mayor
relevancia en nuestra forma de concebir Internet y la Sociedad de la
Información. En este sentido, plataformas como IALS suponen dar un paso
adelante, haciendo un poco más factible que esta previsión se convierta
en una realidad y logrando el primer hito: permitir la comunicación
entre personas sordas y hablantes mediante la utilización de las
tecnologías de la información.
Referencias
[1]. Instituto Nacional de Estadística: www.ine.es/inebase/
[2]. María de los Ángeles Rodríguez González: Lenguaje de Signos .
Biblioteca Virtual Miguel de Cervantes, Alicante, 2003.
(Nota: este artículo es un extracto del artículo 'Tecnologías
audiovisuales para la e-inclusión: El intérprete de la lengua de signos'
publicado en el número 39 de la revista Comunicaciones I+D (http://www.tid.es/documentos/
revista_comunicaciones_i+d/ numero39.pdf). Si se desea profundizar más
en la arquitectura y el funcionamiento del sistema IALS, se recomienda
la lectura de dicho artículo.)
Juan José García Rojo, Alicia Valle Martín, Juan Calero González de
Telefónica I+D. Isaac García Incertis de la Fundación CARTIF
gentileza
sociedaddelainformacion.telefonica.es