informes especiales

asociación de discapcitados gay LGTB

 

el intérprete de la lengua de los signos

07 de febrero de 2007.

¿Cómo favorecen las TIC la inclusión social?. Descubra en este artículo una de las facetas más humanas de las nuevas tecnologías.


1.- Introducción

Según la Encuesta de Discapacidades, Deficiencias y Estado de Salud [1] de 1999, en España había aproximadamente unas 110.000 personas sordas (sordera profunda y severa) y un total de 250.000 personas con dificultades para comunicarse por problemas auditivos, de las cuales al menos 50.000 se comunican mediante lenguaje de signos. Estas personas encuentran grandes dificultades para integrarse y relacionarse normalmente en la sociedad. Su relación con el resto de la población oyente, que en general no conoce la lengua de signos, se ve prácticamente restringida al entorno familiar y a aquellas situaciones en las que es posible contar con un intérprete de la lengua de signos. La intención del Intérprete Audiovisual del Lenguaje de Signos (IALS) que se describe en este artículo es crear, empleando las tecnologías de la información, un sistema de comunicación asistencial que facilite a una persona sorda la comunicación con una oyente-parlante y la realización de tareas concretas, como, por ejemplo, sacar dinero del banco o fijar una cita médica, tareas que para una persona oyente-parlante no suponen ninguna complejidad.

Uno de los aspectos más importantes a la hora de desarrollar aplicaciones asistenciales es la importancia de su facilidad de uso y la adaptación de las interfaces de usuario a las características de las personas que lo van a utilizar. Características como accesibilidad 2 y facilidad de uso son fundamentales para un dispositivo que está destinado a ser utilizado por cualquier persona, incluyendo niños y ancianos, que en muchos casos no son capaces de leer o no están acostumbrados a usar modernos dispositivos tecnológicos, llegando incluso a rechazarlos. Por este motivo, la interfaz del usuario sordo debe ser visual: toda la información se debe mostrar gráficamente en una pantalla, y por medio de una cámara de vídeo captar imágenes del usuario, procesar en tiempo real los gestos y signos que realice el usuario sordo, permitiendo así que emplee su lengua habitual, el lenguaje de signos, para comunicarse. De forma análoga, el usuario hablante dispone de una interfaz basada en la tecnología del habla, que le permitirá hablar y escuchar, evitando en lo posible el uso del teclado en ambos casos.

El proyecto de investigación que se describe en este artículo tenía como objetivo principal desde su inicio desarrollar una aplicación práctica, útil y amigable. Por este motivo ha sido necesario buscar la colaboración de asociaciones de personas sordas, en especial para buscar visiones comunes a los desafíos sociales y tecnológicos que se han planteado. El énfasis de la investigación ha recaído en el desarrollo de interfaces avanzadas con vistas a su integración en dispositivos asistenciales para personas con necesidades especiales y en la integración de las personas sordas en la Sociedad de la Información.

Desde un punto de vista tecnológico, el proyecto IALS se plateó como el marco para realizar una investigación prospectiva del uso de las TIC para facilitar la comunicación humana, entre personas hablantes y personas signantes. Como resultado del proyecto IALS se ha construido un prototipo cuya misión ha sido demostrar la viabilidad de la tecnología, y aunque aún dista de poseer la calidad necesaria para poder ser utilizable por usuarios finales, supone un primer impulso a este tipo de tecnologías y establece un punto de partida para futuros desarrollos.

2.- Tecnologías para la integración social

Los últimos veinte años han supuesto un cambio radical en el desarrollo de las comunicaciones y de la informática que ha conducido a una convergencia y potenciación mutuas. Prueba de ello es que las Tecnologías de la Información y las Comunicaciones (TIC) tienen cada vez más importancia en todos los aspectos de la vida humana. Asistimos a un panorama cambiante en donde el usuario obtiene cada vez mayores beneficios de la Sociedad de la Información. Esta realidad trae como consecuencia una mayor ubicuidad, simplificación y abaratamiento de la oferta tecnológica y de los servicios, por lo cual acceder a las comunicaciones avanzadas que ofrece Internet es cada vez más sencillo. Además, para las personas con discapacidad presenta diversos aspectos de interés, tales como:

Oportunidades continuas de mejora del entorno cotidiano y de los servicios de apoyo

La compensación de las limitaciones funcionales de las personas

La potenciación de las capacidades alternativas del individuo

Por el contrario, la evolución de la tecnología también presenta nuevos desafíos, ya que:

Agranda la brecha tecnológica, al hacer mayores las diferencias entre los que tienen acceso a las nuevas tecnologías y los que no

Crea barreras excluyentes que hay que prever y resolver con nuevos medios

El foco del dinamismo y de las nuevas ofertas abandona los canales tradicionales, y sólo es accesible desde las nuevas tecnologías

Los avances tecnológicos suelen traer consigo de modo implícito las bases de la solución a sus propios desafíos. Las herramientas con las que las TIC hacen evolucionar constantemente a la Sociedad de la Información son, entre otras, las nuevas tecnologías, una mayor potencia de cálculo que aplicar a viejos algoritmos, las nuevas formas de resolver problemas y los nuevos dispositivos e interfaces. El principal objetivo del movimiento social conocido como e-inclusión 1 es conseguir que cualquier persona forme parte y tenga acceso a la Sociedad de la Información, para de este modo reducir en lo posible la brecha digital, es decir, la división de las sociedades según su posibilidad para hacer uso de las nuevas tecnologías.


 
 

Las medidas encaminadas a disminuir la brecha digital no deberían centrarse únicamente en el despliegue de equipos informáticos y en el acceso a Internet, sino que deberían ser complementadas con medidas asistenciales que favorezcan la integración de los colectivos que ya sufren otros factores de exclusión, como los ancianos, los discapacitados, etc. Para lograr una Sociedad de la Información realmente incluyente, las tecnologías han de entenderse como herramientas sociales capaces de mejorar la vida de todas las personas, y en especial como un mecanismo de integración social en favor de los colectivos excluidos. En este sentido, es necesario desarrollar sistemas informáticos que, además de satisfacer la demanda general, tengan en cuenta las necesidades de los colectivos minoritarios. Así el sistema IALS pretende facilitar la integración social de las personas sordas, mediante el uso de un conjunto de tecnologías como son:

La tecnología del habla, para el usuario oyente. Es una tecnología con muchas aplicaciones, aunque aún pueden mejorarse la calidad del reconocimiento de voz y la conversión texto a voz.

La tecnología de visión artificial y de reconocimiento de signos, que son fundamentales para los usuarios sordos. Es una tecnología que ya ha dado algunos frutos en campos como la robótica, la inspección automática de piezas o la detección de formas. Pero aún están en ciernes en todo lo relacionado con el reconocimiento de gestos, gestos en movimiento, influencia de la posición del gesto respecto al cuerpo, expresión corporal, expresión facial y comunicación humana.

La tecnología de generación de imágenes. Esta tecnología se aplica fundamentalmente en juegos de ordenador y en efectos especiales de cine, donde las figuras se comportan cada vez de un modo más parecido a las personas en su forma de moverse, en sus gestos, etc. Estas mismas tecnologías se pueden aplicar a la generación dinámica de gestos y signos de la lengua de signos.

Las Tecnologías de la Información y las Comunicaciones (TIC). Algo lógico, pues se trata de una solución que se implementada con ordenadores y sobre la infraestructura de comunicaciones y estándares que ofrece Internet.

La incorporación de los conocimientos de la teoría de la comunicación humana ha sido de especial importancia para garantizar el éxito de la experiencia. En concreto, ha sido necesario la realización de estudios sobre el modo en que se comunica una persona sorda, para aprender cómo aportarle la información y cómo reconocer los signos, cuál es la parte significativa de cada signo y extraer la información correspondiente, dado que un mismo gesto puede significar cosas distintas dependiendo del contexto (fenómeno similar a la polisemia y la homofonía), de la posición en la que se articule o de otros factores.

3.- Tecnologías audiovisuales

Tal y como se ha indicado anteriormente, las tecnologías audiovisuales son la clave del sistema IALS, pues el objetivo último es lograr la comunicación entre una persona sorda y otra hablante. Es decir, permitir que una persona limitada a la comunicación visual dialogue con otra que únicamente está acostumbrada a la comunicación oral y desconoce el lenguaje visual de la primera. En este sentido la mejora de los equipos y prestaciones de Internet están propiciando una tendencia hacia la proliferación de aplicaciones multimedia, donde, además de las interfaces tradicionales, se integra la voz, la imagen y el vídeo.

La tecnología del habla se encuentra consolidada y está siendo utilizada en muchos campos, puesto que se encuentra incorporada en los teleoperadores virtuales para servicios de telefonía, en los móviles con agendas de voz, en los portales web con voz (recitadores), en aplicaciones ofimáticas de dictado, etc. La síntesis de voz es probablemente la tecnología del habla más desarrollada. La calidad de las emisiones de voz obtenidas hacen que en muchos casos parezca voz grabada. Los retos actuales son la mejora de la entonación según el tipo de frase que se esté sintetizando (enunciativa, interrogativa, etc.), y el permitir la expresión de los sentimientos acerca de lo que se está diciendo: afección, tristeza, alegría, etc.

Por su parte, la tecnología de reconocimiento del habla no está tan desarrollada y existen distintos tipos de reconocedor con diferentes aplicaciones. Se encuentran desde los que reconocen unas pocas palabras dichas por cualquier locutor, hasta los que son capaces de reconocer el habla continua, pero que requieren de un entrenamiento previo. Lo ideal sería disponer de un reconocedor de habla independiente del locutor, de habla continua y de vocabulario grande o ilimitado. Sin embargo, ese reconocedor aún no existe. Si admite habla continua y vocabularios grandes será un reconocedor monolocutor que precisará de entrenamiento previo. Ejemplos de ello son Viavoice o Dragon Natural Speaking.

En el caso de que el reconocedor sea independiente del locutor, sólo podrá reconocer palabras conectadas con vocabularios de tamaño medio. Este último es el tipo de reconocedor que, por el momento, se utiliza en el sistema IALS. En concreto, se hace uso del reconocedor de habla de Telefónica I+D, que puede considerarse como el mejor reconocedor de habla independiente del locutor en lengua castellana, y también posee versiones para las lenguas gallega, catalana y vasca.

El caso de la visión artificial es diferente. Aunque lleva años empleándose en procesos de control industrial para aplicaciones como la detección de defectos en piezas, o la colocación de piezas, es aún una tecnología incipiente. Hay algunas tareas como la identificación de objetos en una imagen fija arbitraria que presentan todavía grandes retos, más aún si se trata de un vídeo, donde los objetos se mueven y cambian de forma (giros, pliegues, ocultación parcial por otros objetos, etc.). Todas estas dificultades hacen de la visión artificial un campo apasionante de investigación, donde aún quedan muchos obstáculos que superar.

Para reconocer la lengua de signos es necesario tener cierta información previa sobre ella, lo que se conoce como teoría de la comunicación humana aplicada a la lengua de sordos. Se puede afirmar que la lengua de sordos es una lengua tetradimensional [2], ya que es visual, gestual, simultánea y espacial, explotando de esta manera sus posibilidades sintácticas. Los mecanismos gramaticales se basan en aspectos como:

El uso particular del espacio

La modificación sistemática del movimiento con que viene producido el signo

La producción de movimientos no manuales. En este sentido, es destacable la utilización lingüística del espacio

La complejidad a la que hay que enfrentarse cuando se quieren aplicar técnicas de visión artificial al reconocimiento de la lengua de signos es elevada. Además, hay que considerar la dificultad añadida de la polisemia de determinados gestos, cuyo significado varía en función del contexto o de la expresión facial o corporal. Un factor fundamental para la visión artificial es la correcta iluminación del usuario, siendo preferible la luz blanca indirecta, que no cree brillos ni saturaciones de color. Si la iluminación no es la adecuada se obtienen unos resultados muy pobres.

Dada la complejidad del reconocimiento de gestos por visión artificial, la estrategia que se ha seguido en el proyecto IALS ha sido la de empezar por los signos más sencillos: las letras del alfabeto, inicialmente las letras de gesto estático y posteriormente las dinámicas. Además, para simplificar la tarea de identificación de la mano y poder centrar la investigación en el reconocimiento del signo realizado, se requiere el uso de un guante de color suficientemente contrastado con el entorno. De esta manera se han conseguido reconocer las letras del alfabeto sordo, incluso aquellas con gestos dinámicos, los números y algunas palabras de uso frecuente, como 'sí' y 'no'.

La tecnología de visión artificial ha sido creada específicamente para esta experiencia. Entre otros aspectos, se han desarrollado algoritmos capaces de realizar tareas tales como:

La detección de la mano de la persona. Se realiza mediante selección por el color. En las pruebas se ha utilizado un guante, principalmente por dos motivos:

- En primer lugar, porque el color de la piel humana puede presentar mucha variabilidad, tanto entre personas como en una misma persona, dependiendo de la zona del cuerpo (dorso o palma de la mano) o de determinados factores ambientales, como pueden ser los cambios de iluminación (luz solar, tubos fluorescentes, lámparas incandescentes).

- En segundo lugar, porque otro de los problemas que presenta el uso de la mano desnuda es que sin procesamiento adicional no se sabe dónde está el límite entre la mano y el brazo, lo que limita las garantías que ofrece el sistema de reconocimiento.

El análisis de formas, para identificar el signo que se está realizando. Una vez que se ha aislado la mano, hay que reconocer el signo que representa. Las pruebas se han centrado en el reconocimiento de la silueta, que en la mayoría de los casos es lo bastante descriptiva para el propósito que se pretende conseguir y que tiene un coste computacional razonable.

La discriminación de signos semejantes. En algunos casos no basta con la información proporcionada por la silueta para distinguir entre dos signos distintos, como pueden ser los correspondientes a las letras F y T (ver la Figura 1). En esta situación se debe buscar más información en la imagen, como puede ser la extracción de los contornos internos.

a. Signos para las letras F (izquierda) y T (derecha) b. Siluetas reconocidas de las letras F (izquierda) y T (derecha)

Figura 1. Signos y siluetas reconocidas de las letras F y T

El seguimiento de las trayectorias de la mano. Por último, muchos de los signos no se caracterizan sólo por la pose de la mano, sino también por su movimiento. En estos casos es necesario analizar la trayectoria de la mano en combinación con los posibles cambios de forma para identificar correctamente el signo (ver la Figura 2)


Figura 2. Trayectoria de la letra Z

4.- El intérprete audiovisual del lenguaje de signos

Telefónica I+D, en colaboración con la Fundación CARTIF y Redhada, ha desarrollado un prototipo que facilita la comunicación de las personas sordas, cuyo modo de comunicación 'natural' es la lengua de signos, con personas hablantes, que, en general, no conocen dicha lengua. En el diseño del sistema, que emplea tecnologías audiovisuales, se han simplificado los elementos que lo componen y se ha procurado que, además de útil, resulte barato para sus usuarios. En un extremo, un ordenador con una cámara de bajo coste, dotado de un sistema de procesado de imagen, interpreta los signos que genera el usuario sordo y los traduce en tiempo real a lenguaje escrito. En el otro extremo, un sintetizador de voz pronuncia en voz alta los signos realizados por dicho usuario (Vídeoclip demostración del interprete - 14s/441KB). Para comunicarse en sentido contrario, la persona hablante utiliza un reconocedor de voz que convierte la voz en texto, a partir del cual se generan en el ordenador del usuario sordo las imágenes dinámicas o se emiten vídeos pregrabados en la lengua de signos (ver la Figura 3).



Figura 3. Funcionalidad del Intérprete Audiovisual del Lenguaje de Signos (IALS)

La comunicación se establece extremo a extremo, entre dos personas. Y son ellas las que deciden como evoluciona el diálogo, es decir, la iniciativa del diálogo la tienen los usuarios. Él sistema se limita a traducir lo que un usuario diga y a comunicarlo al otro. Se asumen ciertas restricciones debido a la complejidad del problema que se está tratando, de manera que:

El diálogo es guiado. El diálogo está basado en situaciones típicas, que puedan ser de uso cotidiano para las personas sordas, como puede ser, por ejemplo, pedir cita para el médico, realizar trámites en la ventanilla de un banco o de la administración pública, etc. De esta manera se reducen drásticamente los problemas relacionados con la ambigüedad de gestos y palabras, facilitando la interpretación.

El vocabulario es limitado. En parte esto es consecuencia de la restricción anterior, ya que al tratarse de escenarios concretos hay muchos conceptos que nunca se usarán. Pero también se debe a que la limitación en el número de gestos que puede articular la persona sorda facilita su reconocimiento, y por tanto aumenta la velocidad de reconocimiento y la tasa de aciertos, y como consecuencia de ello la utilidad para el usuario. Por el mismo motivo, también se limita la forma en la que se pueden expresar los usuarios (gestos o palabras), dando preferencia a aquellas expresiones y gestos que sean más comunes, en detrimento de las menos habituales.

Estas restricciones de diseño se irán suavizando según progrese la tecnología, sin embargo, aunque inicialmente parece que limitan el sistema, permiten que los usuarios puedan comenzar a beneficiarse del uso del mismo mucho antes que si tuvieran que esperar a que las tecnologías involucradas estuviesen maduras. En este sentido, según se vaya mejorando la calidad de los reconocedores de habla y de gestos se podrá ir ampliando, por ejemplo, el vocabulario permitido, dando mayor libertad de expresión al usuario. Aunque las frases posibles estén fijadas, aún existe cierto grado de naturalidad, ya que el usuario podrá elegir cual de las frases prefijadas quiere decir y, básicamente, se expresará en su lenguaje natural.

Uno de los principales requisitos definidos para el sistema IALS es que su coste no suponga una barrera para su uso. Por este motivo se ha elegido un diseño basado en el uso de PCs y dispositivos convencionales: micrófono, altavoces y cámara web. En el futuro, a medida que se requieran menores prestaciones por parte del dispositivo, el PC podrá ser sustituido por dispositivos ligeros como ordenadores de mano (PDA) o teléfonos móviles.

5.- Conclusiones

La facilidad con la que Internet permite almacenar, distribuir y acceder a la información, convierte el uso de la red en el indicador clave para establecer el nivel de integración de cada colectivo en la Sociedad de la Información. Hasta el momento la mayoría de las medidas encaminadas a disminuir la brecha digital están relacionadas con el despliegue de los equipos informáticos y el acceso a la red, el siguiente paso deberá ser la potenciación de las medidas asistenciales.

Experiencias como el Intérprete Audiovisual del Lenguaje de Signos (IALS), gracias al uso de las tecnologías de la información, permite que una persona sorda pueda comunicarse con otra persona que no conozca la lengua de signos, y por tanto promueven la superación de las barreras y la integración social. Además, sirven para establecer las bases que facilitan la integración de las personas sordas en la Sociedad de la Información, pues desarrollan interfaces que permiten que una persona sorda pueda asomarse a la red, sin tener conocimientos previos.

Aún queda camino por recorrer y plataformas como IALS pueden evolucionar siguiendo diversas líneas de desarrollo, por este motivo características como la flexibilidad y la modularidad son fundamentales para este tipo de plataformas. Algunas de estas líneas de evolución son:

Las conferencias entre personas sordas y hablantes utilizando las características que ofrece Internet. Para lograr esto será necesario que se produzca una mejora importante en los reconocedores, tanto de habla como de signos, que tendrán que evolucionar hasta convertirse en reconocedores de habla continua.

El desarrollo de interfaces avanzadas basadas en tecnologías del habla y de visión artificial. Estas interfaces permitirán que sea posible navegar y buscar información en Internet, así como controlar electrodomésticos y aparatos domóticos. Por tanto, sustituirán a los periféricos habituales (teclado, ratón, mandos a distancia) por otros basados en habla natural.

La traducción automática de textos en contextos semánticos definidos, gracias a la experiencia adquirida a la hora de diseñar y traducir diálogos.

Es previsible que en el futuro la voz y la imagen tengan cada vez mayor relevancia en nuestra forma de concebir Internet y la Sociedad de la Información. En este sentido, plataformas como IALS suponen dar un paso adelante, haciendo un poco más factible que esta previsión se convierta en una realidad y logrando el primer hito: permitir la comunicación entre personas sordas y hablantes mediante la utilización de las tecnologías de la información.

Referencias

[1]. Instituto Nacional de Estadística: www.ine.es/inebase/

[2]. María de los Ángeles Rodríguez González: Lenguaje de Signos . Biblioteca Virtual Miguel de Cervantes, Alicante, 2003.

(Nota: este artículo es un extracto del artículo 'Tecnologías audiovisuales para la e-inclusión: El intérprete de la lengua de signos' publicado en el número 39 de la revista Comunicaciones I+D (http://www.tid.es/documentos/ revista_comunicaciones_i+d/ numero39.pdf). Si se desea profundizar más en la arquitectura y el funcionamiento del sistema IALS, se recomienda la lectura de dicho artículo.)

Juan José García Rojo, Alicia Valle Martín, Juan Calero González de Telefónica I+D. Isaac García Incertis de la Fundación CARTIF

gentileza sociedaddelainformacion.telefonica.es

<- volver a la página anterior .ir a la parte superior de esta página

asociación de discapacitados gay (LGTB)
discapacitados-gay.org - home


Asociación de Discapacitados Gay - Barcelona - España

Copyright © 2006-

  - all rights reserved

last revised: 02/03/2008 - aviso legal