Documento técnico: Interfaz de asistencia de comandos de voz de reconocimiento de voz

By | noviembre 9, 2021

El uso de la tecnología de reconocimiento de voz y comando de voz como interfaz de asistencia para las TIC en espacios públicos.

Voice RecognitionUn documento técnico publicado por Peter W Jarvis (vicepresidente ejecutivo senior, Storm Interface) y Nicky Shaw (gerente de operaciones de América del Norte).

Septiembre de 2018.

Introducción.

La aparición y el uso cada vez mayor de altavoces inteligentes (IA) en el entorno del hogar ha proporcionado importantes beneficios para las personas con problemas de movilidad, sensoriales, cognitivos o de destreza. Para millones de personas discapacitadas, la tecnología de reconocimiento de voz y comandos de voz, junto con la confirmación audible y la presentación de la información solicitada, permite una toma de decisiones más informada y un control personal de su entorno inmediato.

Este acceso mejorado a la información y el control abre un nuevo mundo de comunicación, entretenimiento, educación y oportunidades para aquellos que no pueden ver, leer o interactuar con el contenido presentado en una pantalla de visualización y para aquellos que carecen de la movilidad o destreza para manipular el sistema táctil. dispositivos de interfaz (como teclados, trackballs o pantallas táctiles, etc.). La tecnología Speech Command crea nuevas oportunidades importantes para la vida independiente.

Esta accesibilidad mejorada también crea desafíos únicos para los diseñadores de sistemas, las autoridades legislativas y aquellos preocupados por la privacidad y el uso indebido de datos personales. A medida que la tecnología de reconocimiento de voz y comando de voz se mueva más allá del entorno doméstico hacia los espacios públicos y la infraestructura urbana, necesitaremos nuevas pautas para aumentar la conciencia pública y una nueva regulación para proteger a la población en general contra el uso indebido de la información grabada.

Este documento técnico explora la implementación e integración de la tecnología Speech Command dentro de los quioscos de TIC y las aplicaciones de autoservicio. Su objetivo es proporcionar un marco para un código de prácticas propuesto. Esta CoP será redactada para consulta pública y posible adopción por la Asociación de Fabricantes de Quioscos (KMA) como un anexo a sus Pautas de Accesibilidad.

Para ilustrar ciertos dispositivos o tecnologías, hay algunas referencias en este documento a productos fabricados por Storm Interface. Estos están pensados solo como ejemplos. Hay otras marcas y productos disponibles.

1. Quién está escuchando

1.1 Cuando un ciudadano particular compra un dispositivo de altavoz inteligente conectado para uso doméstico, toma una decisión informada para instalar ese dispositivo en el entorno de su hogar. Antes de conectar su nuevo dispositivo a las aplicaciones de inteligencia artificial basadas en la nube del fabricante, los nuevos clientes deben estar de acuerdo y aceptar muchos términos y condiciones de servicio. Al hacerlo, toman la decisión de aceptar un dispositivo de escucha en su hogar; aunque con una opción para silenciar ese dispositivo o apagarlo en cualquier momento. El cliente sabe dónde se encuentra el dispositivo, cuál es su estado de conexión y cómo apagarlo.

1.2 Sin embargo, para superar la latencia (demora) inherente a la entrega de servicios de IA basados en la nube a un dispositivo que se acaba de encender, estos dispositivos (de forma predeterminada) generalmente permanecen en una configuración conectada y con alimentación. Amazon se ha referido a esta configuración predeterminada como “Siempre encendido, siempre listo”. Los comentaristas más cínicos a veces se refieren a esta configuración como “Siempre conectado, siempre escuchando”. El dispositivo debe configurarse de esta manera para que funcione como un sistema de información controlado por voz y reconocimiento de voz “manos libres” eficaz.

2. En un entorno público.

2.1 La tecnología de control de voz y reconocimiento de voz proporcionará una mejora eficaz y valiosa en la accesibilidad a los sistemas públicos de TIC. Aplicaciones como la emisión de billetes de transporte público y las terminales de facturación de aerolíneas serían ejemplos típicos.

2.2 Como parte de un enfoque multimodal de accesibilidad, Speech Command proporcionará una opción adicional para que las personas con discapacidades (y las que no las tengan) confirmen su identidad biométrica e interactúen con el software de aplicación del quiosco. El usuario del quiosco podrá elegir entre una combinación de dispositivos de interfaz táctil, audible o visual para satisfacer mejor sus necesidades específicas de accesibilidad.

2.3 Sin embargo, será esencial que todos los usuarios del quiosco y aquellos miembros del público en las proximidades del quiosco sepan que el terminal incluye tecnología de reconocimiento de voz y / o comando de voz y que la función de comando de voz está ” encendida y escuchando “. Esta conciencia es fundamental por dos razones:

2.3.1 Informar al usuario del quiosco que la tecnología Speech Command / Voice Recognition está disponible para su uso y conveniencia.

2.3.2 Para advertir a los miembros del público (en las proximidades) que sus conversaciones pueden / serán recogidas por la función de Comando de voz / Reconocimiento de voz y pueden transmitirse a un servidor remoto para su análisis, procesamiento y posible retención.

2.4 Esta conciencia debe proporcionarse a los miembros del público que tienen visión, deficiencia visual, invidentes o deficiencias auditivas.

3. Un símbolo universal

3.1 Se propone que la industria de quioscos y autoservicio adopte un símbolo universalmente reconocido para la funcionalidad de Comando de voz.

3.2 El propósito del símbolo es indicar la presencia de tecnología de reconocimiento de voz o comando de voz.

3.3 Storm Interface ha diseñado un símbolo de alto contraste, muy visible y discernible al tacto que se puede aplicar fácilmente al quiosco. Durante el desarrollo de este logotipo, Storm Interface trabajó en estrecha colaboración con el Real Instituto Nacional de Personas Ciegas (RNIB) del Reino Unido. Los comentarios recibidos del RNIB han influido en el diseño del logotipo. Esto para ayudar al reconocimiento y la facilidad de uso, y para asegurar que todos los contornos y bordes estén redondeados para que sea cómodo al tacto.

3.4 Al igual que con cualquier logotipo nuevo, pero en particular con los logotipos táctiles, las personas deberán aprender su significado. Esto destaca la importancia de introducir un logotipo estándar que se pueda utilizar en todos los quioscos y sectores para garantizar que las personas ciegas solo necesiten aprender un símbolo.

3.5 Cuando se activan los servicios de reconocimiento de voz o comandos de voz, el símbolo se iluminará con LED blancos brillantes.

3.6 El símbolo aplicado debe colocarse de manera que pueda verse fácilmente o ubicarse táctilmente cuando un usuario se acerca o se dirige al quiosco.

3.7 Cuando el quiosco está en la pantalla de inicio o en el modo de protector de pantalla, sin actividad del usuario detectada, se debe reproducir periódicamente una señal o declaración audible para indicar la presencia de una función de reconocimiento de voz o comando de voz activada. Alternativamente, se podría usar un dispositivo de detección de proximidad para activar el silenciamiento de un dispositivo VR o SC solo cuando un usuario del quiosco se acerca a la zona de interfaz del quiosco.

3.7.1 También deberían proporcionarse indicadores audibles similares de una tecnología de reconocimiento de voz o comando de voz en funcionamiento cuando dicha instalación se active (se encienda o se desactive) después de un período de inactividad.

3.8 A continuación se reproduce una especificación propuesta para el símbolo. Storm Interface y el RNIB proponen que este símbolo esté disponible como un dispositivo gráfico “de uso gratuito”. Storm Interface propone ofrecer una versión física fabricada del dispositivo gráfico, en forma de mosaico iluminado, para su venta y uso por parte de fabricantes, especificadores u operadores de quioscos.

Figura 1: Imágenes cortesía de Keymat Technology Ltd. Todos los derechos reconocidos.

Coice Recognition Symbol

4. Hardware

4.1 Micrófonos

4.1.1 Los quioscos que ofrecen tecnología de reconocimiento de voz o comando de voz deben admitir y proporcionar los medios para la entrada de voz.

4.1.2 Esto debería ser mediante la provisión de un punto de conexión estándar adecuado para un auricular de audio o auricular (equipado con su propio micrófono) y mediante la provisión de un micrófono adecuado (o conjunto de micrófonos) instalado permanentemente como un accesorio del quiosco.

4.1.3 En muchas ubicaciones o aplicaciones de quioscos públicos será necesario emplear tecnología avanzada de cancelación de ruido y enfoque de haz para permitir el funcionamiento eficaz de la tecnología de reconocimiento de voz o comando de voz.

4.1.4 El quiosco anfitrión debe detectar la conexión de un auricular o dispositivo de ayuda auditiva (equipado con su propio micrófono integrado) y la funcionalidad de cualquier micrófono (o conjunto de micrófonos) instalado permanentemente debe ajustarse automáticamente para acomodar y permitir el funcionamiento correcto de los auriculares o audífonos

4.1.5 Para facilitar una funcionalidad confiable y continua, la provisión e instalación de puntos de conexión de dispositivos de audio y / o dispositivos de micrófono instalados permanentemente deben cumplir con los requisitos de los procedimientos regulares de saneamiento (lavado) y deben resistir el uso intenso y el abuso asociado con las instalaciones de TIC en Espacios públicos. Como requisito mínimo, se debe lograr una resistencia al agua y al polvo de acuerdo con IP54 (o equivalente). Debe lograrse una resistencia mínima al impacto de 10J.

Figura 2. Micrófono de matriz de haz para entornos públicos al aire libre o sin supervisión. Hay otras marcas y productos disponibles.

Beam Array Microphone

4.2 Altavoces

4.2.1 Los quioscos que ofrecen tecnología de reconocimiento de voz o comando de voz deben respaldar y proporcionar los medios para la reproducción audible de sonido o voz.

4.2.2 Esto debería hacerse mediante la provisión de un punto de conexión adecuado para un auricular de audio o auricular y mediante la provisión de un sistema de altavoces amplificado adecuado instalado permanentemente como accesorio del quiosco.

4.2.3 En muchas ubicaciones o aplicaciones de quioscos públicos, será necesario emplear tecnología de dirección o enfoque de sonido para evitar la contaminación acústica o la irritación de quienes se encuentran en las proximidades del quiosco.

4.2.4 El quiosco anfitrión debe detectar la conexión de un auricular o dispositivo de asistencia auditiva (equipado con sus propios altavoces integrados) y la funcionalidad de cualquier altavoz amplificado instalado permanentemente debe ajustarse automáticamente para acomodar y permitir el funcionamiento correcto de los auriculares o audífonos dispositivo de ayuda.

4.2.5 Los controles de volumen de sonido discernibles táctiles deben ser fácilmente accesibles para aquellos que usan audífonos, audífonos o dispositivos de ayuda auditiva. Los controles de volumen de sonido táctiles deben estar accesibles y en funcionamiento durante toda la sesión del usuario del quiosco. Siempre que sea posible, los controles táctiles discernibles deben tener la forma adecuada para permitir su funcionamiento con bastones para la cabeza o palpadores de fácil agarre.

Figura 3. Los controles de volumen de sonido discernibles táctiles deben ser fácilmente accesibles para quienes usan audífonos, audífonos o dispositivos de ayuda auditiva y quienes usan bastoncillos para la cabeza o palpadores de fácil agarre.

Volume Control

4.2.6 Para facilitar una funcionalidad confiable y continua, la provisión e instalación de puntos de conexión de dispositivos de audio y / o altavoces amplificados instalados permanentemente deben cumplir con los requisitos de los procedimientos regulares de saneamiento (lavado) y deben resistir el uso duro y el abuso asociado con las instalaciones de TIC en Espacios públicos. Debe cumplirse un requisito mínimo de resistencia al agua y al polvo de acuerdo con IP54 (o equivalente). Debe lograrse una resistencia mínima al impacto de 10J.

4.3 Dispositivos inalámbricos

4.3.1 Para aquellos usuarios de quiosco que prefieren usar auriculares, audífonos o implantes inalámbricos en lugar de dispositivos con cable con un cable y un conector jack, debería ser posible conectar un transpondedor inalámbrico personal (alimentado por una batería de botón) en la toma de enchufe. Estos dispositivos personales proporcionan comunicación encriptada entre el transpondedor y un auricular personal emparejado. El transpondedor será retirado y retenido por el usuario del quiosco cuando se complete la sesión del quiosco.

Figura 4: Transpondedor inalámbrico compacto. Estos dispositivos se pueden emparejar con auriculares o audífonos inalámbricos para brindar una capacidad de escucha privada. El transpondedor se puede conectar directamente a la toma de audio del quiosco. Hay otras marcas y tipos de transpondedores disponibles.

wireless transponder

5. Conclusiones:

La aparición del reconocimiento de voz como un medio de confirmación biométrica de la identidad, coincidiendo con el profundo impacto de la inteligencia artificial en las TIC controladas por voz, impulsará la adopción de la tecnología de comando por voz en los espacios y aplicaciones públicos. Si bien esto presenta muchos desafíos y riesgos para la privacidad y la protección de los datos personales, conducirá a una nueva era de igualdad en el acceso a la información, libertad e independencia para las personas con discapacidades. Será necesario que los mandatos, la regulación y las normas de accesibilidad se adapten en apoyo de este cambio revolucionario en la forma en que los seres humanos interactúan con el mundo digital. La tecnología Speech Command crea nuevas oportunidades importantes para la vida independiente.


Derechos de autor Peter W Jarvis 2018. Todos los derechos retenidos.
Contacto: Peter Jarvis: [email protected]
Nicky Shaw: [email protected]

Agradecemos cualquier comentario y retroalimentación que pueda ayudarnos a evaluar este marco propuesto.