Un teclado móvil invisible impulsado por IA que te permite escribir un 157 % más rápido

Investigadores de Corea del Sur han utilizado técnicas de aprendizaje automático para desarrollar un teclado “invisible” para dispositivos móviles con limitaciones de espacio que permite a los usuarios escribir un 157,5 % más rápido, aunque no se vea ningún teclado en la pantalla.

Respuesta del usuario a la Nuevo método – llamado simplemente Invisible Mobile Keyboard (IMK) – se informa que es muy positivo, con usuarios de prueba que informan bajos niveles de demanda física, mental y temporal mientras usan el teclado. En términos de eficiencia, IMK supera ligeramente al método de entrada alternativo de vanguardia más reciente, alcanzando una puntuación de vanguardia de 51,6 palabras por minuto.

El teclado fantasma

Para comenzar a generar entradas, los usuarios simplemente pueden comenzar a escribir en la pantalla, como si un teclado estuviera visible (aunque ninguno lo está). No aparece nada que obstruya la vista del contenido, y las palabras escritas aparecerán en cualquier cuadro de texto receptivo donde se origine la escritura y, opcionalmente, como una delgada línea de texto que el usuario puede verificar para verificar su precisión.

El sistema se autocalibra desde el momento en que reconoce la entrada. Por lo tanto, el usuario puede tener el dispositivo móvil en modo horizontal o vertical y utilizar la totalidad del espacio disponible en la pantalla para escribir su texto.

En un video adjunto (vea el final del artículo y la imagen directamente debajo), los autores del artículo ilustran cómo funciona la acción, aunque aclaran que no aparece ningún teclado real durante la entrada (solo está allí con fines ilustrativos en el video):

Este es un ejemplo de IMK en la etapa de recopilación de datos, aunque funciona de manera idéntica en el uso final.  El teclado que aparece es solo para fines ilustrativos y no aparece para el usuario ni durante el proceso de recopilación de datos ni en el uso final de la interfaz.  Fuente: https://www.youtube.com/watch?v=PuhiVGOfIR0

Este es un ejemplo de IMK en la etapa de recopilación de datos, aunque funciona de manera idéntica en el uso final. El teclado que aparece es solo para fines ilustrativos y no aparece para el usuario ni durante el proceso de recopilación de datos ni en el uso final de la interfaz. Fuente: https://www.youtube.com/watch?v=PuhiVGOfIR0

Escribir como un sistema de coordenadas

La investigación se origina en el Instituto Avanzado de Ciencia y Tecnología de Corea (KAIST) y explota nuestra habilidad natural para ‘trazar’ dónde está la siguiente tecla en un teclado. Aunque puede parecer contrario a la intuición ocultar el teclado y esperar que el dedo de un usuario encuentre la siguiente tecla deseada, de hecho, incluso un mecanógrafo promedio se dirige instintivamente al carácter correcto.

Efectivamente, IMK trata el teclado como una matriz de trama, y ​​los autores han compilado una extensa base de datos de entrada de usuario para proporcionar datos para el decodificador de caracteres neuronales de autoatención (SA-NCD) del sistema para entrenar.

SA-NCD observará la posición de una ‘caída de llave’ y calculará la probabilidad de qué tecla se desea. A medida que las palabras se acumulan a través de las pulsaciones de teclas, SA-NCD puede compilar y dividir los caracteres en sus palabras constituyentes previstas, limpiando la entrada en vivo.

La arquitectura de red de SA-NCD, donde Q/K/V significa consulta, clave y valor de autoatención.  Fuente: https://arxiv.org/pdf/2108.09030.pdf

La arquitectura de red de SA-NCD, donde Q/K/V significa consulta, clave y valor de autoatención. Fuente: https://arxiv.org/pdf/2108.09030.pdf

SA-NCD no espera a que se complete una posible oración, ya que no tiene idea de cuándo terminará la entrada de la oración y, a medida que se agrega una palabra o palabras a la frase, puede revisar y reescribir interpretaciones anteriores del oración a la luz de la última entrada.

Base de datos

Para impulsar el proceso de formación, los investigadores reunieron alrededor de dos millones de pares de puntos de contacto y texto de los sujetos de prueba, que utilizaban una interfaz web sencilla a la que se accedía desde dispositivos móviles con capacidad táctil.

El conjunto de datos contiene las iniciales del nombre del usuario, el tamaño de la pantalla de su dispositivo, su edad, el tipo de dispositivo móvil utilizado (es decir, tableta, teléfono inteligente, etc.) y los valores de las coordenadas x e y de cada teclado registrado.

Posiciones promedio de caídas de teclas entre usuarios, con puntos de color idéntico que indican caídas de teclas de los mismos usuarios.  La identificación de los datos del mismo usuario ayuda a optimizar el conjunto de datos y evita el sobreajuste al comparar las agrupaciones de teclas promedio de usuarios individuales, en lugar de entrenar las pulsaciones de teclas de un usuario entre sí.

Posiciones promedio de caídas de teclas entre usuarios, con puntos de color idéntico que indican caídas de teclas de los mismos usuarios. La identificación de los datos del mismo usuario ayuda a optimizar el conjunto de datos y evita el sobreajuste al comparar las agrupaciones de teclas promedio de usuarios individuales, en lugar de entrenar las pulsaciones de teclas de un usuario entre sí.

La capacitación tuvo que tener en cuenta las notables variaciones en la distancia promedio de píxeles entre trazos entre los usuarios. Algunos usuarios, quizás aquellos acostumbrados a teclados de software muy estrechos, mantuvieron una distancia promedio entre teclas de solo 50 píxeles en el eje z, mientras que otros promediaron 300 píxeles.

Estas diferencias son críticas, ya que en el caso del eje Y, un error colocaría la tecla en la fila incorrecta, sustituyendo, por ejemplo, una ‘I’ o una ‘M’ por el trazo de ‘K’ deseado.

Arquitectura y Formación

SA-NCD consta de dos módulos decodificadores: un decodificador geométrico, que calcula en qué parte del teclado invisible se pretendía que cayera una pulsación de tecla; y un decodificador semántico, que maneja la interpretación en vivo del texto de entrada.

El decodificador geométrico utiliza GRU bidireccional (BiGRU), con GRU adoptado como una red neuronal recurrente (RNN), con pases hacia adelante y hacia atrás que facilitan una interpretación de la oración en constante cambio.

El componente semántico utiliza un Transformador arquitectura, que interpreta la entrada después de haber pasado por un proceso de “enmascaramiento de confianza” diseñado para comparar el uso promedio con la nueva clave específica. El decodificador semántico fue entrenado como un modelo de lenguaje de caracteres enmascarados contra el Punto de referencia de mil millones de palabrasuna colaboración de 2014 entre Google, la Universidad de Cambridge y la Universidad de Edimburgo.

Resultados

En las pruebas, los usuarios pudieron escribir un 157,5 % más rápido con IMK que con teclados de software de terceros en sus propios teléfonos inteligentes. Además, se descubrió que IMK superó los resultados obtenidos por métodos novedosos rivales, como los métodos de entrada de texto basados ​​en gestos, táctiles y con diez dedos de los últimos años. El documento informa que los usuarios mostraron una alta satisfacción con el sistema.

Vea el video de los autores a continuación para obtener más información sobre IMK.

Deja un comentario