Una nueva investigación de Canadá propone un método para reescribir automáticamente un artículo a medida que lo lee, basado en el «deslizamiento» al estilo de Tinder, o en la observación pasiva de la interacción del lector con los diversos tipos de contenido que contiene el artículo.
El sistema, titulado Hone As You Read (HARE), se presenta en un papel de Western University en Ontario, Canadá, con el código Python correspondiente en GitHub.
La idea central del proyecto es que un artículo puede contener varios tipos de contenido, evolucionando (al igual que este) desde el título hasta más detalles. Las partes posteriores de un artículo pueden contener diferentes tipos de material de apoyo, casos de uso o hipótesis o conjeturas sobre las ramificaciones de la noticia.
En HARE, si no le gusta ese tipo de material, puede rechazarlo párrafo por párrafo mientras el sistema aprende sus preferencias, de modo que cuando se desplace hacia abajo, contenido similar al material que desea ‘downvoted’ ya ha sido eliminado o reescrito. Si no desea participar activamente en la capacitación del sistema, HARE puede deducir sus opciones al observar sus interacciones pasivas con el documento.
Votación estilo Tinder para oraciones desagradables
En la imagen a continuación, vemos tres tipos posibles de categorización inferida para HARE, según el comportamiento explícito o implícito del usuario. En el primer caso (izquierda), el usuario activamente ‘desliza hacia la izquierda’ (o hacia la derecha), en un gesto de votación estilo Tinder expresando aprobación o desagrado en el contenido del párrafo o frase, o en su estilo, complejidad o tono.
Fuente: https://arxiv.org/pdf/2105.02923.pdf
En el segundo caso (centro), el sistema utiliza el tiempo de permanencia como una métrica de interés del usuario, en función del posicionamiento y la duración de la pausa de desplazamiento.
En el tercer caso (derecha), HARE usa la cámara del teléfono inteligente para estimar la ruta y el tiempo de permanencia de la ubicación de la mirada del espectador en los párrafos de los documentos visibles.
Los investigadores sostienen que un mayor tiempo de permanencia en cualquier párrafo puede indicar un mayor interés del usuario, aunque lógicamente este puede no ser el caso cuando el espectador está tratando de asimilar un texto que puede ser complicado o estar mal escrito.
Los comentarios de los usuarios editan, reescriben o borran por completo partes del artículo que aún no se han visto.
Procesamiento previo del contenido según las preferencias del usuario
El documento trata sobre la experiencia del usuario de HARE artículo por artículo, pero claramente la interacción histórica del usuario con los documentos permite la personalización de experiencias de lectura futuras, mediante el reconocimiento constante de los tipos de contenido y la aplicación de preferencias de usuario con plantillas a los nuevos artículos, de modo que la necesidad de interacción disminuye a medida que el usuario ve cada vez menos contenido ‘no deseado’.
HARE se caracteriza por ser un algoritmo de resumen, lo que permite que el contenido que no se ve más abajo en la página se reescriba en términos de estilo o concisión antes de que el usuario llegue a él; pero el documento deja en claro que también puede eliminar contenido de manera preventiva en función de los comentarios de los usuarios.
Para propósitos de prueba, el sistema utilizó un cuerpo de 11.222 artículos del periódico Daily Mail del Reino Unido, y se evaluó a través de una implementación de prueba en la aplicación de chat Telegram. Los artículos con menos de diez párrafos fueron descartados con fines de prueba.
La app Telegram HARE en fase de prueba con usuarios.
La metodología de los investigadores utiliza el agrupamiento de K-Means en SBERT incrustaciones de oraciones en los artículos, con pesos inicialmente aleatorios para los conceptos tratados.
Entre un amplio grupo de algoritmos y enfoques, HARE presenta tres modelos de comparación, el primero de los cuales (ORACLEGREEDY) tiene acceso a las preferencias previas del usuario, lo que indica la intención de que el algoritmo pueda preprocesar artículos en carga, en lugar de hacerlo de manera interactiva.
Los otros modelos, ORACLESORTED y ORACLEUNIFORM, seleccionan oraciones según el nivel de interés o al azar a lo largo del artículo, respectivamente.
Eliminación y reescritura de contenido
Sorprendentemente, ORACLEUNIFORM superó al conjunto de control, aunque no tiene acceso a los intereses de los usuarios anteriores. Los investigadores sostienen que esto se debe a que trata todo el artículo de una sola vez, ‘eligiendo solo las oraciones más interesantes’. Los investigadores admiten que esto puede restringir el contenido disponible a aquellas oraciones que tratan únicamente del concepto más importante, eliminando lógicamente otro texto que pueda tratar con ramificaciones o evaluación del concepto.
Los resúmenes extractivos utilizados en HARE son LexRank, SumBasicy Rango de texto.
HARE se probó en 13 voluntarios en el transcurso de 70 ensayos y diversos enfoques algorítmicos, y pudo actualizar resúmenes (texto reescrito/eliminado) en algún lugar entre 1,3 milisegundos y 100 ms en una computadora portátil de nivel de consumidor, según el modelo que se prueba. Los resultados encontraron que los modelos que eliminaron la mayor parte del texto no funcionaron bien, principalmente porque esto puede afectar la coherencia del texto restante.
Implicaciones éticas de la reescritura dinámica de artículos
Los investigadores reconocen las preocupaciones éticas en torno a tecnologías de esta naturaleza:
‘La tarea HARE está destinada al diseño de futuras aplicaciones orientadas al usuario. Por diseño, estas aplicaciones tienen la capacidad de controlar lo que un usuario lee de un artículo determinado. Es posible que, cuando se implementen sin el debido cuidado, estas herramientas podrían exacerbar el efecto de “cámara de eco” que ya producen las fuentes de noticias automatizadas, los resultados de búsqueda y las comunidades en línea.’
Sin embargo, también señalan que dicho sistema podría usarse en aplicaciones futuras para mitigar el efecto de la cámara de eco al inyectar texto que proponga puntos de vista alternativos que pueden no haber estado presentes inicialmente en el artículo. Observan: «La ponderación de este factor podría ajustarse para proporcionar una experiencia de lectura atractiva y exposición a una diversidad de ideas».
Los que probablemente se beneficiarán de este sistema, según los investigadores, son los lectores que quieren ahorrar tiempo asimilando información y los editores de contenido.