Si está interesado en cosas oscuras, hay dos razones por las que es probable que sus búsquedas de artículos y productos estén menos relacionadas con sus intereses que las de sus pares ‘principales’; o usted es un ‘caso extremo’ de monetización cuyos intereses solo serán atendidos si también se encuentra en las categorías superiores de poder adquisitivo económico (por ejemplo, productos y servicios relacionados con la ‘gestión de riqueza’); o los algoritmos de búsqueda que está utilizando aprovechan el filtrado colaborativo (CF), que favorece los intereses de la mayoría.
Dado que el filtrado colaborativo es más barato y más establecido que otros algoritmos y marcos potencialmente más capaces, es posible que se apliquen ambos casos.
Los resultados de búsqueda basados en CF darán prioridad a los elementos que se perciben como populares entre ‘personas como usted’, ya que el marco de host puede comprender mejor qué tipo de consumidor es usted.
Si desconfía de proporcionar información de perfiles de datos al sistema host, por ejemplo, si no está dispuesto a presionar los botones «Me gusta» en Netflix y otros servicios de contenido de video, es probable que lo clasifiquen de manera bastante genérica en sus primeras interacciones con el y las recomendaciones que reciba reflejarán las tendencias más populares.
En una plataforma de transmisión, eso podría significar que te recomienden cualquier programa y película que esté actualmente «de moda», como reality shows y documentales de asesinatos forenses, independientemente de tu interés en estos. Lo mismo ocurre con las plataformas de recomendación de libros, que tenderán a ofrecer best-sellers actuales y recientes, aparentemente de forma arbitraria.
En teoría, incluso los usuarios circunspectos de los datos deberían eventualmente obtener mejores resultados de dichos sistemas en función de la forma en que los usan y las cosas que buscan, ya que la mayoría de los marcos de búsqueda brindan a los usuarios una capacidad limitada para editar su historial de uso.
Cualquier color que te guste, siempre que sea negro
Sin embargo, según un nuevo estudio de Austria, el predominio del filtrado colaborativo sobre el filtrado basado en contenido (que busca definir relaciones entre productos en lugar de solo tener en cuenta la popularidad agregada) y otros enfoques alternativos, inclina los sistemas de búsqueda hacia la popularidad a largo plazo. sesgo, donde los resultados obviamente populares se empujan hacia los usuarios finales que es poco probable que se entusiasmen con ellos.
El documento encuentra que los usuarios que no están interesados en artículos populares reciben recomendaciones ‘significativamente peores’ que los usuarios con un interés medio o alto en la popularidad y (quizás tautológicamente) que los artículos populares se recomiendan con más frecuencia que los impopulares. Los investigadores también concluyen que los usuarios con poco interés en artículos populares tienden a tener perfiles de usuario más grandes que podrían mejorar potencialmente los sistemas de recomendación, si los sistemas pudieran eliminar su adicción a las métricas de «rebaño».
La comparación de la popularidad con la complejidad de los perfiles de usuario muestra que los usuarios ‘marginales’ desinteresados en el contenido principal en realidad tienen más contenido potencial para los sistemas de recomendación; pero como tales usuarios no se ajustan a las tendencias, parece una oportunidad perdida. Fuente: https://arxiv.org/pdf/2203.00376.pdf
Él papel se titula Popularity Bias in Collaborative Filtering-Based Multimedia Recommender Systems, y proviene de investigadores del ahora Center GmbH en Graz y la Universidad Tecnológica de Graz.
Dominios cubiertos
Sobre la base de trabajos anteriores que estudiaron sectores individuales (como recomendaciones de libros), el nuevo documento examina cuatro dominios: libros digitales (a través de la cruce de libros conjunto de datos); películas (a través de lente de la película); música (vía Last FM); y animes (vía Mi lista de anime).
El estudio aplicó cuatro algoritmos de filtrado colaborativo populares de sistemas de recomendación multimedia (MMRS) contra conjuntos de datos. separar en tres grupos de usuarios, según su inclinación a ser receptivos a los resultados ‘populares’: LowPop, MedPop y HighPop. Los grupos de usuarios se filtraron hasta 1000 grupos de igual tamaño, en función de los resultados menos, promedio y más propensos a favorecer los resultados «populares».
Comentando los resultados, los autores afirman:
‘[We] encuentra que la probabilidad de que se recomiende un elemento multimedia se correlaciona fuertemente con la popularidad de este elemento [and] que los usuarios con menor inclinación a la popularidad (LowPop) reciben recomendaciones multimedia significativamente peores desde el punto de vista estadístico que los usuarios con una inclinación media (MedPop) y alta (HighPop) a los artículos populares…
“Nuestros resultados demuestran que, aunque los usuarios con poco interés en los artículos populares tienden a tener los perfiles de usuario más grandes, reciben la precisión de recomendación más baja. Por lo tanto, se necesita investigación futura para mitigar el sesgo de popularidad en MMRS, tanto a nivel de artículo como de usuario.’
Entre los algoritmos evaluados se encontraban dos variantes K-Nearest Neighbors (KNN), UsuarioKNN y UsuarioKNNAvg. El primero de estos no genera una calificación promedio para el usuario objetivo y el artículo. A no negativo factorización de matrices También se probó la variante (NMF), junto con un algoritmo CoClustering.
El protocolo de evaluación consideró la tarea de recomendación como un desafío de predicción, medido por los investigadores en términos de error absoluto medio (MAE), frente a un protocolo de validación cruzada de cinco veces que supera la división habitual 80/20 entre datos entrenados y de prueba.
Los resultados indican una garantía casi total de sesgo de popularidad bajo el filtrado colaborativo. Podría decirse que la pregunta es si esto es percibido como un problema por las empresas multimillonarias que actualmente incorporan CF en sus algoritmos de búsqueda.
En los cuatro conjuntos de datos estudiados sobre cuatro recomendaciones populares de filtrado colaborativo, cada resultado indica que es más probable que se recomienden elementos de medios populares que ofertas impopulares.
La salida ‘fácil’
Si bien el filtrado colaborativo se usa cada vez más como solo un elemento de una estrategia de algoritmo de búsqueda más amplia, tiene una gran participación en el sector de búsqueda, y su lógica y rentabilidad potencial son atractivamente fáciles de entender.
En sí mismo, CF esencialmente descarga la tarea de evaluar el valor del contenido para los usuarios finales y utiliza su aceptación del contenido como un índice de su valor y atractivo potencial para otros clientes. Por analogía, es esencialmente un mapa del ‘zumbido del enfriador de agua’.
El filtrado basado en contenido (CBF) es más difícil, pero podría proporcionar resultados más relevantes. En el sector de la visión por computadora, actualmente se está invirtiendo una cantidad cada vez mayor de investigación en la categorización del contenido de video y tratando de derivar dominios, características y conceptos de alto nivel a través del análisis de audio y video en películas y salidas de TV.
Uno de los muchos proyectos de investigación de los últimos cinco años que intenta derivar características semánticas del contenido de las películas para generar recomendaciones ‘adyacentes’ más inteligentes. Fuente: https://arxiv.org/pdf/1701.00199.pdf
Sin embargo, esta es una búsqueda relativamente incipiente y está ligada a la lucha actual y más general para cuantificar, aislar y explotar conceptos y características de alto nivel en el dominio del conocimiento.
¿Quién usa el filtrado colaborativo?
En el momento de escribir este artículo, Netflix muy criticado motor de recomendación permanece fijado en varios enfoques de filtrado colaborativo, aplicando una variedad de tecnologías adjuntas en los intentos continuos de generar recomendaciones más relevantes para el usuario.
buscador de Amazon evolucionado desde su adopción temprana del filtrado colaborativo basado en el usuario hasta un método de filtrado colaborativo artículo-artículo, que pone mayor énfasis en el historial de compras del cliente. Naturalmente, esto puede conducir a diferentes tipos de inexactitud, como burbujas de filtro o énfasis excesivo en datos dispersos. En el último caso, si un cliente poco frecuente de Amazon realiza una compra «inusual», como un juego de operetas para un amigo amante de la ópera, es posible que no existan compras alternativas adecuadas que reflejen las preferencias del cliente para evitar que esta compra se convierta en una influir en sus propias recomendaciones.
El filtrado colaborativo también es ampliamente utilizado por Facebook, en concierto con otros enfoquesy también por LinkedInYouTube y Twitter.
Publicado por primera vez el 2 de marzo de 2022.