(Re-adaptación mejorada de una entrada que hice en medium el año 2017).
El Filtrado Colaborativo (o Colaborative Filtering en la mayoría de los papers en inglés del área) es el proceso de filtrado o evaluación de ítems a través de opiniones de otras personas (Según Schafer et al., 2007 [1]). Es un proceso que se basa en el hecho de que las personas buscan opiniones y referencias de otras personas sobre algún objeto como alternativa o complemento a una búsqueda o prueba empírica. En la actualidad se usan los sistemas de filtrado colaborativo para hacer recomendaciones o predicciones a usuarios sobre algún ítem, a través de ratings de los usuarios. Existe distintas clasificaciones para el tipo de rating:
- Explicito: el usuario realiza una acción de forma directa. Se subdividen en:
- Unarios: es una única acción única, como añadir a favoritos.
- Binarios: se presentan dos acciones, una para feedback positivo y otra negativo, como like y dislike.
- Escala númerica (Integer “Likert”-like): valoraciones en números enteros en una escala, pueden ser números o alguna representación más amigable, como estrellas.
- Implicito: el usuario no manifiesta directamente su apreciación por el contenido. Algunos ejemplos son el tiempo visitando una página, el número de veces que escucho una canción, etc.-
Los algoritmos involucrados en el proceso de filtrado pueden ser variados. Algunos ejemplos de ellos son User-Based Nearest Neighbor e Item-Based Nearest Neighbor (ambos algoritmos no probabilisticos) que determinan la similitud entre usuarios e ítems respectivamente. Estos algoritmos pueden usar distintas métricas de similitud, como la de similitud de Pearson o bien la lejanía en el grafo, o métricas basadas en la covarianza. Por otra parte, dado que este tipo de calculo es pesado para ambientes de producción, se combinan métodos para disminuir la dimensionalidad de las matrices de usuarios, ítems y ratings, como clusters. Algunos de estos algoritmos son UBNN y Association Rule Mining en el caso de IBNN.
Una de las grandes dificultades del filtrado colaborativo, es la dificultad de capturar ratings. Este problema es muy notorio en la mayoría de los sitios chilenos de retail conocidos, como Paris y Falabella, donde encontrar un rating es bastante difícil, y si los hay no suelen superar los 10. A esta problematica se le llama el Cold Start. Las páginas que sufren las páginas que inician o tienen pocos ratings, en partícular las comunidades nuevas.