Hybrid algorithms for recommending new items

2nd International Workshop on Information Heterogeneity and Fusion in Recommender Systems (HetRec 2011)

Chicago, IL (USA) – Oct 2011, 27th

Hybrid algorithms for recommending new items http://dx.doi.org/10.1145/2039320.2039325

ROBERTO TURRIN – Moviri, R&D Paolo Cremonesi – Politecnico di Milano Fabio Airoldi – Moviri, R&D

M OV I R I , R & D

..in a nutshell Credits: http://dpaki.com/?p=2591

•

Hybrid algorithms

Real domain requirements • scalability • modularity • many unrated items • New-item stressing experiments •

•

Datasets • Private TV dataset • MovieLens

Traditional recommender systems

Collaborative (CF)

Pros

High quality

Cons

Content-based (CBF)

New items problem

Pros

Cons

(since they do not have ratings)

Popularity bias

Work on new items Low quality (since user ratings are ignored)

Profile overfitting

R. TURRIN, P. Cremonesi, F. Airoldi - Hybrid algorithms for recommending new items

..so CF or CBF? ..many variables

quality

CF CBF time ? new system


mature system

TV domain: new items

• The EPG is characterized by many unrated, new TV programs • The percentage of new-item cannot be neglected


Existing hybrid algorithms

Several hybrid algorithms mix CF and CBF (but also demographics, social)

e.g.:

Pros

P. Melville, R. J. Mooney, and R. Nagarajan. “Content-boosted collaborative filtering for improved recommendations”, 2002 B. Mobasher, X. Jin, and Y. Zhou. “Semantically Enhanced Collaborative Filtering on the Web”, 2003

Some approaches show better quality than CF/CBF

Cons

Low scalability / no real-time recommendations Only partial focus on new-item problem Not working with implicit, binary ratings


Our hybrid algorithms GOALS

New-item Quality comparable to collaborative

REQUIREMENTS:

Batch/real-time scalability/complexity Updated recommendations Modularity: ability to re-use existing CF and CBF algorithms. Implicit/explicit ratings


Main contributions GOALS

REQUIREMENTS:

New-item Quality comparable to collaborative

Batch/real-time scalability/complexity Updated recommendations Modularity: ability to re-use existing CF and CBF algorithms. Implicit/explicit ratings

Two hybrid algorithms: extension of SimComb algorithm introduction of a new hybrid algorithm New-item stressing evaluation


STATE-OF-THE-ART RECOMMENDER ALGORITHMS M OV I R I , R & D

Collaborative algorithms

Rating given by user u to item i In implicit dataset is either 1 or 0

User Rating Matrix (URM)

u i

Implemented strategies:

Item-item neighborhood-based (NNCos)

Recommendations are based on item-item similarities computed as the cosine metric

Latent factor models (PureSVD)

Recommendations are based on hidden factors implicitly discovered by means of a matrix factorization (SVD)


Content-based algorithm

Item-content matrix (ICM)

f

Weight of feature f in item i. Computed as TF-IDF Example of features: genre, actors, directors,…

i

LSA (Latent Semantic Analysis) The ICM is factorized by means of SVD in order to discover latent semantic


Hybrid algorithms Interleaved (INTL) Trivial hybrid implementation where the final recommendation list is formed by alternating items recommended by the CF algorithm with items recommended by the CBF algorithm

Item A Item B Item C CF list

Item A Item Z Item B Item Y

Item Z Item Y Item X CBF list

Hybrid list

SimComb [Mobasher et al. 2004]

Two item-item similarity matrices are computed and linearly combined

(1-α)

CF item-item similarities

+α

CBF item-item similarities

=


HYBRID item-item similarities

• FFA (Filtered Feature Augmentation) • SIMinjKnn (Similarity Injection Knn)

PROPOSED HYBRID ALGORITHMS M OV I R I , R & D

Collaborative filtering as main brick

We trust CF recommendations when the model has been trained with “enough” information (i.e., ratings)

CF

We add CBF-based data (i.e., rating) for better training the CF when no enough information is available

CBF


Collaborative filtering as main brick

We trust CF recommendations when the model has been trained with “enough” information (i.e., ratings)

CF

We add CBF-based data (i.e., features) for better training the CF when no enough information is available

CBF


Item-item model

KNN Item-item similarity matrix

i j

A number of recommendation (CF and CBF) algorithms allow to compute item-item similarity.


Item-item model: real-time recommendations

+ ? ? ? -?+ User ratings

KNN Item-item similarity matrix

i j


Item-item model: real-time recommendations

+ ? ? ? -?+ * User ratings

Real-time requirements: • Memory: K * #items • Time: f(#ratings,K) * #items • Use of existing algorithms • Updated recommendations • Implicit/explicit ratings MODEL


Filtered Feature Augmentation (FFA) Idea: add pseudo-ratings to the item profiles Motivation

Pseudo-ratings model new items Less sparse item-profiles

CONTENT

CBF

Filter

RATINGS


CF

Model

Filtered Feature Augmentation (FFA) Idea: add pseudo-ratings to the item profiles Motivation

Pseudo-ratings model new items Less sparse item-profiles

Entropy-based filtering (e.g., Gini impurity measure)

predicted ratings

CONTENT

CBF

Filter

RATINGS


CF

Model

Similarity Injection Knn (SIMinjKnn) Idea: mixing CF and CBF similarities Motivation

Discovering relationships between new and old items

CONTENT

CBF

CBF Model

Combiner

RATINGS

CF

CF Model


Model

EVALUATION

M OV I R I , R & D

Datasets

ML

TV

1M Movielens ~6K users, ~3.9K items, 1M ratings

An implicit, binary dataset collected from 15’000 IPTV users over a period of six months

~15K users, ~800 rated items/~4K, ~26K ratings Multilanguage (mainly German, French) content data available at http://home.dei.polimi.it/cremones/memo/downloads/TV2.zip


Testing methodology (1)

• H1: set of existing items • H2: set of new items

Training set (extracted from H1) Test set • (100-β)% existing items: extracted from H1 • β% new items: extracted from H2 Discarded ratings



• H1: set of existing items • H2: set of new items

Training set (extracted from H1) Test set • (100-β)% existing items: extracted from H1 • β% new items: extracted from H2 Discarded ratings



For each in H : 1+2

Generate rating prediction for i Generate rating prediction for every other items Sort the items according to predicted rating

There is a “hit” if rank(i) < N

i.e., item i appears in the top-N. In our tests, N=20


Non-hybrid algorithms

ML ML R. TURRIN, P. Cremonesi, F. Airoldi - Hybrid algorithms for recommending new items

TV TV

Hybrid algorithms: ML


ML

Hybrid algorithms: ML


ML

Hybrid algorithms: TV


TV

Toy sample

BF1

BF1

IJ2

IJ2 BF2

BF2

BF3 IJ1

BF3 IJ1

CBF


CF

Toy sample FFA

SIMInj

BF1

BF1

IJ2

IJ2 BF2

BF2

BF3 IJ1

BF3 IJ1

CBF CF new “connections” R. TURRIN, P. Cremonesi, F. Airoldi - Hybrid algorithms for recommending new items

Conclusions / Future work

Proposed 2 hybrid algorithms:

Higher recall than CF and CBF in the presence of new items Scalable / non-affecting real-time performance Handling implicit/explicit ratings

Future work:

Subjective evaluation Improving the filter with other information Other domains


Politecnico di Milano www.contentwise.tv

Thank you Roberto TURRIN, PhD Moviri, R&D – Italy

[email protected]

Q&A R. TURRIN, P. Cremonesi, F. Airoldi - Hybrid algorithms for recommending new items

Hybrid algorithms for recommending new items

Hybrid algorithms for recommending new items

Suggest Documents

Recommending Items in Social Tagging Systems

NEW HYBRID NEURO-EVOLUTIONARY ALGORITHMS FOR ... - arXiv

New Hybrid Globally Convergent CG-Algorithms for

A Unified Framework for Recommending Items ... - Semantic Scholar

Recommending Collaborative Filtering algorithms using ... - arXiv

new items

Recommending Learning Algorithms and Their Associated

Social networking feeds: recommending items of ... - Semantic Scholar

Hybrid Cryptography Algorithms for Enhanced

Recommending cut scores with a subset of items - Practical ...

Mixing It Up: Recommending Collections of Items - CiteSeerX

Recommending Similar Items in Large-scale ... - Semantic Scholar

More Like This: Approaches to Recommending Similar Items Using ...

HYBRID CLASSIFICATION ALGORITHMS FOR ... - IJETTCS

Recommending Similar Items in Large-scale ... - Semantic Scholar

New Hybrid Algorithms for Task Scheduling in Computational Grids to ...

New Hybrid Algorithms for Estimating Tree Stem Diameters at ... - MDPI

New Hybrid Algorithms for Estimating Tree Stem Diameters at ... - MDPI

New Hybrid Optimization Algorithms for Machine Scheduling Problems

NEW ITEMS april.pdf

Hybrid Coevolutionary Algorithms vs. SVM Algorithms - CiteSeerX

New Items for 2013 - Westend Trains

Hybrid Algorithms for Service, Computing and ...

Learning Hybrid Algorithms for Vehicle Routing Problems