Similarity Search: A Matching Based Approach

Similarity Search: A Matching Based Approach Anthony Kum Hoe Tung National University of Singapore [email protected] Joint Work with Rui Zhang Nick Koudas Beng Chin Ooi

University of Melbourne University of Toronto National University of Singapore

About my research interest Techniques Applications

•Association rules discovery •Sequential Pattern Discovery •Cluster analysis •Outlier Detection •Classifier Building •Data Cube/Data Warehouse Construction •Visualization … zDatabase

•Spatial Data Mining •Biological Data Mining •Personal Information Management

Technology:

zIndexing,

Compression, Data Structure

zAI/

Principles/ Foundation

Machine Learning zStatistics zInformation Theory zTheoretical CS : z

Approximate, Random, Online Algorithms

zMathematical

Programming zComputational Geometry …

About My Research (II) z

z

z

Why similarity search? z Distance function is a core issue in data mining. Without a good way to judge what is similar/dissimilar, no effective mining can be done As such, my research focus for the past few years have been focus on similarity search for high dimensional data, sequences, trees and graphs Eventually, mining algorithms can be developed on top of them for application such as integrated mining of biological data, personal information management etc Integrated Biological Data Mining Similarity Search/Indexing Algorithms

Biological Data Source 1 (Sequences)

Biological Data Source 2 (Trees)

Biological Data Source 4 (High Dimensional Data)

Biological Data Source 2 (Graphs)

Biological Data Source 5 (Time Series)

About My Research (III) z

z z z

z

Sequences z "Indexing DNA Sequences Using q-grams". Best Paper Award. DASFAA 2005 z Indexing Mixed Types for Approximate Retrieval, VLDB’06 Trees z “Similarity Evaluation on Tree-structured Data". SIGMOD'05 Graphs z On going! Time Series z SpADe: On Shape-based Pattern Detection in Streaming Time Series." ICDE’07 High Dimensional Data z LDC: Enabling Search By Partial Distance In A Hyper-Dimensional Space.ICDE'2004 z Similarity Search: A Matching Based Approach, VLDB'06 z Finding k-Dominant Skylines in High Dimensional Space, SIGMOD'06

About My Research(IV) z

z

z

Research mentality very much affect by the following two quotes “We can’t choose reviewers but we can choose to write good papers” z Raymond Ng, UBC “If you think your idea is going to be easily published by someone else tomorrow, then probably it is not too innovative” z Philip Long, Google

Outline z

Traditional approach to similarity search

z

Deficiencies of the traditional approach

z

Our proposal: the n-match query

z

Algorithms to process the n-match query

z

Experimental results

z

Future work and Conclusion

Similarity Search : Traditional Approach z

Objects represented by multidimensional vectors

Elevation

Aspect

Slope

Hillshade (9am)

Hillshade (noon)

Hillshade (3pm)

2596

51

3

221

232

148

…

…

z

The traditional approach to similarity search: kNN query Q = ( 1, 1, 1, 1, 1, 1, 1, 1, 1, 1) ID

d1

d2

d3

d4

d5

d6

d7

d8

d9

d10

Dist

P1

1.1

1

1.2

1.6

1.1

1.6

1.2

1.2

1

1

0.93

P2

1.4

1.4

1.4

1.5

1.4

1

1.2

1.2

1

1

0.98

P3

1

1

1

1

1

1

2

1

2

2

1.73

P4

20

20

21

20

22

20

20

19

20

20

57.7

P5

19

21

20

20

20

21

18

20

22

20

60.5

P6

21

21

18

19

20

19

21

20

20

20

59.8

Deficiencies of the Traditional Approach z

z

Deficiencies z

Distance is affected by a few dimensions with high dissimilarity

z

Partial similarities can not be discovered

The traditional approach to similarity search: kNN query Q = ( 1, 1, 1, 1, 1, 1, 1, 1, 1, 1)

ID

d1

d2

d3

d4

d5

d6

d7

d8

d9

d10

Dist

P1

1.1

1 100

1.2

1.6

1.1

1.6

1.2

1.2

1

1

0.93 99.0

P2

1.4

1.4

1.4

1.5

1.4

1 100

1.2

1.2

1

1

99.0 0.98

P3

1

1

1

1

1

1

2

1 100

2

2

1.73 99.0

P4

20

20

21

20

22

20

20

19

20

20

57.7

P5

19

21

20

20

20

21

18

20

22

20

60.5

P6

21

21

18

19

20

19

21

20

20

20

59.8

Thoughts z

z

z

Aggregating too many dimensional differences into a single value result in too much information loss. Can we try to reduce that loss? While high dimensional data typically give us problem when in come to similarity search, can we turn what is against us into advantage? Our approach: Since we have so many dimensions, we can compute more complex statistics over these dimensions to overcome some of the “noise” introduce due to scaling of dimensions, outliers etc.

The N-Match Query : Warm-Up

Similarity Search: A Matching Based Approach

Similarity Search: A Matching Based Approach

Suggest Documents

A Partition-Based Approach to Structure Similarity Search - Google Sites

A Partition-Based Approach to Structure Similarity Search - Google Sites

a Propensity Score Matching Approach - AgEcon Search

Index-Based Approach to Similarity Search in Protein and Nucleotide ...

Matching Similarity for Keyword-Based Clustering

Similarity-based matching meets Malware Diversity

A Similarity-Based Prognostics Approach for

A Similarity-based Approach to Attribute Selection

Evaluation of a Similarity-based Approach to

A Sequence-based Ontology Matching Approach

SIMILARITY SEARCH The Metric Space Approach - Cnr

Active network alignment: a matching-based approach

Similarity-based versus Template Matching-based Methodologies for

A Cluster-Based Approach to Improve Similarity-Based Retrieval for ...

A Sequence Similarity Search Algorithm Based on a ... - CiteSeerX

Drug Similarity Search Based on Combined ... - ScienceCentral

Accelerating subsequence similarity search based ... - Semantic Scholar

web search engine based semantic similarity

Similarity Based Approach for Comparing Home Healthcare ...

Semantic Similarity Based Approach for Reducing

A Similarity Search Over The Cloud Based On Image ...

Similarity-based search for model checking: a pilot ... - Research Online

BSSF: a fingerprint based ultrafast binding site similarity search and ...

FLASHFLOOD: A 3D Field-based similarity search and ... - Springer Link