Advanced Machine Learning - Google Sites

2 downloads 212 Views 939KB Size Report
Page 1. Advanced Machine Learning. CSCI 6365. Spring 2017. Lecture 3. Claire Monteleoni. Computer Science. George Washin
 

Advanced  Machine  Learning   CSCI  6365   Spring  2017   Lecture  3    

  Claire  Monteleoni   Computer  Science   George  Washington  University    

 

Today   k-­‐means  clustering  (conEnued)   •  Issues  with  iniEalizaEon  of  Lloyd’s  algorithm  (“k-­‐means   algorithm”)     •  k-­‐means++  algorithm   •  k-­‐means#  algorithm   k-­‐medoid  clustering               With  much  credit  to  Sanjoy  Dasgupta.  

k-­‐means  clustering  objecEve   Clustering  algorithms  can  be  hard  to  evaluate  without  prior   informaEon  or  assumpEons  on  the  data.     With  no  assumpEons  on  the  data,  one  evaluaEon  technique  is  w.r.t.   some  objecEve  funcEon.     A  widely-­‐cited  and  studied  objecEve  is  the  k-­‐means  clustering   objecEve:    Given  set,    X  ⊂  Rd,  choose  C  ⊂  Rd,  |C|  =  k,  to  minimize:    

C

=

X

x2X

min kx c2C

ck2

Data:  

AZer  first  iteraEon  of  Lloyd’s  algorithm:  

AZer  second  iteraEon  of  Lloyd’s  algorithm:  

k-­‐means  approximaEon   OpEmizing  k-­‐means  is  NP-­‐hard,  even  for  k=2.                                                                   [Dasgupta  ‘08;  Deshpande  &  Popat  ‘08].      

  Very  few  algorithms  approximate  the  k-­‐means  objecEve.   DefiniEon:  b-­‐approximaEon:   C b · OP T

DefiniEon:  Bi-­‐criteria  (a,b)-­‐approximaEon  guarantee:    a⋅k  centers,                            b-­‐approximaEon.   Even  “the  k-­‐means  algorithm”  [Lloyd  1957]  does  not  have  an   approximaEon  guarantee.  Can  suffer  from  bad  iniEalizaEon.  

   

k-­‐means++   [Arthur  &  Vassilvitskii,  SODA  2007]   Algorithm:   Choose first center c1 uniformly at random from X, and let C = {c1}. Repeat (k-1) times: Choose next center ci = x’∈X with prob. C ← C ∪ {ci}                                                                                                      where        

      Theorem  (Arthur  &  Vassilvitskii  ’07):    Returns  an  O(log  k)-­‐   approximaEon,  in  expectaEon.  

k-­‐means#  

[Ailon,  Jaiswal,  and  Monteleoni,  NIPS  2009]   Idea:    k-­‐means++  returns  k  centers,  with  O(log  k)-­‐approximaEon.    Can  we   design  a  variant  that  returns  O(k  log  k)  centers,  but  constant  approximaEon?     Algorithm: Initialize C={}. Choose 3⋅log(k) centers independently and uniformly at random from X, and add them to C. Repeat (k-1) times: Choose 3⋅log(k) centers indep. with prob. and add them to C.

k-­‐means#  proof  idea   X  

The  clustering  (parEEon)  induced  by  OPT.  

k-­‐means#  proof  idea   X  

The  clustering  (parEEon)  induced  by  OPT.  

k-­‐means#  proof  idea   X  

The  clustering  (parEEon)  induced  by  OPT.  

k-­‐means#  proof  idea   X  

The  clustering  (parEEon)  induced  by  OPT.  

k-­‐means#  proof  idea   X  

The  clustering  (parEEon)  induced  by  OPT.   →  We  cover  the  k  clusters  in  OPT,  aZer  choosing  O(k  log  k)  centers.  

k-­‐means#   Theorem:    With  probability  at  least  1/4,  k-­‐means#  yields  an  O(1)-­‐   approximaEon,  on  O(k  log  k)  centers.  

  Proof  outline:    DefiniEon  “covered”:  cluster  A  ∈  OPT  is  covered  if:                  ,  where              .         Define  {Xc,  Xu}:  the  parEEon  of  X  into  covered,  uncovered.   •  In  first  round  we  cover  one  cluster  in  OPT.       •  In  any  later  round,  either:    Case  1:    :    We  are  done.  (Reached  64-­‐approx.)    Case  2  :                                                            :    We  are  likely  to  hit  and  cover                    another  uncovered  cluster  in  OPT.     We  show  k-­‐means#  is  a  (3⋅log(k),  64)-­‐approximaEon  to  k-­‐means.  

k-­‐means#   Theorem:    With  probability  at  least  1/4,  k-­‐means#  yields  an  O(1)-­‐ approximaEon,  on  O(k  log  k)  centers.   Corollary:  With  probability  at  least  1-­‐1/n,  running  k-­‐means#  for  

3⋅log  n  independent  runs  yields  an  O(1)-­‐approximaEon  (on  O(k  log  k)   centers).     Proof:    Call  it  repeatedly,  3⋅log  n  Emes,  independently,  and  choose  the   clustering  that  yields  the  minimum  cost.    Corollary  follows,  since                                                                          .                    

k-­‐means#  proof   Fix  any  point  x  chosen  in  the  first  step.    Define  A  as  the  unique  cluster  in  OPT,   s.t.  x  ∈  A.       Lemma  (AV  ‘07):  Fix  A  ∈  OPT,  and  let  C  be  the  1-­‐clustering  with  the  center   chosen  uniformly  at  random  from  A.    Then              .     Corollary:                    .    Pf.    Apply  Markov’s  inequality.       AZer  3⋅log(k)  random  points,  probability  of  hiung  a  cluster  A  with  a  point   that  is  good  for  A  is  at  least  (1-­‐1/k).         So  aZer  first  step,  w.p.  at  least  (1-­‐1/k),  at  least  1 cluster  is  covered.  

k-­‐means#  proof   Case  1:            :        Since  X=  Xc  ∪  Xu  and  by  definiEon  of  ϕ,          by  definiEon  of  Case  1, and  definiEon  of  covered.            Last  inequality  is  by  Xc  ⊆X,  and  definiEon  of  ϕ.  

k-­‐means#  proof  

Case  2:            :   The  probability  of  picking  a  point  in  Xu  at  the  next  round  is:       Lemma  (AV  ‘07):    Fix  A  ∈  OPT,  and  let  C  be  any  clustering.    If  we  add   a  center  to  C,  sampled  randomly  from  the  D2  weighEng  over  A,   yielding  C’  then:              .       Corollary:                    .                                                                                                           So,  w.p.                                        we  pick  a  point  in  Xu  that  covers  a  new  cluster  in   OPT.   AZer  3⋅log(k)  picks,  prob.  of  covering  a  new  cluster  is  at  least  (1-­‐1/k)  

k-­‐means#  proof  summary   For  the  first  round,  prob.  of  covering  a  cluster  in  OPT  is  at  least  (1-­‐1/k).       For  the  k-­‐1  remaining  rounds,  either  Case  1  holds,  and  we  have  achieved   a  64-­‐approximaEon,  or  Case  2  holds,  and  the  probability  of  covering  a   new  cluster  in  OPT,  in  the  next  round,  is  at  least  (1-­‐1/k).     So  the  probability  that  aZer  k  rounds  there  exists  an  uncovered  cluster   in  OPT  is              .     Thus  the  algorithm  achieves  a  64-­‐approximaEon  on  3k⋅log(k)  centers,   with  probability  at  least  1/4.         Corollary:    RepeaEng  it  3⋅log(n)  Emes  yields  probability  (1-­‐1/n).  

k-­‐means  open  problems   [Dasgupta  2008]  

k-­‐medoid  (k-­‐median)  clustering   Given  a  metric  space  (X   , ⇢)        ,  

Integer  program  (IP)  for  k-­‐medoid  

where:  

Linear  programming  (LP)  relaxaEon   [Lin  and  Viwer,  1992]  

StarEng  with  the  IP,  relax  constraints  from:                to:       This  is  the  standard  LP  relaxaEon.     • 

The  tricky/interesEng/customized  part  is  “rounding”  an  LP   soluEon  to  an  integer  soluEon.  

Linear  program  (LP)  relaxaEon  

where:  

Suggest Documents