Relevant Data Expansion for Learning Concept Drift from ... - CiteSeerX

34 downloads 0 Views 299KB Size Report
John Yen. School of Inform ation Sciences and Technology. The Pennsylvania State University. University Park, PA 16802. U.S.A. [email protected]. ABSTRACT.
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

Relevant Data Expansion for Learning Concept Drift from Sparsely Labeled Data

$ ) ) + - ,

! " #" $ % & '

1

() * $ , $ - , + . +% /0 ! -$% &

)

ABSTRACT

!

"

#

!"

%$!" &

'!

(

(

' % !"

2

3

.

,

'

.

#& !($

%

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

" 4# -5 #"

'

)

6 6

,

'

,

)

), )

'

'

.

)

,

)

,

'

)

)

) )

)

,

)

'

,

) ) 1

,

'

7

)

)

8

) , )

,

,

' ,

) ' '

,

)

,

6 )' ,

'

)

' ,

'

: 0;

8

)

' 7

'

'

.

),

)

7

)

'

)

,

'

) 7

) '

) )

' '

'

'

.

)

)

' .

. )

)

)

7

)

) )

> ? $

>

> ? $.

# '

)

8

'

) ,

)

.

'

8

'

9

'

:! ;:! ;:!!;:!

'

,

)

?

%4" "G %?G#4

)

)

K$

7

) )

'

.

.

)

6

) )

'

%

& ,

,

)

E

)

,

,

)

) )D

)

.

,

,

)

)

' 3

%

)

,

)

'

sim( d i , d j ) = cos θ ( d i , d j ) =

4

,

) ,

) )

#

)

) )

)

: ;

%

)

)

%

)

tf j

% ,

) 8

,

)

'

,

) ,

.

8

G, ) 8

=

'

.

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

,

8

Qt = {( t1 , w1 ), (t 2 , w2 ),

?

'

)

Q t +1 = {( t1 , w1′ ), ( t 2 , w 2′ ),

)

) , ( t n , w n′ )}

)

)

,

n pos

'

% )

1 n neg

pos

,

D E

di neg

.

)

γ

)

. ) 4

)

)

)

8

' ,

) 4

'

,

K

4

) 4

)

)

L

) )

. )

)

)

,

.

)

)

E

)

'

)

'

%

)

6

)

)

' K

6

D ) )

'

)

)

n pos = nneg = 1

6

8 '

)

'

)

,

)

.

,

) :!

,

,

E

.

' )

@

'

'

) * )

+ DE

)

7 ) * ) )

+ DE

:! ;:!!;: !;

)

@ '

0

DE

' ,

1

)

6 )

)

1

) )

L

,

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

Window-based Algorithm ( d, fb : a relevance feedback document) Initialization: S = ∅ , a list of relevance feedback documents in order of arrival. C = null, target concept. P = ∅ , a list of prediction results for performance monitoring. On observing a feedback document d with relevance value fb: Concatenate d at the end of S. If ( C ≠ n u ll ) Let p = 1 if Prediction(d) equals fb (i.e., correctly predict the relevance of d) or let p = 0 otherwise. Concatenate p at the end of P. Target Concept Learning: n = GetWindowSize(P). DLIST = Get the most recent n documents from S. C = LearnTargetConcept(DLIST). >

) ' . )

!

6'

@

8

'

'

) )) )

)

, )

>

)

,

,

6 .

)

) )

)

)

)

'

) )

6'

'

@

) 7

)

)

7

,

) ) "

)'

7 D2""E )

7

!

.

.

'

)

DE

,

) ) ) 4

)

)

64

) )

)

. 8


? $

)

'

'

)

% '

)

) 8

:H;:0;: !;. ,

)

) 8

.

> ? $ )

+ , .

)

) )

)

)

)

'

)

,

'

. '

'

7 )

.

'

' )

#

1

L '

'

)

,

,

,

)

) ,

)

)

, '

' '

. ) )

!

)

'

, '

, ) ,

)

, xn } '

.

,

$

'

'

'

LR ⊆ L )

'

S = {x1 ,

,

1

)

,

L∩U =φ

) )

,

?

S = L∪U

) ) )

'

'

8 ,

.

)

'

,

' )

LR

'

.

7

.

)

'

7

) 7

) x i ∈L R .

,

Ui ⊆ U ' )

) )

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

A stream of labeled and unlabeled data Stream-S

Stream-L

Concept Formation System (CFS)

Concept Drift Tracker (CDT)

Concept Hierarchy

>



' )

) xi L

xj ∈ Ui

' )

D

)

S' = {xi ∪ U i | xi ∈ L R }

) )

> ? $

,

)

LR

'

8

'

D

E )

,

, '

'

'

.> ? $

)

) '

'

)

E )

)

7

)

'

, . )

'

Existing Concept Drift Learner

Stream-S′

)

)

)

/!

%

>

)

)

> ? $

. D!E

)

D5>$E )

3 D E

D E

%

)

) )

).

)

)

) '

@

) )

)

) )

)

D5 )

E )

) . )

, ,

) ) '

' 7

.

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

Input: a stream of documents Stream-S. Initialization: Stream-L = ∅ , the sequence of labeled instances. H = ∅, the concept hierarchy. Incremental Learning: For each instance x observed from the stream Stream-S Apply the CFS system to incorporate x into H incrementally. If the label q of instance x is available, Concatenate (x, q) at the end of Stream-L. Target Concept Induction (only when needed): Apply the CDT component to identify a new expanded set S ′ based on the current values of Stream-L and H and then generate a new stream Stream-S′′ arranged by the arrival time of data in S ′ . Apply a selected (conventional) concept drift learner to relearn Stream-S′′.

>

S′

'

=

)

) .

> ? $L

'

' , .

)

)

7

,

S′

′' ,

%D

$

)

,

E

)

'

)

)

>

)

)

)

@

)

=

'

) 01!

"

3

2 ) )

E.

)



)

) > ? $

'

3D E

)

D

'

L

) @

MB .N. .

6

L

@

)

) 5

∈ .

> )

)

)

'

δ3

)

D!E ?



)

)

C∪

) ) ∈

)

G,

'

)3 ) . δD E

.

7 )

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING



ε3



→ 3

) '

)

)

∈ . )

) '

)

)

ε

) δ )

'

ε

) .δ

)

,

)

D

)

.

)

@

.

ε (δ ( x))

. )

)

)

)

)

)

E

)

D

)

)

.

,

.

. ,

)

7

8 )

E #,

'

.

) δ )

)

.

)

.

,

$

.

) 5

,

)

'

)

)

,

) ' ) )

'

7

) E #

E )

,

2.

)

'

.

) : /;

)

)

) )

)

)

,

) ) '

)

.

)

=

)

D

)'

)

) )

)

) )

)

'

)

) : H; >

)

)

) ) 6 ,

,

,

) )

6 2

)

) )

: /;D

) )

'

)

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

) ,

)

) ,

' )

)

K

.

@

,

4'

)

c t = a rg m ax

× →B . C

)

7

'

E)

?

ct ∈ H '

) ) ?

µ D)

µL

'

)

ε (c)

) '

,

,

)

'

)

)

,

)

)

)

)

6

µ

L

)

) )

)

)

.

)

,

)

, 6

µL

) )

D ,

µ

'

. , 6

µL

. ,

@

E ,

3

θk =

)

%

k = 0 .5 '

0 ≤ k ≤1

, 6

1 T

t ∈T

E

x ∈ ε (t ) .

'

E,

.

D

D 5E M

)

µ '



)

)

m ( x , t ')

) )

)

,

)

t '∈ T − { t } x ∈

) '

)

) , ) )

m ( x, t ) −

x∈

"

L )

) . ,

@

D

6

)'

) )

4' 3

'

.

)

)

ε (c)

c∈ H

3

)

)



)

)

.

{

(

m ax µ t , µ t + k ⋅ µ t 's

.

) )

7

p a re n t

@

− µt

)

3

/

D !E

'

@ )

)} , 6

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

E µ p < θk

∀p ∈ c '

.

'E µc ≤ θ k ≤ µc ' s parent . )

L '

,

)

) )

)

)

6 ,

)

)

) δ

.

' , & 3

61 ,

D

.

)

5

4E

)

)

D , )

)

)

' ,

1

$ %

6 )

) )

) '

, $ 7 D

,

.

)

,

.

.

)

8

)

E

)

)

)

)

M D . E.D !. E.D . E.D . E.D =. E.D /. E.D H. E.D 0. E .

.

!

,

) .

)

$

. δD !EMδD /EM

M D !. E.D /. E .

D . E.D . E.D =. E )

1

'

. )

'

B !. /C.B . . =C. B . H. 0C ' )

,

) 0 ?

)

'

'6

.

M

M D . E.D H. E.D 0. E @ )

.

)

)

'

/

2D '

,

E

.

)

) 5

)

> )

M D .$ E. …. D .$ E '

D

) '

) E ?

E

'

)

'

.

D

7 )

E

'

8

$ .

)

' ,

H

)

) )

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

,

,

5 )

)

1

)

)

' 8

0.

/

.

/.

)

)

′ M D /. E . )

)

)

)

) ,

6.

/

/

)

8 ?

6

) )

. D . E.D 1. E E

′.

,

)

' , )

).

)



% '

)

8

'

)

,

'

,

) .

,



)

,

.



,

,

. )

, D

7>

'

8

,

)

,

/

)

,

'

'

′ M D . E. D 0. E

: ;5

8

8

)

) )

H

@

)

) )

)

)

' @

.

′ M D . E.D =. E

)

,

$ ,

,

)

'

1

.

)

)

'

!

,

,

)

'

8

6-

/

)

)

,

)

ε

. )

)

) L

,

,

) B !. /.

7

/

)

7

) @

)

@

:!=;.

.

)

@ )

,

.

)

8

?

('

"

'

)

D ) )

'

,

)

)

)

2,

E

) ,

Accuracyt = )

&" )

' )

)

) )

7

)

> ? $ )

) )

.

> ? $ ,

'

,

P × 100% n )

)

!

D

)

E

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

TABLE1 The description of tracking tasks and the evolution of target concepts over twenty-tracking-cycle periods. Tracking Cycles 1 − 20 Tracking Task 1

(Trade, +) & 9 others

Tracking Task 2

(Trade, +) (Coffee, +) & 8 others

Tracking Task 3

(Trade, +) (Coffee, +) (Crude, +) & 7 others

&

21 − 40

41 − 60

61 − 80

81 − 100

(Trade, −) (Coffee, +) & 8 others (Trade, −) (Coffee, +) (Crude, +) & 7 others (Trade, −) (Coffee, +) (Crude, +) (Sugar, +) & 6 others

(Coffee, −) (Crude, +) & 8 others (Coffee, −) (Crude, +) (Sugar, +) & 7 others (Coffee, −) (Crude, +) (Sugar, +) (Acq, +) & 6 others

(Crude, −) (Sugar, +) & 8 others (Crude, −) (Sugar, +) (Acq, +) & 7 others

(Sugar, −) (Acq, +) & 8 others

&

)

, '

)

.

,

,

)

'

.

,

D ,

' )

,

)

)

)

,

)

8

)

.

7

)

9

)

H=. !!. ! . !=

/

.

>

'

'

)

) ' ) , DQE

)

'

)

@

)

, 7

)

,

6

)

D

) . )

.

.! .

'

)

'

' )

7

.

)

,

'

,

, )

) !

,

. )

)

,

' )

,

,

,

E

>

)

,

)

/ >

.

′ D E

'

' > ? $3 D E K

64

) )

)

4

)

. )

'

)

7

) .D E

62"".

7 7

E

) )

) ,

) )

' ,

7

θM

7

βM

) . D!E 4

′ , '

)

)

. )

, ' D

.

> ? $

'

7

$

) 4

)

H=. ' M 0. β M )

: =;

!!

αM ,

) K 6

4

)

: =;.

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

)

64 =

)

) .

!=

,

,

) &,

,

.

)

)

=S

'

)

!

)

'

62""

,

)

'

) $

6

> ? $

E

SE

,

'

)

9)

7

)

) D

.

6

7 ,

.

)

) )

)

!= $

!

'

,

DE

(

) '

) 2"" '

> ? $

θ

)

> ? $ )

> ? $D

)

=S

'

)

/ H−
?

@ )

− .

7

=S6?

)

S )

)

=S S6?

'

.

,

' ,

'

. ) =6S? %

)

)

7 '

%

)

.

) )

S6?

) )

=S6?

)

,

)

'

)

, '

'

) ,

,

> ? $ %

7

)

. )

' '

7

)

S6? ) ) ) =S6?

. > ? $ )

!

) > ? $

'

,

)

) '

) =6S?

)

=S6? '

. 7

) )

S6

) > ? $

) =6S?

S6?

. )

, 6'

)

> ? $ )

) =6S?

)

) @

,

D=S6?

, E 7

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

100%-L

78

5%-L

100%-L

FEILDS (5%)

FEILDS (5%)

70 Average Accuracy (%)

Average Accuracy (%)

73 68 63 58 53

65 60 55 50 45

48

40

43

35 MTDR

>

Rocchio

Win-KNN

WinRocchio

MTDR

H +

>

100%-L

70

5%-L

FEILDS (5%)

Rocchio

Win-KNN

WinRocchio

0 +

!

80 75

65

70

60

Accuracy (%)

Average Accuracy (%)

5%-L

75

55 50

65 60 55 50 100%-L 5%-L FEILDS (5%)

45

45

40

40

35 MTDR

>

Rocchio

Win-KNN

WinRocchio

1

< +

>

21 41 Tracking Cycle

+

,

) K

4

)

)

> ? $ D=SE )

)

64 )

)

. )

' , >

,

) 7

7

)

)



) )

64

)

'

)

)

, )

, )

!

, , )

'

) K

4

)

, ,

9.

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

)

) , ,

' > ? $ ,

'

) "

. ) ' ), ) 8

)

D

)

)

)

' '

) )

)

)

)

)

) )

, '

% )

1

) '

)

,

,

θ

. &M = , .

'

)

,

> ? $

)

8 !E

=

) )

)

D!E )

'

'

'

)

)

7

7

,

D E ) 8

.



)

) )

,

,

)

,

) )

,

) '

)

)

) 8 E. ,

"

) )

)

)

)

L

,

θ θ0

, @

,

'

)

)

tf =

'

)

)

!

9

@

)> ? $

) 8

>

'

)

L

)

D

) 5

)

, ,

)

' ,

)

.

'

S6?

@

D

)

9

> ? $

.

E.

7

'

)

. '

)

)

. )

)

'

) 9

)

E)

) 8 ,

S6?

)

D

)

.

)

7

)

) '

7 )

!=

> )

)

'

θ0

.

) )

) . )

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

100

Noise

80

Coverage

70

80

Average Accuracy (%)

Noise or Coverage (%)

90 70 60 50 40 30 20

60 50 40 30 20

10

10

0

0.8

0.80 0.90 0.95 1.00 X 1.05 1.10 1.20 threshold factor (tf)

>

)

) 8

)

$L ,

)

>

.

,

) ) )

) @

′ ,

,

)

)

) ) ) L

)

,

, ,

)

)

)

)

1.1

) '

!/

4

1.2

)

.

) D

.

=E

%) )

)

)

) ) ,

)

) ,

)

) '

)

1.05

)

) )

)

'

)

, )

)

X

K )

D tf > 1.1 E

4

D tf > 1.1 E ,

) ,

)

) K

$

.

1.0

'

) )

0.95

7

,

!

!

' J

) )

0.9

threshold factor (tf)

)

)

>

>

Tracking Task 1 Tracking Task 2 Tracking Task 3

, )

)

) L

)

) )

,

TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING

A -

) %

4

$5-$$ #" #> 4 ?%

'

,

: ;:=;: ;.

)

)

K

) )

'

?

)

6

)

) ' )

)

7

: ;. )

% '

)

, '

)

: !;. 5 6

4

'

) K

6

:H;

,

1

)

8

)

7

6' '

)) )

, '

G

, .

)

,

)

:0;

'

, . )

.

)

'

) '

$AK

: ;

:!H;

: ? $

) ,

, )

'

)

)

)

,

'

)

'

)

)

)

> ? $

3 D E ) 8

)

)

) )

'

)

,

)

)

7

,

'

'

'

,

,

)

D!E )

)

)

1

)

'

@ )

)

)

)

,

)

, '

)

,

)

)

6

)

)

( !H 6!H0

%

'1

REFERENCES :; % . ( D

. " (3 "

.+

3% .

6

)$ 0H6


3

7 ' %

% = 6! !3 % = %

? ' &. !0 6!0 0

! !6
D E. " $ $

6=/

'

-

. + K D
. % D

Suggest Documents