John Yen. School of Inform ation Sciences and Technology. The Pennsylvania State University. University Park, PA 16802. U.S.A. [email protected]. ABSTRACT.
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
Relevant Data Expansion for Learning Concept Drift from Sparsely Labeled Data
$ ) ) + - ,
! " #" $ % & '
1
() * $ , $ - , + . +% /0 ! -$% &
)
ABSTRACT
!
"
#
!"
%$!" &
'!
(
(
' % !"
2
3
.
,
'
.
#& !($
%
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
" 4# -5 #"
'
)
6 6
,
'
,
)
), )
'
'
.
)
,
)
,
'
)
)
) )
)
,
)
'
,
) ) 1
,
'
7
)
)
8
) , )
,
,
' ,
) ' '
,
)
,
6 )' ,
'
)
' ,
'
: 0;
8
)
' 7
'
'
.
),
)
7
)
'
)
,
'
) 7
) '
) )
' '
'
'
.
)
)
' .
. )
)
)
7
)
) )
> ? $
>
> ? $.
# '
)
8
'
) ,
)
.
'
8
'
9
'
:! ;:! ;:!!;:!
'
,
)
?
%4" "G %?G#4
)
)
K$
7
) )
'
.
.
)
6
) )
'
%
& ,
,
)
E
)
,
,
)
) )D
)
.
,
,
)
)
' 3
%
)
,
)
'
sim( d i , d j ) = cos θ ( d i , d j ) =
4
,
) ,
) )
#
)
) )
)
: ;
%
)
)
%
)
tf j
% ,
) 8
,
)
'
,
) ,
.
8
G, ) 8
=
'
.
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
,
8
Qt = {( t1 , w1 ), (t 2 , w2 ),
?
'
)
Q t +1 = {( t1 , w1′ ), ( t 2 , w 2′ ),
)
) , ( t n , w n′ )}
)
)
,
n pos
'
% )
1 n neg
pos
,
D E
di neg
.
)
γ
)
. ) 4
)
)
)
8
' ,
) 4
'
,
K
4
) 4
)
)
L
) )
. )
)
)
,
.
)
)
E
)
'
)
'
%
)
6
)
)
' K
6
D ) )
'
)
)
n pos = nneg = 1
6
8 '
)
'
)
,
)
.
,
) :!
,
,
E
.
' )
@
'
'
) * )
+ DE
)
7 ) * ) )
+ DE
:! ;:!!;: !;
)
@ '
0
DE
' ,
1
)
6 )
)
1
) )
L
,
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
Window-based Algorithm ( d, fb : a relevance feedback document) Initialization: S = ∅ , a list of relevance feedback documents in order of arrival. C = null, target concept. P = ∅ , a list of prediction results for performance monitoring. On observing a feedback document d with relevance value fb: Concatenate d at the end of S. If ( C ≠ n u ll ) Let p = 1 if Prediction(d) equals fb (i.e., correctly predict the relevance of d) or let p = 0 otherwise. Concatenate p at the end of P. Target Concept Learning: n = GetWindowSize(P). DLIST = Get the most recent n documents from S. C = LearnTargetConcept(DLIST). >
) ' . )
!
6'
@
8
'
'
) )) )
)
, )
>
)
,
,
6 .
)
) )
)
)
)
'
) )
6'
'
@
) 7
)
)
7
,
) ) "
)'
7 D2""E )
7
!
.
.
'
)
DE
,
) ) ) 4
)
)
64
) )
)
. 8
? $
)
'
'
)
% '
)
) 8
:H;:0;: !;. ,
)
) 8
.
> ? $ )
+ , .
)
) )
)
)
)
'
)
,
'
. '
'
7 )
.
'
' )
#
1
L '
'
)
,
,
,
)
) ,
)
)
, '
' '
. ) )
!
)
'
, '
, ) ,
)
, xn } '
.
,
$
'
'
'
LR ⊆ L )
'
S = {x1 ,
,
1
)
,
L∩U =φ
) )
,
?
S = L∪U
) ) )
'
'
8 ,
.
)
'
,
' )
LR
'
.
7
.
)
'
7
) 7
) x i ∈L R .
,
Ui ⊆ U ' )
) )
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
A stream of labeled and unlabeled data Stream-S
Stream-L
Concept Formation System (CFS)
Concept Drift Tracker (CDT)
Concept Hierarchy
>
′
' )
) xi L
xj ∈ Ui
' )
D
)
S' = {xi ∪ U i | xi ∈ L R }
) )
> ? $
,
)
LR
'
8
'
D
E )
,
, '
'
'
.> ? $
)
) '
'
)
E )
)
7
)
'
, . )
'
Existing Concept Drift Learner
Stream-S′
)
)
)
/!
%
>
)
)
> ? $
. D!E
)
D5>$E )
3 D E
D E
%
)
) )
).
)
)
) '
@
) )
)
) )
)
D5 )
E )
) . )
, ,
) ) '
' 7
.
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
Input: a stream of documents Stream-S. Initialization: Stream-L = ∅ , the sequence of labeled instances. H = ∅, the concept hierarchy. Incremental Learning: For each instance x observed from the stream Stream-S Apply the CFS system to incorporate x into H incrementally. If the label q of instance x is available, Concatenate (x, q) at the end of Stream-L. Target Concept Induction (only when needed): Apply the CDT component to identify a new expanded set S ′ based on the current values of Stream-L and H and then generate a new stream Stream-S′′ arranged by the arrival time of data in S ′ . Apply a selected (conventional) concept drift learner to relearn Stream-S′′.
>
S′
'
=
)
) .
> ? $L
'
' , .
)
)
7
,
S′
′' ,
%D
$
)
,
E
)
'
)
)
>
)
)
)
@
)
=
'
) 01!
"
3
2 ) )
E.
)
→
)
) > ? $
'
3D E
)
D
'
L
) @
MB .N. .
6
L
@
)
) 5
∈ .
> )
)
)
'
δ3
)
D!E ?
•
)
)
C∪
) ) ∈
)
G,
'
)3 ) . δD E
.
7 )
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
∈
ε3
•
→ 3
) '
)
)
∈ . )
) '
)
)
ε
) δ )
'
ε
) .δ
)
,
)
D
)
.
)
@
.
ε (δ ( x))
. )
)
)
)
)
)
E
)
D
)
)
.
,
.
. ,
)
7
8 )
E #,
'
.
) δ )
)
.
)
.
,
$
.
) 5
,
)
'
)
)
,
) ' ) )
'
7
) E #
E )
,
2.
)
'
.
) : /;
)
)
) )
)
)
,
) ) '
)
.
)
=
)
D
)'
)
) )
)
) )
)
'
)
) : H; >
)
)
) ) 6 ,
,
,
) )
6 2
)
) )
: /;D
) )
'
)
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
) ,
)
) ,
' )
)
K
.
@
,
4'
)
c t = a rg m ax
× →B . C
)
7
'
E)
?
ct ∈ H '
) ) ?
µ D)
µL
'
)
ε (c)
) '
,
,
)
'
)
)
,
)
)
)
)
6
µ
L
)
) )
)
)
.
)
,
)
, 6
µL
) )
D ,
µ
'
. , 6
µL
. ,
@
E ,
3
θk =
)
%
k = 0 .5 '
0 ≤ k ≤1
, 6
1 T
t ∈T
E
x ∈ ε (t ) .
'
E,
.
D
D 5E M
)
µ '
9µ
)
)
m ( x , t ')
) )
)
,
)
t '∈ T − { t } x ∈
) '
)
) , ) )
m ( x, t ) −
x∈
"
L )
) . ,
@
D
6
)'
) )
4' 3
'
.
)
)
ε (c)
c∈ H
3
)
)
∈
)
)
.
{
(
m ax µ t , µ t + k ⋅ µ t 's
.
) )
7
p a re n t
@
− µt
)
3
/
D !E
'
@ )
)} , 6
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
E µ p < θk
∀p ∈ c '
.
'E µc ≤ θ k ≤ µc ' s parent . )
L '
,
)
) )
)
)
6 ,
)
)
) δ
.
' , & 3
61 ,
D
.
)
5
4E
)
)
D , )
)
)
' ,
1
$ %
6 )
) )
) '
, $ 7 D
,
.
)
,
.
.
)
8
)
E
)
)
)
)
M D . E.D !. E.D . E.D . E.D =. E.D /. E.D H. E.D 0. E .
.
!
,
) .
)
$
. δD !EMδD /EM
M D !. E.D /. E .
D . E.D . E.D =. E )
1
'
. )
'
B !. /C.B . . =C. B . H. 0C ' )
,
) 0 ?
)
'
'6
.
M
M D . E.D H. E.D 0. E @ )
.
)
)
'
/
2D '
,
E
.
)
) 5
)
> )
M D .$ E. …. D .$ E '
D
) '
) E ?
E
'
)
'
.
D
7 )
E
'
8
$ .
)
' ,
H
)
) )
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
,
,
5 )
)
1
)
)
' 8
0.
/
.
/.
)
)
′ M D /. E . )
)
)
)
) ,
6.
/
/
)
8 ?
6
) )
. D . E.D 1. E E
′.
,
)
' , )
).
)
′
% '
)
8
'
)
,
'
,
) .
,
′
)
,
.
′
,
,
. )
, D
7>
'
8
,
)
,
/
)
,
'
'
′ M D . E. D 0. E
: ;5
8
8
)
) )
H
@
)
) )
)
)
' @
.
′ M D . E.D =. E
)
,
$ ,
,
)
'
1
.
)
)
'
!
,
,
)
'
8
6-
/
)
)
,
)
ε
. )
)
) L
,
,
) B !. /.
7
/
)
7
) @
)
@
:!=;.
.
)
@ )
,
.
)
8
?
('
"
'
)
D ) )
'
,
)
)
)
2,
E
) ,
Accuracyt = )
&" )
' )
)
) )
7
)
> ? $ )
) )
.
> ? $ ,
'
,
P × 100% n )
)
!
D
)
E
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
TABLE1 The description of tracking tasks and the evolution of target concepts over twenty-tracking-cycle periods. Tracking Cycles 1 − 20 Tracking Task 1
(Trade, +) & 9 others
Tracking Task 2
(Trade, +) (Coffee, +) & 8 others
Tracking Task 3
(Trade, +) (Coffee, +) (Crude, +) & 7 others
&
21 − 40
41 − 60
61 − 80
81 − 100
(Trade, −) (Coffee, +) & 8 others (Trade, −) (Coffee, +) (Crude, +) & 7 others (Trade, −) (Coffee, +) (Crude, +) (Sugar, +) & 6 others
(Coffee, −) (Crude, +) & 8 others (Coffee, −) (Crude, +) (Sugar, +) & 7 others (Coffee, −) (Crude, +) (Sugar, +) (Acq, +) & 6 others
(Crude, −) (Sugar, +) & 8 others (Crude, −) (Sugar, +) (Acq, +) & 7 others
(Sugar, −) (Acq, +) & 8 others
&
)
, '
)
.
,
,
)
'
.
,
D ,
' )
,
)
)
)
,
)
8
)
.
7
)
9
)
H=. !!. ! . !=
/
.
>
'
'
)
) ' ) , DQE
)
'
)
@
)
, 7
)
,
6
)
D
) . )
.
.! .
'
)
'
' )
7
.
)
,
'
,
, )
) !
,
. )
)
,
' )
,
,
,
E
>
)
,
)
/ >
.
′ D E
'
' > ? $3 D E K
64
) )
)
4
)
. )
'
)
7
) .D E
62"".
7 7
E
) )
) ,
) )
' ,
7
θM
7
βM
) . D!E 4
′ , '
)
)
. )
, ' D
.
> ? $
'
7
$
) 4
)
H=. ' M 0. β M )
: =;
!!
αM ,
) K 6
4
)
: =;.
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
)
64 =
)
) .
!=
,
,
) &,
,
.
)
)
=S
'
)
!
)
'
62""
,
)
'
) $
6
> ? $
E
SE
,
'
)
9)
7
)
) D
.
6
7 ,
.
)
) )
)
!= $
!
'
,
DE
(
) '
) 2"" '
> ? $
θ
)
> ? $ )
> ? $D
)
=S
'
)
/ H−
?
@ )
− .
7
=S6?
)
S )
)
=S S6?
'
.
,
' ,
'
. ) =6S? %
)
)
7 '
%
)
.
) )
S6?
) )
=S6?
)
,
)
'
)
, '
'
) ,
,
> ? $ %
7
)
. )
' '
7
)
S6? ) ) ) =S6?
. > ? $ )
!
) > ? $
'
,
)
) '
) =6S?
)
=S6? '
. 7
) )
S6
) > ? $
) =6S?
S6?
. )
, 6'
)
> ? $ )
) =6S?
)
) @
,
D=S6?
, E 7
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
100%-L
78
5%-L
100%-L
FEILDS (5%)
FEILDS (5%)
70 Average Accuracy (%)
Average Accuracy (%)
73 68 63 58 53
65 60 55 50 45
48
40
43
35 MTDR
>
Rocchio
Win-KNN
WinRocchio
MTDR
H +
>
100%-L
70
5%-L
FEILDS (5%)
Rocchio
Win-KNN
WinRocchio
0 +
!
80 75
65
70
60
Accuracy (%)
Average Accuracy (%)
5%-L
75
55 50
65 60 55 50 100%-L 5%-L FEILDS (5%)
45
45
40
40
35 MTDR
>
Rocchio
Win-KNN
WinRocchio
1
< +
>
21 41 Tracking Cycle
+
,
) K
4
)
)
> ? $ D=SE )
)
64 )
)
. )
' , >
,
) 7
7
)
)
′
) )
64
)
'
)
)
, )
, )
!
, , )
'
) K
4
)
, ,
9.
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
)
) , ,
' > ? $ ,
'
) "
. ) ' ), ) 8
)
D
)
)
)
' '
) )
)
)
)
)
) )
, '
% )
1
) '
)
,
,
θ
. &M = , .
'
)
,
> ? $
)
8 !E
=
) )
)
D!E )
'
'
'
)
)
7
7
,
D E ) 8
.
′
)
) )
,
,
)
,
) )
,
) '
)
)
) 8 E. ,
"
) )
)
)
)
L
,
θ θ0
, @
,
'
)
)
tf =
'
)
)
!
9
@
)> ? $
) 8
>
'
)
L
)
D
) 5
)
, ,
)
' ,
)
.
'
S6?
@
D
)
9
> ? $
.
E.
7
'
)
. '
)
)
. )
)
'
) 9
)
E)
) 8 ,
S6?
)
D
)
.
)
7
)
) '
7 )
!=
> )
)
'
θ0
.
) )
) . )
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
100
Noise
80
Coverage
70
80
Average Accuracy (%)
Noise or Coverage (%)
90 70 60 50 40 30 20
60 50 40 30 20
10
10
0
0.8
0.80 0.90 0.95 1.00 X 1.05 1.10 1.20 threshold factor (tf)
>
)
) 8
)
$L ,
)
>
.
,
) ) )
) @
′ ,
,
)
)
) ) ) L
)
,
, ,
)
)
)
)
1.1
) '
!/
4
1.2
)
.
) D
.
=E
%) )
)
)
) ) ,
)
) ,
)
) '
)
1.05
)
) )
)
'
)
, )
)
X
K )
D tf > 1.1 E
4
D tf > 1.1 E ,
) ,
)
) K
$
.
1.0
'
) )
0.95
7
,
!
!
' J
) )
0.9
threshold factor (tf)
)
)
>
>
Tracking Task 1 Tracking Task 2 Tracking Task 3
, )
)
) L
)
) )
,
TO APPEAR IN IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING
A -
) %
4
$5-$$ #" #> 4 ?%
'
,
: ;:=;: ;.
)
)
K
) )
'
?
)
6
)
) ' )
)
7
: ;. )
% '
)
, '
)
: !;. 5 6
4
'
) K
6
:H;
,
1
)
8
)
7
6' '
)) )
, '
G
, .
)
,
)
:0;
'
, . )
.
)
'
) '
$AK
: ;
:!H;
: ? $
) ,
, )
'
)
)
)
,
'
)
'
)
)
)
> ? $
3 D E ) 8
)
)
) )
'
)
,
)
)
7
,
'
'
'
,
,
)
D!E )
)
)
1
)
'
@ )
)
)
)
,
)
, '
)
,
)
)
6
)
)
( !H 6!H0
%
'1
REFERENCES :; % . ( D
. " (3 "
.+
3% .
6
)$ 0H6
3
7 ' %
% = 6! !3 % = %
? ' &. !0 6!0 0
!
!6
D E. " $ $
6=/
'
-
. + K D
. % D