Computer Science Division, University of California, Berkeley. 387 Soda Hall # 1776, Berkeley, CA 94720-1776 jforbes,dandre @cs.berkeley.edu. Introduction.
!"#$%
& ' ( ' ) % * + & ' ( ,- (
( ( + .% ( /.01 ' )'2 ' (
( '(' , 2 /)1 ' + . ( ' 3 ' ') ( , 2+ ) .0 (' ) 2 )' ( 4 + 5 ' ( .0 2 ' 2 )' % + 6 ) ' ) 2 + 7 ) ' (
% )' ( ' 3 2 + ) ') ') ' ' ) 2 , ( %2 ' )' % - ) ( + 8' ( ) ' ) ' ' /9 :1 ( /;2 ( < 9 !!1+ 5 ' ' ' + ' ' ( )' ' ' ( ) + 7' ' (
) / 1 ' ' ' + 5 ' ' % = ++ ' ' 22 / 1 ' ( 2 , ( ') ' + & ' ( ' ( > 2* ,- + & ( ' ( 2' / 1 % 2 ' , (% ' )' ' + 6 2 .0 2 ( ' ' + 8'
?% / 1 4 ' ' , (% ( ( ' 2 ) 2 '+ @ , ) 2 2 ' ( 2+ @ , ' ) A / 1 / 1 B / 1 )' )' + & , ( ' ' ' ) ( )' ' 8 /72 !!1 ) ' ' '% 3 ' 2
' % ) ( 3 ( ' )' ) + ' .0
) 2 )' ' ( ' ' ) C D ,'2 2 2'+ 5 ' ' (
2 ' 2 ' * ' ' ' ( ( ' ' + 8' 2' ' ( ( 2 )+ 7 2 , ' ) )(' ) ( ' + & ' 2 ' ' ) ( ' ( + & 2 ') ' ' ' ' ' , + ' %2 ( / ' < 9 !!1 / ) %2 - (1 ' ' ' 2 ( ( 2 , + 7 , ' , ( - ( % % 3+ % ' ) - ( ' 3 % 2 + @ %2 ( ' 3 )' ' ( '(' ' ( + & ( ' , % ' ' 2
% + )' ) ?% ) ' % % ' 2+ 0
)(' ( ' 2 ' ?% + ) )' ) . / ) 1 2 + 5 ) ( ) ) ' ) ) '
( + 7 ) ) ,% ' 2A B E / 1+ 5 ' ?% 2
( %F + E G E / 1/ 1H / 1 ' ( ' ) ' % 2 , + 8' 3 ) )' ' 2 ,% + 8' ( ) ' '(' , 3+ 5 2 ( %+ 0 ' ('2 ' 2 (% /( 1 )' ' 2 ,+ & % 2 ' 2 , 2 2 + @ 2 , ) 2 ' 3 + 7 2 )' '('% ?% ' ) F Æ '('+ & %2 ' 2 ) )' '(' 2 , % ( ' 2 A ' + 0 % 3 '('
' + 7 2 )' ' % ( ) 2 2 ' 2 , ( 4 F 4( + 8' ( ( ' 2 Æ + 5 ) , 2 ( + 5 ' ) ' ( ' 2 , 2 + 7 ) % 2 ( )'
2 )' + 8' % ' 3 %( ( I )' ) ) ('2 ,+ 5 ' ' ' 4 ' 2 2 ' ('2 )' ' ('2 2 4 ) 2 2 )' ' + 8' ) , ' 2 ' )(' ' ) ,+ 8' ' , 2 )A B / 1E / 1 / 1
' ) / -2( !!1 )' ( ( ' ( - % ' (+ 5' ( ' ' ( ) )
4 ' J) ( + 9 % ' )' (
' ' , + & ( ) 2 ' '(' ?% ' ) ( ' 2% + ( ) 2 ( ' %( ( )' '
' 2 ? + 7 % ( '(' % ' ' ' % 2
+ ) ) ) ( 2 % ' 2 , (+ ( ( ' , ' 2 ( ( ' F ' ( ' ' + 7 , ' ( '(' , ' % ( ' 2 % ( 2 ' ( ' ' + & ' ' ( ) ' % ' ' + 8' ' 4 % ( ' ( 2+ 7 ) , ' ' ' , ' ( (' ' + 8' ' ) KL / !!$1 )' ' , ' ( % ' ' 2 2 ( , ' + & % 2 ' 2 22+ ( ' % 3+ & ' 3 ( ) 2 ) % 22 ' ( %
2 / L1/ !!1+ & ' ) ) ( ' + @ ' ) ' % / (1 ' ' ) ' ( %2 (' 2 ' %2 ( )A !"#$ % & ' ( ) * + , ¼
¼
¼
¼
8' F ' ' ( ' )' ' +
6 ' 2 (+ 8' %2 .0 ' ' 2 2 ( )' ( (+ & %2 ?% ( (' ) ' , (' '
( + & ' F ' ( ( ) ' ' ( ' ( ' + 5 ') ' ' ' ' % )' 0 ? .( 7( + 8' ) ) 2 )' ' 2 ' % ( ' ) ' ' ' + 8' %2 ' )(' % ( ' F + 05. ) (' + L' ) ( % ( 23 2 2 )' (')+
Cart centering performance 0
-10
-20 Accumulated reward
6 2 % + 8' ) ' ' '
KL / !!$1 )+ ' ' ) ' M / 1 ( ' , ' )+ N
' 2 2 ( ' * )' ' 3% ' / 1 2 ( 2 4+ 8' ' ' 3 ' ' ) ' 2 ' + ) ' ' 2+ 5 % ' )' ) ' ( ' ( ' + 8' ' 2 , - ) ( /9 < !!1+ & / 7 < : !!1 ' ) ( - 2 % ( ' ' , - ' ) ,% 2 ' ( ' ? + & ) ) ' M , ' ' '(' ' ( ' + 5 ' 2 ( ' ( ' % ( /'
' 2 2 ' 2 ' ' 2 ) ' 2 ' ( 2 F 2 ' ( ' 1+ 8' ) ' %( ' ' ' 3 I ' )' ' '(' , ' ( + ( ' ) , ( 2 ( ' ' )+ ' 2 ' 2 , ) ( ' - ) ( ' ( ' 2 ) ( ' (' ' ( ( ' )+ & ' ( ' ) , 2' ' ' ( ' ,% (' ( )' ' ' +
-30
-40
-50 Optimal Locally Weighted Regression Kernel regression Neural Net
-60 10
20
30
40
50 Trials
60
70
80
90
100
7( A
! "! "! " # ! $
& ' ) (' ) 2 ' ( 2 (+ 5 ) ' ' '> 2
2 ( ' ) ( ' ( ( ) ( )' ' 8, * % /72 !!1+
- . /- 0 # %11, 23 3 % 4 2- 5 5 - ! 6 %11, $ %%7%%8,& " 9- : - # 5- :3 : %11, )) 4 ) 17%&8'' .) 9- ;3 /- 0 #- # 5 %11, . )