Real-time reinforcement learning in continuous domains

2 downloads 28416 Views 179KB Size Report
In domains such as driving, there is rarely a known opti- ... itized sweeping for continuous domains. ... and taking the best known possible actions thereafter.
                                        !"#$%    

  &    '    ( '     )  %  * + &  ' (   ,  - (    

 (   (     + .%     ( /.01    ' )'2 ' (  

      ( '(' ,     2  /)1  ' + .     (  ' 3 ' ')     ( ,   2+ ) .0 ( '      )     2 ) ' (  4         + 5    '     ( .0  2  '     2 ) '     %  + 6 ) ' )    2  + 7  )    '    (  

  %            )'   ( '    3   2 +    ) ') ')   '      ' ) 2 ,  ( %2 ' ) '  %  - ) (      +       8'      ( ) ' )  '    '        /9 :1        ( /;2 ( < 9 !!1+ 5  '   '     '         +   '  ' (         )' '  ' (         )  + 7' ' ( 

     ) / 1 '      '      ' + 5  ' ' %     = ++ ' ' 22   /   1   ' (    2 ,  (       ') '      + & '   ( ' ( > 2*     ,  -          + &      ( '    (      2'  / 1     %   2 ' ,   (%    '  )' '    + 6       2  .0 2  ( '    ' + 8'

           ­       

?%    /  1  4   '    ' ,   (%    (          ( ' 2  )  2     '+ @               ,         ) 2  2    '      (  2+ @       ,   '    )  A /  1   /  1 B  /   1 )'      ) '  + &     ,    ( '  '  '     ) ( ) ' '  8 /72   !!1   )   ' '  '% 3 '  2 

  '     % ) ( 3   (     '   ) '    )    +    ' .0

   )  2        ) ' '        (  '    '           ) C  D   ,' 2  2 2' + 5   ' '   ( 

 2  '   2             '  *   '    '    '  ( (  ' ' + 8'    2'  ' ( ( 2   )+ 7      2   , ' ) ) (' )   (      '  + & '    2  '  '  )    ( '  ( + &  2 ') '  '  '  '   '   , +     '   %2  ( /   ' < 9 !!1 /  )  %2  -  (1 '   ' '  2  ( ( 2   ,   + 7  ,   ' ,            (  -    ( %  %     3+    %    '   ) -  (  ' 3              % 2  + @   %2  (  ' 3       )' '       (  '(' '  (  + &      ( ' ,     %   '  '  2  

 %  +  )'  )   ?%  )   ' % %  ' 2+ 0 

) (' (   '  2     ' ?%   +  )  )'   )   . /     )     1 2 + 5             )  (     )     )          ' ) )  ' 

 (          + 7      )    ) ,%   ' 2A  B   E /     1+ 5   ' ?%   2 

 (   % F  +    E G  E /      1/    1H /    1  ' (       ' ) ' % 2      , + 8'   3  )     ) ' ' 2  ,% + 8'          (  )     '   '('   ,   3+ 5       2  ( %+ 0  '   ('2  ' 2   (%  /( 1   )'   ' 2  ,+ &      %  2    ' 2   ,  2 2 + @   2      , )  2  '        3   + 7 2 ) '    ' ('%     ?%    '   )  F      Æ   ' ('+ &  %2 '    2 )   ) ' ' ('      2    ,  %         (   ' 2       A '        + 0 %      3  ' (' 

      '   + 7  2 ) '  '  % (    ) 2  2  ' 2  ,     ( 4    F   4(      + 8'   ( (     '     2 Æ  + 5 )       , 2 (     + 5 ' )  '   ( ' 2   , 2 + 7  )     %  2   (     )' 

  2   ) '   + 8'  %    ' 3   %( ( I )' )       )  ('2    ,+ 5 ' '   '   4 ' 2 2 '   ('2   )' '  ('2    2  4 )   2 2 ) ' '  + 8' ) , ' 2 ' ) ('  '   ) ,+ 8'     ' ,   2   )A   B    /   1E  /   1  /   1 





 



 

 



 



    ' )  / -2( !!1 )'   ( (   ' (  - %     '  (+ 5'     ( '    '  (  ) )    

 4     ' J)  (  + 9 %     '   ) '  (   

' ' ,   + & (  )    2 ' ' (' ?%        ' )  (       '   2%      +  (      ) 2   (  '    %( ( )' '   

  '       2  ?      +       7   %    (  '(' %    ' '     '     %    2   

 + ) )  )     (       2  %         '       2 ,      (+   (          (    '      ,   '      2  (    (     ' F       ' ( '      '  + 7 ,  ' (    '(' ,   '        % ( '     2    % ( 2   '   (  '     '        + & '   ' (  )  '  %          '       '     + 8'   '       4 % ( '       (     2+ 7  )  ,  '   '  ' ,   ' (    ('   ' + 8'   ' )  KL /  !!$1 )'  ' ,         ' (  %     '        '   2  2   (      ,    '     + &   %     2   '      2      22   +   (       '   %     3 + &    '    3   (  )   2 )    %  22    '   (  %

      2      / L1/    !!1+ & '   ) )  (         ' + @  ' )       ' %   / (1   '  ' ) ' (  %2 ( '  2 ' %2 (    )A   !"#$  %                       &     '       (    )     *     +      ,        ¼

¼

¼

¼

8'    F  '  ' ( '          )' '      +

      6     ' 2   (+ 8'  %2 .0 ' ' 2 2   (   ) ' ( (+ &      %2 ?% ( ( ' )  '    ,   ( ' ' 

  (  + &     ' F    ' ( (  )  '      ' (  ' (   '  + 5 ') '    '     ' ' %       ) '  0  ? .( 7 ( + 8'  )    ) 2 )' '     2   ' %    (     '  )   '   '      '  + 8'  %2 '   ) ('     % (   '     F  + 05. )  ('    + L' ) ( %     (   23  2 2    )'      (')+

Cart centering performance 0

-10

-20 Accumulated reward

6   2             %   + 8'  ) '  '  '

KL /  !!$1 )+ '    ' )  '   M     /  1  (      '  ,  ' )+ N

 ' 2 2    ( ' *  ) ' ' 3% '  /  1 2 ( 2   4+ 8'    '  '     3           '   ' ) '     2    '   + ) '   '  2  + 5  %    '  )'   )   ' ( ' ( '     + 8'   ' 2 ,       - ) ( /9 <  !!1+ & /  7   < : !!1 '  )     (  - 2 % ( ' ' ,   -  '   ) ,%  2 ' (    '    ? + &   ) )    ' M     ,   ' ' ' (' ' ( '  + 5  '  2   ( ' (    ' %      (    /'

'  2    2    ' 2 '  ' 2 )  '  2 ' (     2 F  2 ' ( '     1+ 8'  )   '       %(    '   '   ' 3 I ' ) ' ' ' (' ,  ' ( +   ( '  )  ,   (   2        (   '    '  )+   ' 2  ' 2  , )   (     '    - ) ( '   ( '  2     ) (  '  ('    ' (    ( ' )+ & '  (    '  ) ,   2' '     ' (    '        ,%          ( '   (   )' '    '   +

-30

-40

-50 Optimal Locally Weighted Regression Kernel regression Neural Net

-60 10

20

30

40

50 Trials

60

70

80

90

100

7 ( A                                

                      !        "!         "!            " #   !  $       







& '      ) ( ' )  2  '        (    2 (+ 5 )   '  ' '> 2     

2      (   '    ) (   ' ( (    ) (  ) ' '    8, *   %  /72   !!1+ 

 - . /-  0 # %11, 23  3               %   4  2- 5  5 -  !  6 %11, $        %%7%%8,& " 9- : - # 5-  :3 : %11,   ))   4     )      17 %&8 '' .) 9- ;3 /- 0 #-  # 5 %11, . )                 

Suggest Documents