CFS and RLF. If SOAP and CFS are compared, only in one dataset (labor) is the number of characteristics significantly greater than those selected by CFS.
Projection-based measure for efficient feature selection
! ! " # #
% !
& ' ()
$
#
#
{rruiz,riquelme,aguilar}@lsi.us.es *+
!
!
+ !
!+
+
+
#
!
+
/
+ !
$,
$ +
+ !
*+
!
*+
/ +
!
+
$ !
2 3 2 3+
#
!. ,
+ . & ' () #
!
!
+
! !! $
!
! !
!
6 789 +
!
5
!
*+
, , $.
!
$
4, +
! +
+
!
, +
$
+
!
+
!
$
$ ';
% ! @
+ 1 2 3. !+ !
4
$ !
+
0!
4 +
121
+
!
!
+
3 0!
$ !
+ , !
+
!+ +
,
,
$
$. !
+
#
!
+ +
#
! !
!
6 7:9 *+ +
+
! ! " # $ # # * . :? 6 /. >9H H 7 = ) ;9H L B , $+ , ++ 0! + / , !! + + ! .KH H L ,+ ! , + E ! # + , ! + # , + ! !+# + 0! *+ $ 0! + / # !+ + + ! / B + # , + , , ! + , ! + + / !+ # *+ !+ $+ + + 0! !+ .3 , + : 3 + = + >? , + )( B + , $ , ! !+ # - , ++ + # , + ! ! *+ , +,+ ! - , ,+!+ + + , + + + + !
+
! .C
! # ,+
B M7 + !
#
. !+ +
+ /9 *+ /
!
!
+ ∈F +
!! A + ! .C + # " + , + / !+ ! # *+ "MN 7 9 !! / !+ # $ + + / 1 794 ! (. 0! 0! + # + !
#
!
1
!
$+ E + 4. .F / A →
+ MB ×B)×⋅⋅⋅×B !
+
.F →
,+
! + , + 7 9O
/
F E , !
+ C- ,
$
1 7904 !
+
*+
;
+ !! $ ! !
$ + 0+
$ +
!
). 0!
+
!
!+
0! + / # $ , ! ! # P ! + !, ! *. ! / , + ! # ! *+ ! ,$ , ++ ! # ' *+ !
+
! !
0
! ,$ ! +# + , + !
+ ! + !
! + +
# + !
+ , + #
! ! + ,
+ 0! +
+, +
# $ 6 ' B + + ! !$ , + ! # , , + ,+!++ # , ! ! B + ! !+ + Q !+ 7;9 *+ + 21 4 # 2 ! $ , ! ! + !+ + + + 0! ! A + 6 ; ! ,+ + , , + # , + ! + # 1+ ! ! ! # 4 B + ! ! + , + + + , # E+ + ! ! ,+ + ! + # ! $ !+ 1 ! + H 4 *+ ,+!+ A F 1 !+ 4 A F , ! A F !! $ + , . A F MA F
!
$
+
6 C6 $ ) 2 3 + ! ! 1 + + ((; ! 4 B ! 1 $ + +! 4 + 2 3 )8 ?U + # 6 = +, + # ! $ 2 3 6 6 , + + * ) +, + ! , + '; ! + 1 4 + ! $ !+ ! !+ + + ! $ '; , + ! +$ !! !$ $ *+ +, +, !+ + ! $ 1 $ V4 , 1 $ W4 + ,+ ! 1! ) 84 *+ + , ! $ + ! ! $ + ;U # !! , F !+ ! + + ! # ! 6 2 3 ! ! # # + *+ 6 , + + # $ 6 $ + ,+!+ 2 3 6 , ! # ! $ + ,+ + ! $ 2 3 );U 6 1 !' ; , + 2 3 $ +> = > ? > 84 A # + + !! !$ ! . !?) = 1 6 4 ?()' , + 2 3 $ +?; =; ?) >' ?' 8> ?((; A
Data Set autos breast-c breast-w diabetes glass2 heart-c heart-stat hepatitis horse-c.OR. hypothyroid iris labor lymph sick sonar vote Average
!
Data Atts 25 9 9 8 9 13 13 19 27 29 4 16 18 29 60 16 19,0
+
!
SOAP Atts % 2,9 11,8 1,5 16,7 5,2 57,6 2,8 34,9 3,2 35,7 6,3 48,2 5,4 41,8 2,6 13,6 2,3 8,6 1,7 5,7 2,0 50,0 4,3 27,0 1,8 9,9 1,0 3,4 3,0 5,0 1,6 10,0 3,0 23,7
=
+
CFS Atts % 5,3 21,3 4,1 45,9 9,0 99,7 3,1 38,9 4,0 43,9 6,4 49,1 6,3 48,2 8,7 45,6 2,0 7,4 1,0 3,4 1,9 48,3 3,3 20,8 8,9 49,2 1,0 3,4 17,8 29,7 1,0 6,3 5,2 35,1
RLF Atts % 10,9 43,7 3,7 41,6 8,1 89,4 0,0 0,0 0,3 3,6 6,9 53,4 6,3 48,2 13,3 70,0 2,3 8,6 5,2 18,0 4,0 100,0 8,8 55,3 11,8 65,8 7,1 24,5 3,9 6,5 15,5 96,9 6,8 45,3
30 25 20
Data SOAP
15
CFS RLF
10 5 0 au bc bw di g2 hc hs he co hy &' 5
#
!
! !
#
Data Set autos breast-c breast-w diabetes glass2 heart-c heart-stat hepatitis horse-c.OR. hypothyroid iris labor lymph sick sonar vote Average
Original Ac. Size 82,54 63,32 74,37 12,34 95,01 24,96 74,64 42,06 78,71 24,00 76,83 43,87 78,11 34,58 78,97 17,06 66,30 1,00 99,54 27,84 94,27 8,18 80,70 6,93 77,36 28,05 98,66 49,02 74,28 27,98 96,53 10,64 82,93 26,36
B
! +
2
+ ! 4 2 3 +, * 8!
$
, + '; 1 M((;4
SOAP Ac. Size 73,37 45,84 70,24 6,61 94,64 21,28 74,14 7,78 78,96 14,88 77,06 34,02 80,67 19,50 80,19 5,62 66,30 1,00 95,02 4,30 94,40 8,12 78,25 3,76 72,84 7,34 93,88 1,00 70,05 7,00 95,63 3,00 80,98 11,94
la ly +
si so vo +
!
!! !$
+ ! ! + , + + / !
ir
CFS Ac. 74,54 72,90 95,02 74,36 79,82 77,16 80,63 81,68 66,30 96,64 94,13 80,35 75,95 96,32 74,38 95,63 82,24
VW RLF Size 55,66 18,94 24,68 14,68 14,06 29,35 23,84 8,68 1,00 5,90 7,98 6,44 20,32 5,00 28,18 3,00 16,73
+ ! + , + # $ + ! 2 3 - '((
(
! $
Ac. 74,15 70,42 95,02 65,10 53,50 79,60 82,33 80,45 66,28 93,52 94,40 80,00 74,66 93,88 70,19 96,53 79,38
!
Size 85,74 11,31 24,68 1,00 1,70 28,72 14,78 11,26 1,36 12,52 8,16 5,88 24,10 1,00 9,74 10,64 15,79
!+
E 1*+
# *+ !
!
: 2 3
,+
- >;8 ! C6 + 8 B + + + ! # + 6 ! # $ # $ $ + ! + ! X+$ +$ Y X !-Y , , 2 3 + 8 + ?; + 6
+
F# + + + + 6
6 +
*
!
Original Data Set Instances Att´s Classes t-ms autos 205 25 7 15 breast-c 286 9 2 4 breast-w 699 9 2 6 diabetes 768 8 2 6 glass2 163 9 2 2 heart-c 303 13 5 6 heart-stat 270 13 2 4 hepatitis 155 19 2 4 horse-c.OR. 368 27 2 16 hypothyroid 3772 29 4 180 iris 150 4 3 3 labor 57 16 2 1 lymph 148 18 4 3 sick 3772 29 2 120 sonar 208 60 2 21 vote 435 16 2 9 Sum 400 Data
CFS
RLF
t-ms t-ms 50 403 6 174 35 1670 39 1779 9 96 10 368 12 365 9 135 43 941 281 94991 3 44 3 21 7 109 252 93539 90 920 4 651 853 196206
SOAP
Nº Att
C4.5-Tam. t-ms/100
C4.5-Ac. 0
10 20 30 40 50 60
& ' 6 ",, #
70 80 90