beware of relatively large but meaningless improvements

0 downloads 0 Views 241KB Size Report
Typical practice in IR is to use the t-test, the Wilcoxon signed rank test and the sign ... can be used to compute a P-value (for a one-sided test); when the P-value is .... +2.19%. 0.6653. +5.08%*. 0.3530. +5.10%*. R. OB. UST04. 0.2681. +.26%.
TECHNICAL REPORT YL-2011-001

BEWARE OF RELATIVELY LARGE BUT MEANINGLESS IMPROVEMENTS Roi Blanco, Hugo Zaragoza Yahoo! Research Diagonal 177, Barcelona, Spain {roi,hugoz}@yahoo-inc.com

Bangalore • Barcelona • Haifa • Montreal • New York Santiago • Silicon Valley

Yahoo! Labs Technical Report No. YL-2011-001

Yahoo! Labs Technical Report No. YL-2011-001

BEWARE OF RELATIVELY LARGE BUT MEANINGLESS IMPROVEMENTS Roi Blanco, Hugo Zaragoza Yahoo! Research Diagonal 177, Barcelona, Spain {roi,hugoz}@yahoo-inc.com ABSTRACT: When we randomly perturb the scores produced by an ad-hoc retrieval model we observe performance improvements for several measures and collections with unexpectedly high probability. Many of these improvements are relatively large, and statistically significant using today’s standard information retrieval validation methodology. These results stress the need for a standard and reliable methodology suitable for IR experimentation and model comparison.

1

Yahoo! Labs Technical Report No. YL-2011-001 1.

Introduction

In information retrieval (IR) it is customary to invent new features in order to enhance document ranking. Typically, these features are incorporated into a retrieval model and performance is optimized over a collection at hand. The objective is to find an improvement over a baseline model, measured using standard metrics (such as mean average precision); since the retrieval problem is very hard, small relative improvements ( for i = 1 : n xi ← X endfor function baseline_scoring() Input: D =< d1 , ..., dn >, q Output: Dq for i = 1 : n si ← BASELIN E(di , q) endfor Dq ←< (d1 , s1 ), ..., (dn , sn ) > Dq ← SCORESORT (Dq , 5000) function perturbed_scoring() Input Dq , X, λ Output Dq n ← |Dq | for j = 1 : n s0j ← sj + λ · Xdj endfor Dq ←< (d1 , s01 ), ..., (dn , s0n ) > Dq ← SCORESORT (Dq )

function overfit_lambda()3 Input:D, X, Q Output: bestL bestP ← 0 bestL ← 0 for λ ∈ (λ1 , ..., λk ) (b, p) ← performance(D, X, λ, Q) if (p > bestP ) bestP ← p bestL ← λ end if end for function best_overfit() Input:D, Q, L = (λ1 , ..., λk ) Output: bestP bestP ← 0 for e = 1 : 200 X ←generate_perturbations(|D|) l ← overfit_lambda(D, X, Q) (b, p) ← performance(D, X, λ, Q) if (p > bestP ) bestP ← p end for

function best_crossval() Input:D, Q, L = (λ1 , ..., λk ) Output: bestP function performance() Q1 ← {q1 , ..., q|Q|/2 } Input D, X, λ, Q =< q1 , ..., qm > Q2 ← {q|Q|/2+1 , ..., d|Q| } Output b, p foreach q ∈ Q bestP ← 0 for e = 1 : 200 Dq ← baseline_scoring(D, q) X ← generate_perturbations(|D|) Dq0 ← perturbed_scoring(Dq , X, λ) l1 ← overfit_lambda(D, X, Q1 ) pq ← P ERF ORM AN CE(Dq ) p0q ← P ERF ORM AN CE(Dq0 ) l2 ← overfit_lambda(D, X, Q2 ) (b, p1 ) ←performance(D, X, l2 , Q1 ) endfor (b, p2 ) ←performance(D, X, l1 , Q2 ) b ← AV ERAGE(p1 ...pm ) p ← 12 (p1 + p2 ) p ← AV ERAGE(p01 ...p0m ) if (p > bestP ) bestP ← p end for Figure 2: Experiments Pseudo-code. SCORESORT returns the 5000 highest scoring documents sorted by decreasing score. BASELINE calls a baseline document scoring function, BM25 in our case. PERFORMANCE calls a standard IR retrieval performance function, in our case MAP, MRR and P@10 (we 10 assume that the necessary query-document judgments are available to the function).

MAP 0.3269 0.3396 0.3524 0.2568 0.2861 0.2880 0.2067 0.2563 0.2852 0.2296 0.2199 0.2681 0.2170 0.1683 0.2317

MAP 0.2903 0.2980 0.3056 0.2438 0.2736 0.2634 0.1808 0.2313 0.2507 0.1803 0.1800 0.2323 0.2170 0.1373 0.2341

Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6

Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6

11

Rand +25.52%* +14.23%* +16.64%* +20.53%* +8.26%* +8.87%* +17.78%* +17.39%* +17.82%* +14.45%* +8.57%* +6.94%* +7.36%* +25.44%* +16.62%*

Rand +9.23%* +7.20%* +12.79%* +8.43% +7.70%* +3.99%* +13.48%* +13.47%* +7.20% +12.48%* +5.08%* +4.39%* +7.36%* +20.29%* +19.58%* P10 0.5360 0.5510 0.5660 0.4633 0.5121 0.5060 0.4040 0.4300 0.4040 0.2396 0.2888 0.4012 0.4440 0.2240 0.4040

P10 0.6440 0.6650 0.6860 0.4857 0.5283 0.5369 0.4300 0.4560 0.4480 0.3080 0.3530 0.4466 0.4440 0.3220 0.3980 Rand +6.34%* +2.54% +3.53%* +8.81%* +3.55%* +1.46% +3.96%* +7.44%* +6.93%* +6.93%* +5.64%* +1.60%* +4.05% +15.18%* +2.97%*

Rand +5.90%* +3.61%* +2.62%* +9.68%* +5.36%* +4.24%* +6.05% +4.83% +8.93%* +9.09%* +5.10%* +1.70%* +5.41% +8.70%* +7.04%* MAP 0.3286 0.3401 0.3526 0.2813 0.3121 0.3072 0.1917 0.2505 0.3203 0.2181 0.1923 0.2454 0.2057 0.1501 0.2447

MAP 0.3485 0.3646 0.3873 0.2852 0.3110 0.3169 0.2110 0.2581 0.3219 0.2546 0.2410 0.2704 0.2184 0.1737 0.2352 Rand +.12% +.09% +.11% +.39% +.10%* +.10%* +1.1% +1.28% +.59% +2.57% +1.82% +.45% +.92% +.47% +1.39%

Rand +.06% +.11% +.18% +.25%* +.12% +.06%* +.85% +.74% +.56% +3.10%* +2.45% +.22% +.78% +4.03% +3.06%

Long Queries MRR Rand 0.8440 +9.09%* 0.8351 +4.92%* 0.8084 +6.24% 0.7069 +12.85%* 0.7747 +5.03% 0.7788 +4.46%* 0.6810 +18.05%* 0.6760 +10.71% 0.7243 +10.80%* 0.6457 +10.22%* 0.6330 +11.61%* 0.7029 +3.60% 0.6909 +11.43%* 0.5558 +14.00%* 0.6419 +12.20%* Short queries MRR Rand 0.6608 +24.76%* 0.7015 +14.19%* 0.7286 +7.14%* 0.7396 +7.13% 0.7705 +6.33%* 0.7630 +4.82% 0.5772 +17.76%* 0.6361 +14.04%* 0.7137 +9.57%* 0.5275 +10.18%* 0.5611 +7.70%* 0.6274 +7.33%* 0.6326 +13.31%* 0.4293 +17.31%* 0.5908 +16.17%

Table 4: Performance with the baseline model with default (left) and over-fitted (right) parameters and the perturbed model with best λ. See Section 2 for details.

Long Queries Rand MRR +.06% 0.8290 +.06% 0.8205 +.14% 0.8119 +.32% 0.6860 +.14% 0.7504 +.8% 0.7653 +.87% 0.6641 +.62% 0.6674 +1.44%* 0.7155 +2.70% 0.6409 +2.19% 0.6653 +.26% 0.6925 +1.00% 0.7010 +4.99% 0.5210 +2.42% 0.6023 Short queries Rand MRR +.21%* 0.6286 +.13% 0.6520 +.20% 0.6754 +.25%* 0.6226 +.15%* 0.6914 +.11% 0.6833 +1.11% 0.5771 +1.47% 0.5934 +1.48%* 0.6065 +2.00% 0.5002 +1.78% 0.5425 +.74% 0.6139 +1.01%* 0.7010 +5.10% 0.3805 +1.88% 0.6090 P10 0.6440 0.6270 0.6080 0.5367 0.5788 0.5705 0.4240 0.4240 0.4580 0.2729 0.2898 0.4124 0.4220 0.2420 0.3840

P10 0.7140 0.7130 0.7180 0.5408 0.5727 0.5893 0.4380 0.4520 0.4780 0.3280 0.3690 0.4494 0.4460 0.3280 0.3960 Rand +4.04%* +2.08%* +2.96%* +4.19%* +2.61%* +2.12% +1.89%* +10.38%* +4.80%* +11.47%* +6.70%* +1.19% +5.21% +6.61% +6.25%*

Rand +2.52% +2.24%* +1.67% +5.66%* +3.18%* +1.60% +5.03%* +6.20% +4.60% +7.93%* +4.07%* +1.16% +5.83% +7.32%* +4.55%

Yahoo! Labs Technical Report No. YL-2011-001

MAP 0.3269 0.3396 0.3524 0.2568 0.2861 0.2880 0.2067 0.2563 0.2852 0.2296 0.2199 0.2681 0.2170 0.1683 0.2317

MAP 0.2903 0.2980 0.3056 0.2438 0.2736 0.2634 0.1808 0.2313 0.2507 0.1803 0.1800 0.2323 0.2170 0.1373 0.2341

Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6

Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6

12

Rand +17.82%* +12.79%* +9.34% +17.28%* +9.69%* +6.59%* +12.82% +8.12% +14.39%* +12.72%* +7.48%* +5.07%* +5.24% +22.94%* +10.28%

Rand +4.62%* +4.46% +8.29%* +8.54% +5.41%* +4.06% +5.77% +8.97% +5.01% +9.38%* +2.57% +2.87% +5.65%* +14.70% +16.50%* P10 0.5360 0.5510 0.5660 0.4633 0.5121 0.5060 0.4040 0.4300 0.4040 0.2396 0.2888 0.4012 0.4440 0.2240 0.4040

P10 0.6440 0.6650 0.6860 0.4857 0.5283 0.5369 0.4300 0.4560 0.4480 0.3080 0.3530 0.4466 0.4440 0.3220 0.3980 Rand +5.97% +1.63% +2.83% +6.15%* +2.58% +2.39% +2.48% +6.98%* +4.95% +6.93%* +6.72%* +2.09% +3.60% +8.04%* +2.97%

Rand +9.32%* +2.11% +2.33%* +7.99%* +3.82%* +3.74%* +5.12% +3.51% +7.14%* +7.79% +3.68% +1.34%* +5.41%* +4.35%* +6.03%* MAP 0.3286 0.3401 0.3526 0.2813 0.3121 0.3072 0.1917 0.2505 0.3203 0.2181 0.1923 0.2454 0.2057 0.1501 0.2447

MAP 0.3485 0.3646 0.3873 0.2852 0.3110 0.3169 0.2110 0.2581 0.3219 0.2546 0.2410 0.2704 0.2184 0.1737 0.2352 Rand +.03% +.06% +.09% +.28% +.06% +.10%* +.73% +1.60% +.19% +.55% +.42% +.29% +.63%* +.60% +1.06%

Rand +.03% +.06% +.18% +.18% +.09%* +.03% +.52% +.93% +.56% +1.38% +1.37% +.11% +.28% +3.57% +1.28%

Long Queries MRR Rand 0.8440 +7.25%* 0.8351 +3.31% 0.8084 +4.82% 0.7069 +11.89%* 0.7747 +3.42% 0.7788 +3.93% 0.6810 +8.72% 0.6760 +8.31%* 0.7243 +6.41% 0.6457 +7.56% 0.6330 +8.97%* 0.7029 +3.46% 0.6909 +7.31%* 0.5558 +10.72% 0.6419 +15.56%* Short Queries MRR Rand 0.6608 +18.54%* 0.7015 +9.11%* 0.7286 +7.41% 0.7396 +9.53% 0.7705 +3.11%* 0.7630 +2.77% 0.5772 +17.16%* 0.6361 +12.12%* 0.7137 +6.38% 0.5275 +7.87%* 0.5611 +4.94% 0.6274 +5.55%* 0.6326 +10.28%* 0.4293 +6.29% 0.5908 +16.60%*

Table 5: Performance of the baseline model with default (left) and over-fitted (right) parameters and the perturbed model with λ chosen using 2-fold crossvalidation. See Section 3 for details.

Long Queries Rand MRR +.031% 0.8290 +.09%* 0.8205 +.11%* 0.8119 +.16% 0.6860 +.11% 0.7504 +.07% 0.7653 +.53% 0.6641 +.74% 0.6674 +1.54%* 0.7155 +1.39% 0.6409 +1.68% 0.6653 +.22% 0.6925 +.92% 0.7010 +4.22% 0.5210 +1.25% 0.6023 Short Queries Rand MRR +.17%* 0.6286 +.10% 0.6520 +.23% 0.6754 +.29%* 0.6226 +.15% 0.6914 +.08% 0.6833 +.39% 0.5771 +.78% 0.5934 +1.68%* 0.6065 +1.22% 0.5002 +1.00% 0.5425 +.52% 0.6139 +.92% 0.7010 +4.66% 0.3805 +1.67% 0.6090 P10 0.6440 0.6270 0.6080 0.5367 0.5788 0.5705 0.4240 0.4240 0.4580 0.2729 0.2898 0.4124 0.4220 0.2420 0.3840

P10 0.7140 0.7130 0.7180 0.5408 0.5727 0.5893 0.4380 0.4520 0.4780 0.3280 0.3690 0.4494 0.4460 0.3280 0.3960 Rand +2.79% +1.75%* +1.97% +3.43% +2.78% +2.23% +0% +8.49%* +2.62% +8.39%* +4.59% +.70% +5.21% +4.13% +6.25%*

Rand +1.40% +1.26%* +1.67%* +3.77% +2.48%* +1.36%* +3.65%* +5.31%* +2.09% +7.32% +2.98% +1.16% +3.59% +5.49%* +3.03%

Yahoo! Labs Technical Report No. YL-2011-001

13

Short queries W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 n n n n y y y y y y y y y y y y y y n n n y n n y y y y y y y y y y y y n n n n n n y y n n y y n y y y n y n n n n n n n n n n n n n y n n n n y y y y y y y y y y y y n y n n n n n y y y n n n n y y n n n n n n n y n n n n n n y y y y y y n y n n n n n n n n n n y y y y y y y y y y y y n n n n n n n y y y n n y y y y n y n n n n n n y y y y y y y y y y y y n n n n y n y y y y n n y y y y y y n n n n n n y y y y n n n n y y n y n n y y n n y y y y y y n n n y n n n n n n n n n y n y n y n n n n n n n n n n n n n n y y n n y y y y y y Long queries W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 n n n n n n y y y y y y n n n n n n n n n n n n y y y y n y y y y y y y n n n n n n n n n y n n n n y y n y y y y y n n y y y y n n y y y y y y n n n n n n n n n n n y y y y y y y y y y y y y y y y y y y n n n y n n n n n n n n y y y y y y y y y y y y n n n n n n n n n n n n n n y y y y n n n n n n y y y y n y n n n n n n n y n y n n n y y y n n n y n y y y y n n n y n y y y y y y n y n y n y n n n n n n n n n n n n n n n y n y n n n n y n y y y y n n n n n y n n n n n n n n y y n n y y y y y y y y n n n n n n y y y y n n n n n n n y

Table 6: Statistical Testing results of the random perturbation over the baseline with default (left) and over-fitted parameters (right). See Section 4 for details.

Short queries Collection W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 BLOGS06 n n n n n n y y y y n y n y y y y y BLOGS0607 n n n n n n y y y y y y y y y y y y BLOGS07 n n n n n n y y y y y y y y y y y y TERA04 n n n y n n n n n n n n y y y y y y TERA05 n n n n n n y y y y y y y y y y y y TERA06 n n n n n n y y y y n y n y y y y y TREC7 n n n n n n n y n y n n n n y y y y TREC8A n n n n n n n y n y n n n n n n n n TREC8B n y y y n y n n n n n n y y y y y y TREC9 n n n n n n y y y y n y y y y y y y WT10g n n n n n n y y y y n n y y y y y y ROBUST04 n n n n n n n y n y n n y y y y y y TREC4 n n n y n n y y y y n n n n n n n n TREC5 n n n n n n y y y y y y y y y y y y TREC6 n n n n n n y y y y n y y y y y y y Long queries Collection W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 BLOGS06 y y y y n n y y y y y y n y n y n n BLOGS0607 n n n y n n y y y y y y n n n n n y BLOGS07 n n n n n n y y y y y y y y n n y y TERA04 y y n y y y y y y y y y y y y y n y TERA05 n y n n n n y y y y y y n y n n n n TERA06 n n n n n n y y y y n n n n n y n n TREC7 n n n n n n y y y y y y y y n n n n TREC8A n n n n n n y y y y n y y y n y n y TREC8B n y y y n n y y y y n n n y y y n y TREC9 n n n n n n y y y y n n y y y y y y WT10g n n n n n n y y y y n n y y y y y y ROBUST04 n n n n n n y y y y n y y y y y y y TREC4 y y n y n n y y n y n n n n n n n n TREC5 n n n n n n y y y y y y n y n y n n TREC6 n n n n n n y y y y n y n y y y n y

Yahoo! Labs Technical Report No. YL-2011-001