Typical practice in IR is to use the t-test, the Wilcoxon signed rank test and the sign ... can be used to compute a P-value (for a one-sided test); when the P-value is .... +2.19%. 0.6653. +5.08%*. 0.3530. +5.10%*. R. OB. UST04. 0.2681. +.26%.
TECHNICAL REPORT YL-2011-001
BEWARE OF RELATIVELY LARGE BUT MEANINGLESS IMPROVEMENTS Roi Blanco, Hugo Zaragoza Yahoo! Research Diagonal 177, Barcelona, Spain {roi,hugoz}@yahoo-inc.com
Bangalore • Barcelona • Haifa • Montreal • New York Santiago • Silicon Valley
Yahoo! Labs Technical Report No. YL-2011-001
Yahoo! Labs Technical Report No. YL-2011-001
BEWARE OF RELATIVELY LARGE BUT MEANINGLESS IMPROVEMENTS Roi Blanco, Hugo Zaragoza Yahoo! Research Diagonal 177, Barcelona, Spain {roi,hugoz}@yahoo-inc.com ABSTRACT: When we randomly perturb the scores produced by an ad-hoc retrieval model we observe performance improvements for several measures and collections with unexpectedly high probability. Many of these improvements are relatively large, and statistically significant using today’s standard information retrieval validation methodology. These results stress the need for a standard and reliable methodology suitable for IR experimentation and model comparison.
1
Yahoo! Labs Technical Report No. YL-2011-001 1.
Introduction
In information retrieval (IR) it is customary to invent new features in order to enhance document ranking. Typically, these features are incorporated into a retrieval model and performance is optimized over a collection at hand. The objective is to find an improvement over a baseline model, measured using standard metrics (such as mean average precision); since the retrieval problem is very hard, small relative improvements ( for i = 1 : n xi ← X endfor function baseline_scoring() Input: D =< d1 , ..., dn >, q Output: Dq for i = 1 : n si ← BASELIN E(di , q) endfor Dq ←< (d1 , s1 ), ..., (dn , sn ) > Dq ← SCORESORT (Dq , 5000) function perturbed_scoring() Input Dq , X, λ Output Dq n ← |Dq | for j = 1 : n s0j ← sj + λ · Xdj endfor Dq ←< (d1 , s01 ), ..., (dn , s0n ) > Dq ← SCORESORT (Dq )
function overfit_lambda()3 Input:D, X, Q Output: bestL bestP ← 0 bestL ← 0 for λ ∈ (λ1 , ..., λk ) (b, p) ← performance(D, X, λ, Q) if (p > bestP ) bestP ← p bestL ← λ end if end for function best_overfit() Input:D, Q, L = (λ1 , ..., λk ) Output: bestP bestP ← 0 for e = 1 : 200 X ←generate_perturbations(|D|) l ← overfit_lambda(D, X, Q) (b, p) ← performance(D, X, λ, Q) if (p > bestP ) bestP ← p end for
function best_crossval() Input:D, Q, L = (λ1 , ..., λk ) Output: bestP function performance() Q1 ← {q1 , ..., q|Q|/2 } Input D, X, λ, Q =< q1 , ..., qm > Q2 ← {q|Q|/2+1 , ..., d|Q| } Output b, p foreach q ∈ Q bestP ← 0 for e = 1 : 200 Dq ← baseline_scoring(D, q) X ← generate_perturbations(|D|) Dq0 ← perturbed_scoring(Dq , X, λ) l1 ← overfit_lambda(D, X, Q1 ) pq ← P ERF ORM AN CE(Dq ) p0q ← P ERF ORM AN CE(Dq0 ) l2 ← overfit_lambda(D, X, Q2 ) (b, p1 ) ←performance(D, X, l2 , Q1 ) endfor (b, p2 ) ←performance(D, X, l1 , Q2 ) b ← AV ERAGE(p1 ...pm ) p ← 12 (p1 + p2 ) p ← AV ERAGE(p01 ...p0m ) if (p > bestP ) bestP ← p end for Figure 2: Experiments Pseudo-code. SCORESORT returns the 5000 highest scoring documents sorted by decreasing score. BASELINE calls a baseline document scoring function, BM25 in our case. PERFORMANCE calls a standard IR retrieval performance function, in our case MAP, MRR and P@10 (we 10 assume that the necessary query-document judgments are available to the function).
MAP 0.3269 0.3396 0.3524 0.2568 0.2861 0.2880 0.2067 0.2563 0.2852 0.2296 0.2199 0.2681 0.2170 0.1683 0.2317
MAP 0.2903 0.2980 0.3056 0.2438 0.2736 0.2634 0.1808 0.2313 0.2507 0.1803 0.1800 0.2323 0.2170 0.1373 0.2341
Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6
Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6
11
Rand +25.52%* +14.23%* +16.64%* +20.53%* +8.26%* +8.87%* +17.78%* +17.39%* +17.82%* +14.45%* +8.57%* +6.94%* +7.36%* +25.44%* +16.62%*
Rand +9.23%* +7.20%* +12.79%* +8.43% +7.70%* +3.99%* +13.48%* +13.47%* +7.20% +12.48%* +5.08%* +4.39%* +7.36%* +20.29%* +19.58%* P10 0.5360 0.5510 0.5660 0.4633 0.5121 0.5060 0.4040 0.4300 0.4040 0.2396 0.2888 0.4012 0.4440 0.2240 0.4040
P10 0.6440 0.6650 0.6860 0.4857 0.5283 0.5369 0.4300 0.4560 0.4480 0.3080 0.3530 0.4466 0.4440 0.3220 0.3980 Rand +6.34%* +2.54% +3.53%* +8.81%* +3.55%* +1.46% +3.96%* +7.44%* +6.93%* +6.93%* +5.64%* +1.60%* +4.05% +15.18%* +2.97%*
Rand +5.90%* +3.61%* +2.62%* +9.68%* +5.36%* +4.24%* +6.05% +4.83% +8.93%* +9.09%* +5.10%* +1.70%* +5.41% +8.70%* +7.04%* MAP 0.3286 0.3401 0.3526 0.2813 0.3121 0.3072 0.1917 0.2505 0.3203 0.2181 0.1923 0.2454 0.2057 0.1501 0.2447
MAP 0.3485 0.3646 0.3873 0.2852 0.3110 0.3169 0.2110 0.2581 0.3219 0.2546 0.2410 0.2704 0.2184 0.1737 0.2352 Rand +.12% +.09% +.11% +.39% +.10%* +.10%* +1.1% +1.28% +.59% +2.57% +1.82% +.45% +.92% +.47% +1.39%
Rand +.06% +.11% +.18% +.25%* +.12% +.06%* +.85% +.74% +.56% +3.10%* +2.45% +.22% +.78% +4.03% +3.06%
Long Queries MRR Rand 0.8440 +9.09%* 0.8351 +4.92%* 0.8084 +6.24% 0.7069 +12.85%* 0.7747 +5.03% 0.7788 +4.46%* 0.6810 +18.05%* 0.6760 +10.71% 0.7243 +10.80%* 0.6457 +10.22%* 0.6330 +11.61%* 0.7029 +3.60% 0.6909 +11.43%* 0.5558 +14.00%* 0.6419 +12.20%* Short queries MRR Rand 0.6608 +24.76%* 0.7015 +14.19%* 0.7286 +7.14%* 0.7396 +7.13% 0.7705 +6.33%* 0.7630 +4.82% 0.5772 +17.76%* 0.6361 +14.04%* 0.7137 +9.57%* 0.5275 +10.18%* 0.5611 +7.70%* 0.6274 +7.33%* 0.6326 +13.31%* 0.4293 +17.31%* 0.5908 +16.17%
Table 4: Performance with the baseline model with default (left) and over-fitted (right) parameters and the perturbed model with best λ. See Section 2 for details.
Long Queries Rand MRR +.06% 0.8290 +.06% 0.8205 +.14% 0.8119 +.32% 0.6860 +.14% 0.7504 +.8% 0.7653 +.87% 0.6641 +.62% 0.6674 +1.44%* 0.7155 +2.70% 0.6409 +2.19% 0.6653 +.26% 0.6925 +1.00% 0.7010 +4.99% 0.5210 +2.42% 0.6023 Short queries Rand MRR +.21%* 0.6286 +.13% 0.6520 +.20% 0.6754 +.25%* 0.6226 +.15%* 0.6914 +.11% 0.6833 +1.11% 0.5771 +1.47% 0.5934 +1.48%* 0.6065 +2.00% 0.5002 +1.78% 0.5425 +.74% 0.6139 +1.01%* 0.7010 +5.10% 0.3805 +1.88% 0.6090 P10 0.6440 0.6270 0.6080 0.5367 0.5788 0.5705 0.4240 0.4240 0.4580 0.2729 0.2898 0.4124 0.4220 0.2420 0.3840
P10 0.7140 0.7130 0.7180 0.5408 0.5727 0.5893 0.4380 0.4520 0.4780 0.3280 0.3690 0.4494 0.4460 0.3280 0.3960 Rand +4.04%* +2.08%* +2.96%* +4.19%* +2.61%* +2.12% +1.89%* +10.38%* +4.80%* +11.47%* +6.70%* +1.19% +5.21% +6.61% +6.25%*
Rand +2.52% +2.24%* +1.67% +5.66%* +3.18%* +1.60% +5.03%* +6.20% +4.60% +7.93%* +4.07%* +1.16% +5.83% +7.32%* +4.55%
Yahoo! Labs Technical Report No. YL-2011-001
MAP 0.3269 0.3396 0.3524 0.2568 0.2861 0.2880 0.2067 0.2563 0.2852 0.2296 0.2199 0.2681 0.2170 0.1683 0.2317
MAP 0.2903 0.2980 0.3056 0.2438 0.2736 0.2634 0.1808 0.2313 0.2507 0.1803 0.1800 0.2323 0.2170 0.1373 0.2341
Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6
Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6
12
Rand +17.82%* +12.79%* +9.34% +17.28%* +9.69%* +6.59%* +12.82% +8.12% +14.39%* +12.72%* +7.48%* +5.07%* +5.24% +22.94%* +10.28%
Rand +4.62%* +4.46% +8.29%* +8.54% +5.41%* +4.06% +5.77% +8.97% +5.01% +9.38%* +2.57% +2.87% +5.65%* +14.70% +16.50%* P10 0.5360 0.5510 0.5660 0.4633 0.5121 0.5060 0.4040 0.4300 0.4040 0.2396 0.2888 0.4012 0.4440 0.2240 0.4040
P10 0.6440 0.6650 0.6860 0.4857 0.5283 0.5369 0.4300 0.4560 0.4480 0.3080 0.3530 0.4466 0.4440 0.3220 0.3980 Rand +5.97% +1.63% +2.83% +6.15%* +2.58% +2.39% +2.48% +6.98%* +4.95% +6.93%* +6.72%* +2.09% +3.60% +8.04%* +2.97%
Rand +9.32%* +2.11% +2.33%* +7.99%* +3.82%* +3.74%* +5.12% +3.51% +7.14%* +7.79% +3.68% +1.34%* +5.41%* +4.35%* +6.03%* MAP 0.3286 0.3401 0.3526 0.2813 0.3121 0.3072 0.1917 0.2505 0.3203 0.2181 0.1923 0.2454 0.2057 0.1501 0.2447
MAP 0.3485 0.3646 0.3873 0.2852 0.3110 0.3169 0.2110 0.2581 0.3219 0.2546 0.2410 0.2704 0.2184 0.1737 0.2352 Rand +.03% +.06% +.09% +.28% +.06% +.10%* +.73% +1.60% +.19% +.55% +.42% +.29% +.63%* +.60% +1.06%
Rand +.03% +.06% +.18% +.18% +.09%* +.03% +.52% +.93% +.56% +1.38% +1.37% +.11% +.28% +3.57% +1.28%
Long Queries MRR Rand 0.8440 +7.25%* 0.8351 +3.31% 0.8084 +4.82% 0.7069 +11.89%* 0.7747 +3.42% 0.7788 +3.93% 0.6810 +8.72% 0.6760 +8.31%* 0.7243 +6.41% 0.6457 +7.56% 0.6330 +8.97%* 0.7029 +3.46% 0.6909 +7.31%* 0.5558 +10.72% 0.6419 +15.56%* Short Queries MRR Rand 0.6608 +18.54%* 0.7015 +9.11%* 0.7286 +7.41% 0.7396 +9.53% 0.7705 +3.11%* 0.7630 +2.77% 0.5772 +17.16%* 0.6361 +12.12%* 0.7137 +6.38% 0.5275 +7.87%* 0.5611 +4.94% 0.6274 +5.55%* 0.6326 +10.28%* 0.4293 +6.29% 0.5908 +16.60%*
Table 5: Performance of the baseline model with default (left) and over-fitted (right) parameters and the perturbed model with λ chosen using 2-fold crossvalidation. See Section 3 for details.
Long Queries Rand MRR +.031% 0.8290 +.09%* 0.8205 +.11%* 0.8119 +.16% 0.6860 +.11% 0.7504 +.07% 0.7653 +.53% 0.6641 +.74% 0.6674 +1.54%* 0.7155 +1.39% 0.6409 +1.68% 0.6653 +.22% 0.6925 +.92% 0.7010 +4.22% 0.5210 +1.25% 0.6023 Short Queries Rand MRR +.17%* 0.6286 +.10% 0.6520 +.23% 0.6754 +.29%* 0.6226 +.15% 0.6914 +.08% 0.6833 +.39% 0.5771 +.78% 0.5934 +1.68%* 0.6065 +1.22% 0.5002 +1.00% 0.5425 +.52% 0.6139 +.92% 0.7010 +4.66% 0.3805 +1.67% 0.6090 P10 0.6440 0.6270 0.6080 0.5367 0.5788 0.5705 0.4240 0.4240 0.4580 0.2729 0.2898 0.4124 0.4220 0.2420 0.3840
P10 0.7140 0.7130 0.7180 0.5408 0.5727 0.5893 0.4380 0.4520 0.4780 0.3280 0.3690 0.4494 0.4460 0.3280 0.3960 Rand +2.79% +1.75%* +1.97% +3.43% +2.78% +2.23% +0% +8.49%* +2.62% +8.39%* +4.59% +.70% +5.21% +4.13% +6.25%*
Rand +1.40% +1.26%* +1.67%* +3.77% +2.48%* +1.36%* +3.65%* +5.31%* +2.09% +7.32% +2.98% +1.16% +3.59% +5.49%* +3.03%
Yahoo! Labs Technical Report No. YL-2011-001
13
Short queries W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 n n n n y y y y y y y y y y y y y y n n n y n n y y y y y y y y y y y y n n n n n n y y n n y y n y y y n y n n n n n n n n n n n n n y n n n n y y y y y y y y y y y y n y n n n n n y y y n n n n y y n n n n n n n y n n n n n n y y y y y y n y n n n n n n n n n n y y y y y y y y y y y y n n n n n n n y y y n n y y y y n y n n n n n n y y y y y y y y y y y y n n n n y n y y y y n n y y y y y y n n n n n n y y y y n n n n y y n y n n y y n n y y y y y y n n n y n n n n n n n n n y n y n y n n n n n n n n n n n n n n y y n n y y y y y y Long queries W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 n n n n n n y y y y y y n n n n n n n n n n n n y y y y n y y y y y y y n n n n n n n n n y n n n n y y n y y y y y n n y y y y n n y y y y y y n n n n n n n n n n n y y y y y y y y y y y y y y y y y y y n n n y n n n n n n n n y y y y y y y y y y y y n n n n n n n n n n n n n n y y y y n n n n n n y y y y n y n n n n n n n y n y n n n y y y n n n y n y y y y n n n y n y y y y y y n y n y n y n n n n n n n n n n n n n n n y n y n n n n y n y y y y n n n n n y n n n n n n n n y y n n y y y y y y y y n n n n n n y y y y n n n n n n n y
Table 6: Statistical Testing results of the random perturbation over the baseline with default (left) and over-fitted parameters (right). See Section 4 for details.
Short queries Collection W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 BLOGS06 n n n n n n y y y y n y n y y y y y BLOGS0607 n n n n n n y y y y y y y y y y y y BLOGS07 n n n n n n y y y y y y y y y y y y TERA04 n n n y n n n n n n n n y y y y y y TERA05 n n n n n n y y y y y y y y y y y y TERA06 n n n n n n y y y y n y n y y y y y TREC7 n n n n n n n y n y n n n n y y y y TREC8A n n n n n n n y n y n n n n n n n n TREC8B n y y y n y n n n n n n y y y y y y TREC9 n n n n n n y y y y n y y y y y y y WT10g n n n n n n y y y y n n y y y y y y ROBUST04 n n n n n n n y n y n n y y y y y y TREC4 n n n y n n y y y y n n n n n n n n TREC5 n n n n n n y y y y y y y y y y y y TREC6 n n n n n n y y y y n y y y y y y y Long queries Collection W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 BLOGS06 y y y y n n y y y y y y n y n y n n BLOGS0607 n n n y n n y y y y y y n n n n n y BLOGS07 n n n n n n y y y y y y y y n n y y TERA04 y y n y y y y y y y y y y y y y n y TERA05 n y n n n n y y y y y y n y n n n n TERA06 n n n n n n y y y y n n n n n y n n TREC7 n n n n n n y y y y y y y y n n n n TREC8A n n n n n n y y y y n y y y n y n y TREC8B n y y y n n y y y y n n n y y y n y TREC9 n n n n n n y y y y n n y y y y y y WT10g n n n n n n y y y y n n y y y y y y ROBUST04 n n n n n n y y y y n y y y y y y y TREC4 y y n y n n y y n y n n n n n n n n TREC5 n n n n n n y y y y y y n y n y n n TREC6 n n n n n n y y y y n y n y y y n y
Yahoo! Labs Technical Report No. YL-2011-001