beware of relatively large but meaningless improvements

TECHNICAL REPORT YL-2011-001

BEWARE OF RELATIVELY LARGE BUT MEANINGLESS IMPROVEMENTS Roi Blanco, Hugo Zaragoza Yahoo! Research Diagonal 177, Barcelona, Spain {roi,hugoz}@yahoo-inc.com

Bangalore • Barcelona • Haifa • Montreal • New York Santiago • Silicon Valley

Yahoo! Labs Technical Report No. YL-2011-001


BEWARE OF RELATIVELY LARGE BUT MEANINGLESS IMPROVEMENTS Roi Blanco, Hugo Zaragoza Yahoo! Research Diagonal 177, Barcelona, Spain {roi,hugoz}@yahoo-inc.com ABSTRACT: When we randomly perturb the scores produced by an ad-hoc retrieval model we observe performance improvements for several measures and collections with unexpectedly high probability. Many of these improvements are relatively large, and statistically significant using today’s standard information retrieval validation methodology. These results stress the need for a standard and reliable methodology suitable for IR experimentation and model comparison.

1

Yahoo! Labs Technical Report No. YL-2011-001 1.

Introduction

In information retrieval (IR) it is customary to invent new features in order to enhance document ranking. Typically, these features are incorporated into a retrieval model and performance is optimized over a collection at hand. The objective is to find an improvement over a baseline model, measured using standard metrics (such as mean average precision); since the retrieval problem is very hard, small relative improvements ( for i = 1 : n xi ← X endfor function baseline_scoring() Input: D =< d1 , ..., dn >, q Output: Dq for i = 1 : n si ← BASELIN E(di , q) endfor Dq ←< (d1 , s1 ), ..., (dn , sn ) > Dq ← SCORESORT (Dq , 5000) function perturbed_scoring() Input Dq , X, λ Output Dq n ← |Dq | for j = 1 : n s0j ← sj + λ · Xdj endfor Dq ←< (d1 , s01 ), ..., (dn , s0n ) > Dq ← SCORESORT (Dq )

function overfit_lambda()3 Input:D, X, Q Output: bestL bestP ← 0 bestL ← 0 for λ ∈ (λ1 , ..., λk ) (b, p) ← performance(D, X, λ, Q) if (p > bestP ) bestP ← p bestL ← λ end if end for function best_overfit() Input:D, Q, L = (λ1 , ..., λk ) Output: bestP bestP ← 0 for e = 1 : 200 X ←generate_perturbations(|D|) l ← overfit_lambda(D, X, Q) (b, p) ← performance(D, X, λ, Q) if (p > bestP ) bestP ← p end for

function best_crossval() Input:D, Q, L = (λ1 , ..., λk ) Output: bestP function performance() Q1 ← {q1 , ..., q|Q|/2 } Input D, X, λ, Q =< q1 , ..., qm > Q2 ← {q|Q|/2+1 , ..., d|Q| } Output b, p foreach q ∈ Q bestP ← 0 for e = 1 : 200 Dq ← baseline_scoring(D, q) X ← generate_perturbations(|D|) Dq0 ← perturbed_scoring(Dq , X, λ) l1 ← overfit_lambda(D, X, Q1 ) pq ← P ERF ORM AN CE(Dq ) p0q ← P ERF ORM AN CE(Dq0 ) l2 ← overfit_lambda(D, X, Q2 ) (b, p1 ) ←performance(D, X, l2 , Q1 ) endfor (b, p2 ) ←performance(D, X, l1 , Q2 ) b ← AV ERAGE(p1 ...pm ) p ← 12 (p1 + p2 ) p ← AV ERAGE(p01 ...p0m ) if (p > bestP ) bestP ← p end for Figure 2: Experiments Pseudo-code. SCORESORT returns the 5000 highest scoring documents sorted by decreasing score. BASELINE calls a baseline document scoring function, BM25 in our case. PERFORMANCE calls a standard IR retrieval performance function, in our case MAP, MRR and P@10 (we 10 assume that the necessary query-document judgments are available to the function).

MAP 0.3269 0.3396 0.3524 0.2568 0.2861 0.2880 0.2067 0.2563 0.2852 0.2296 0.2199 0.2681 0.2170 0.1683 0.2317

MAP 0.2903 0.2980 0.3056 0.2438 0.2736 0.2634 0.1808 0.2313 0.2507 0.1803 0.1800 0.2323 0.2170 0.1373 0.2341

Collection BLOGS06 BLOGS0607 BLOGS07 TERA04 TERA05 TERA06 TREC7 TREC8A TREC8B TREC9 WT10g ROBUST04 TREC4 TREC5 TREC6


11

Rand +25.52%* +14.23%* +16.64%* +20.53%* +8.26%* +8.87%* +17.78%* +17.39%* +17.82%* +14.45%* +8.57%* +6.94%* +7.36%* +25.44%* +16.62%*

Rand +9.23%* +7.20%* +12.79%* +8.43% +7.70%* +3.99%* +13.48%* +13.47%* +7.20% +12.48%* +5.08%* +4.39%* +7.36%* +20.29%* +19.58%* P10 0.5360 0.5510 0.5660 0.4633 0.5121 0.5060 0.4040 0.4300 0.4040 0.2396 0.2888 0.4012 0.4440 0.2240 0.4040

P10 0.6440 0.6650 0.6860 0.4857 0.5283 0.5369 0.4300 0.4560 0.4480 0.3080 0.3530 0.4466 0.4440 0.3220 0.3980 Rand +6.34%* +2.54% +3.53%* +8.81%* +3.55%* +1.46% +3.96%* +7.44%* +6.93%* +6.93%* +5.64%* +1.60%* +4.05% +15.18%* +2.97%*

Rand +5.90%* +3.61%* +2.62%* +9.68%* +5.36%* +4.24%* +6.05% +4.83% +8.93%* +9.09%* +5.10%* +1.70%* +5.41% +8.70%* +7.04%* MAP 0.3286 0.3401 0.3526 0.2813 0.3121 0.3072 0.1917 0.2505 0.3203 0.2181 0.1923 0.2454 0.2057 0.1501 0.2447

MAP 0.3485 0.3646 0.3873 0.2852 0.3110 0.3169 0.2110 0.2581 0.3219 0.2546 0.2410 0.2704 0.2184 0.1737 0.2352 Rand +.12% +.09% +.11% +.39% +.10%* +.10%* +1.1% +1.28% +.59% +2.57% +1.82% +.45% +.92% +.47% +1.39%

Rand +.06% +.11% +.18% +.25%* +.12% +.06%* +.85% +.74% +.56% +3.10%* +2.45% +.22% +.78% +4.03% +3.06%

Long Queries MRR Rand 0.8440 +9.09%* 0.8351 +4.92%* 0.8084 +6.24% 0.7069 +12.85%* 0.7747 +5.03% 0.7788 +4.46%* 0.6810 +18.05%* 0.6760 +10.71% 0.7243 +10.80%* 0.6457 +10.22%* 0.6330 +11.61%* 0.7029 +3.60% 0.6909 +11.43%* 0.5558 +14.00%* 0.6419 +12.20%* Short queries MRR Rand 0.6608 +24.76%* 0.7015 +14.19%* 0.7286 +7.14%* 0.7396 +7.13% 0.7705 +6.33%* 0.7630 +4.82% 0.5772 +17.76%* 0.6361 +14.04%* 0.7137 +9.57%* 0.5275 +10.18%* 0.5611 +7.70%* 0.6274 +7.33%* 0.6326 +13.31%* 0.4293 +17.31%* 0.5908 +16.17%

Table 4: Performance with the baseline model with default (left) and over-fitted (right) parameters and the perturbed model with best λ. See Section 2 for details.

Long Queries Rand MRR +.06% 0.8290 +.06% 0.8205 +.14% 0.8119 +.32% 0.6860 +.14% 0.7504 +.8% 0.7653 +.87% 0.6641 +.62% 0.6674 +1.44%* 0.7155 +2.70% 0.6409 +2.19% 0.6653 +.26% 0.6925 +1.00% 0.7010 +4.99% 0.5210 +2.42% 0.6023 Short queries Rand MRR +.21%* 0.6286 +.13% 0.6520 +.20% 0.6754 +.25%* 0.6226 +.15%* 0.6914 +.11% 0.6833 +1.11% 0.5771 +1.47% 0.5934 +1.48%* 0.6065 +2.00% 0.5002 +1.78% 0.5425 +.74% 0.6139 +1.01%* 0.7010 +5.10% 0.3805 +1.88% 0.6090 P10 0.6440 0.6270 0.6080 0.5367 0.5788 0.5705 0.4240 0.4240 0.4580 0.2729 0.2898 0.4124 0.4220 0.2420 0.3840

P10 0.7140 0.7130 0.7180 0.5408 0.5727 0.5893 0.4380 0.4520 0.4780 0.3280 0.3690 0.4494 0.4460 0.3280 0.3960 Rand +4.04%* +2.08%* +2.96%* +4.19%* +2.61%* +2.12% +1.89%* +10.38%* +4.80%* +11.47%* +6.70%* +1.19% +5.21% +6.61% +6.25%*

Rand +2.52% +2.24%* +1.67% +5.66%* +3.18%* +1.60% +5.03%* +6.20% +4.60% +7.93%* +4.07%* +1.16% +5.83% +7.32%* +4.55%


MAP 0.3269 0.3396 0.3524 0.2568 0.2861 0.2880 0.2067 0.2563 0.2852 0.2296 0.2199 0.2681 0.2170 0.1683 0.2317

MAP 0.2903 0.2980 0.3056 0.2438 0.2736 0.2634 0.1808 0.2313 0.2507 0.1803 0.1800 0.2323 0.2170 0.1373 0.2341



12

Rand +17.82%* +12.79%* +9.34% +17.28%* +9.69%* +6.59%* +12.82% +8.12% +14.39%* +12.72%* +7.48%* +5.07%* +5.24% +22.94%* +10.28%

Rand +4.62%* +4.46% +8.29%* +8.54% +5.41%* +4.06% +5.77% +8.97% +5.01% +9.38%* +2.57% +2.87% +5.65%* +14.70% +16.50%* P10 0.5360 0.5510 0.5660 0.4633 0.5121 0.5060 0.4040 0.4300 0.4040 0.2396 0.2888 0.4012 0.4440 0.2240 0.4040

P10 0.6440 0.6650 0.6860 0.4857 0.5283 0.5369 0.4300 0.4560 0.4480 0.3080 0.3530 0.4466 0.4440 0.3220 0.3980 Rand +5.97% +1.63% +2.83% +6.15%* +2.58% +2.39% +2.48% +6.98%* +4.95% +6.93%* +6.72%* +2.09% +3.60% +8.04%* +2.97%

Rand +9.32%* +2.11% +2.33%* +7.99%* +3.82%* +3.74%* +5.12% +3.51% +7.14%* +7.79% +3.68% +1.34%* +5.41%* +4.35%* +6.03%* MAP 0.3286 0.3401 0.3526 0.2813 0.3121 0.3072 0.1917 0.2505 0.3203 0.2181 0.1923 0.2454 0.2057 0.1501 0.2447

MAP 0.3485 0.3646 0.3873 0.2852 0.3110 0.3169 0.2110 0.2581 0.3219 0.2546 0.2410 0.2704 0.2184 0.1737 0.2352 Rand +.03% +.06% +.09% +.28% +.06% +.10%* +.73% +1.60% +.19% +.55% +.42% +.29% +.63%* +.60% +1.06%

Rand +.03% +.06% +.18% +.18% +.09%* +.03% +.52% +.93% +.56% +1.38% +1.37% +.11% +.28% +3.57% +1.28%

Long Queries MRR Rand 0.8440 +7.25%* 0.8351 +3.31% 0.8084 +4.82% 0.7069 +11.89%* 0.7747 +3.42% 0.7788 +3.93% 0.6810 +8.72% 0.6760 +8.31%* 0.7243 +6.41% 0.6457 +7.56% 0.6330 +8.97%* 0.7029 +3.46% 0.6909 +7.31%* 0.5558 +10.72% 0.6419 +15.56%* Short Queries MRR Rand 0.6608 +18.54%* 0.7015 +9.11%* 0.7286 +7.41% 0.7396 +9.53% 0.7705 +3.11%* 0.7630 +2.77% 0.5772 +17.16%* 0.6361 +12.12%* 0.7137 +6.38% 0.5275 +7.87%* 0.5611 +4.94% 0.6274 +5.55%* 0.6326 +10.28%* 0.4293 +6.29% 0.5908 +16.60%*

Table 5: Performance of the baseline model with default (left) and over-fitted (right) parameters and the perturbed model with λ chosen using 2-fold crossvalidation. See Section 3 for details.

Long Queries Rand MRR +.031% 0.8290 +.09%* 0.8205 +.11%* 0.8119 +.16% 0.6860 +.11% 0.7504 +.07% 0.7653 +.53% 0.6641 +.74% 0.6674 +1.54%* 0.7155 +1.39% 0.6409 +1.68% 0.6653 +.22% 0.6925 +.92% 0.7010 +4.22% 0.5210 +1.25% 0.6023 Short Queries Rand MRR +.17%* 0.6286 +.10% 0.6520 +.23% 0.6754 +.29%* 0.6226 +.15% 0.6914 +.08% 0.6833 +.39% 0.5771 +.78% 0.5934 +1.68%* 0.6065 +1.22% 0.5002 +1.00% 0.5425 +.52% 0.6139 +.92% 0.7010 +4.66% 0.3805 +1.67% 0.6090 P10 0.6440 0.6270 0.6080 0.5367 0.5788 0.5705 0.4240 0.4240 0.4580 0.2729 0.2898 0.4124 0.4220 0.2420 0.3840

P10 0.7140 0.7130 0.7180 0.5408 0.5727 0.5893 0.4380 0.4520 0.4780 0.3280 0.3690 0.4494 0.4460 0.3280 0.3960 Rand +2.79% +1.75%* +1.97% +3.43% +2.78% +2.23% +0% +8.49%* +2.62% +8.39%* +4.59% +.70% +5.21% +4.13% +6.25%*

Rand +1.40% +1.26%* +1.67%* +3.77% +2.48%* +1.36%* +3.65%* +5.31%* +2.09% +7.32% +2.98% +1.16% +3.59% +5.49%* +3.03%


13

Short queries W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 n n n n y y y y y y y y y y y y y y n n n y n n y y y y y y y y y y y y n n n n n n y y n n y y n y y y n y n n n n n n n n n n n n n y n n n n y y y y y y y y y y y y n y n n n n n y y y n n n n y y n n n n n n n y n n n n n n y y y y y y n y n n n n n n n n n n y y y y y y y y y y y y n n n n n n n y y y n n y y y y n y n n n n n n y y y y y y y y y y y y n n n n y n y y y y n n y y y y y y n n n n n n y y y y n n n n y y n y n n y y n n y y y y y y n n n y n n n n n n n n n y n y n y n n n n n n n n n n n n n n y y n n y y y y y y Long queries W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 n n n n n n y y y y y y n n n n n n n n n n n n y y y y n y y y y y y y n n n n n n n n n y n n n n y y n y y y y y n n y y y y n n y y y y y y n n n n n n n n n n n y y y y y y y y y y y y y y y y y y y n n n y n n n n n n n n y y y y y y y y y y y y n n n n n n n n n n n n n n y y y y n n n n n n y y y y n y n n n n n n n y n y n n n y y y n n n y n y y y y n n n y n y y y y y y n y n y n y n n n n n n n n n n n n n n n y n y n n n n y n y y y y n n n n n y n n n n n n n n y y n n y y y y y y y y n n n n n n y y y y n n n n n n n y

Table 6: Statistical Testing results of the random perturbation over the baseline with default (left) and over-fitted parameters (right). See Section 4 for details.

Short queries Collection W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 BLOGS06 n n n n n n y y y y n y n y y y y y BLOGS0607 n n n n n n y y y y y y y y y y y y BLOGS07 n n n n n n y y y y y y y y y y y y TERA04 n n n y n n n n n n n n y y y y y y TERA05 n n n n n n y y y y y y y y y y y y TERA06 n n n n n n y y y y n y n y y y y y TREC7 n n n n n n n y n y n n n n y y y y TREC8A n n n n n n n y n y n n n n n n n n TREC8B n y y y n y n n n n n n y y y y y y TREC9 n n n n n n y y y y n y y y y y y y WT10g n n n n n n y y y y n n y y y y y y ROBUST04 n n n n n n n y n y n n y y y y y y TREC4 n n n y n n y y y y n n n n n n n n TREC5 n n n n n n y y y y y y y y y y y y TREC6 n n n n n n y y y y n y y y y y y y Long queries Collection W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 W1 W2 T1 T2 S1 S2 BLOGS06 y y y y n n y y y y y y n y n y n n BLOGS0607 n n n y n n y y y y y y n n n n n y BLOGS07 n n n n n n y y y y y y y y n n y y TERA04 y y n y y y y y y y y y y y y y n y TERA05 n y n n n n y y y y y y n y n n n n TERA06 n n n n n n y y y y n n n n n y n n TREC7 n n n n n n y y y y y y y y n n n n TREC8A n n n n n n y y y y n y y y n y n y TREC8B n y y y n n y y y y n n n y y y n y TREC9 n n n n n n y y y y n n y y y y y y WT10g n n n n n n y y y y n n y y y y y y ROBUST04 n n n n n n y y y y n y y y y y y y TREC4 y y n y n n y y n y n n n n n n n n TREC5 n n n n n n y y y y y y n y n y n n TREC6 n n n n n n y y y y n y n y y y n y


beware of relatively large but meaningless improvements

beware of relatively large but meaningless improvements

Suggest Documents

Reduced spontaneous but relatively normal ... - Semantic Scholar

But Beware of SCAMS - City of Eau Claire

A subfamily of relatively large and basic cytokeratin polypeptides as ...

Alcohol and relatively pure cannabis use, but not schizotypy ... - Frontiers

The strength of Ramsey Theorem for coloring relatively large sets

Trend Analysis of Relatively Large Diatoms Which ... - Semantic Scholar

Imitation of Meaningless Gestures - CiteSeerX

Performance Improvements for Large Scale Traffic ... - CiteSeerX

Performance Improvements for Large Scale Traffic ... - CiteSeerX

Recognition of Meaningless Figures: Processing of ... - ScienceDirect

(VeaR-) (Download) ('Relatively) (Dead;) (Relatively) (Dead ...

Abdominal aortic aneurysms, or a relatively large ... - Oxford Journals

Relatively large males lower reproductive success in female zebrafish

beware of quackwatch - WordPress.com

Beware of MOOCs - ASQ

beware - NYC.gov

Beware of docking!

Beware of docking!

Beware of First Impressions

Beware of MOOCs - ASQ

beware - NYC.gov

“HEAVY METALS”—A MEANINGLESS TERM?

Memory for the Meaningless - CiteSeerX

EASE-Grid 2.0: Incremental but Significant Improvements for ... - MDPI