Basic Concepts of Statistics and Probability
ii Copyright ©2017 All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means: electronic or mechanical, including photocopy, recording, or any information storage and retrieval system without the prior permission of the copyright owner. Request for permission should be addressed to: Cyprian Publishers P.O. Box 3184-00200 Nairobi +254 722 616 725
[email protected] ISBN . . . . . . Publications
Contents
1
2
A Review of Basic Statistical Concepts
1
1.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Descriptive Statistics . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Inferential statistics . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Definitions of Terms . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4.1
Population and Sample . . . . . . . . . . . . . . . . . . .
3
1.4.2
Parameters and Statistics . . . . . . . . . . . . . . . . . .
4
1.4.3
Census and Sampling . . . . . . . . . . . . . . . . . . . .
5
1.4.4
Reasons to use Sampling . . . . . . . . . . . . . . . . . .
6
1.5
Statistical Data Analysis . . . . . . . . . . . . . . . . . . . . . .
7
1.6
Characteristics of Statistics . . . . . . . . . . . . . . . . . . . . .
7
1.7
Functions of Statistics . . . . . . . . . . . . . . . . . . . . . . . .
9
1.8
Applications of Statistics . . . . . . . . . . . . . . . . . . . . . .
10
1.9
Limitations of Statistics . . . . . . . . . . . . . . . . . . . . . . .
11
1.10 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
Statistical Data
17
2.1
meaning of Data . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2
Types of Data . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.1
Qualitative and Quantitative Data . . . . . . . . . . . . .
18
2.2.2
Measurement (quantitative) data . . . . . . . . . . . . . .
18
2.2.3
Continuous and Discrete Data . . . . . . . . . . . . . . .
18
2.2.4
Categorical (qualitative) Data . . . . . . . . . . . . . . .
19
2.2.5
Other Data Types . . . . . . . . . . . . . . . . . . . . . .
20
iv
CONTENTS 2.3
Measurement Scales . . . . . . . . . . . . . . . . . . . . . . . .
21
2.3.1
Nominal Scale . . . . . . . . . . . . . . . . . . . . . . .
22
2.3.2
Ordinal Scale . . . . . . . . . . . . . . . . . . . . . . . .
22
2.3.3
Interval Scale . . . . . . . . . . . . . . . . . . . . . . . .
23
2.3.4
Ratio Scale . . . . . . . . . . . . . . . . . . . . . . . . .
23
Sources of data . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.4.1
Secondary data . . . . . . . . . . . . . . . . . . . . . . .
24
2.4.2
Primary data . . . . . . . . . . . . . . . . . . . . . . . .
25
2.5
Methods of data collection . . . . . . . . . . . . . . . . . . . . .
25
2.6
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.4
3
Presentation of Data
31
3.1
Presentation of data in a sequence . . . . . . . . . . . . . . . . .
31
3.2
Grouping and Tabulation of data . . . . . . . . . . . . . . . . . .
33
3.2.1
Categorical Frequency Distributions . . . . . . . . . . . .
34
3.2.2
Grouped Frequency Distributions . . . . . . . . . . . . .
34
Graphical methods for presenting data . . . . . . . . . . . . . . .
40
3.3.1
Stem and Leaf plots . . . . . . . . . . . . . . . . . . . .
41
3.3.2
Line Graphs . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.3.3
Line or Dot Plots . . . . . . . . . . . . . . . . . . . . . .
43
3.3.4
Bar Charts/Graphs . . . . . . . . . . . . . . . . . . . . .
44
3.3.5
Histograms . . . . . . . . . . . . . . . . . . . . . . . . .
45
3.3.6
Percentage Relative Frequency Histograms . . . . . . . .
45
3.3.7
Relative Frequency Polygons . . . . . . . . . . . . . . . .
46
3.3.8
Frequency Polygon . . . . . . . . . . . . . . . . . . . . .
49
3.3.9
Frequency Curve . . . . . . . . . . . . . . . . . . . . . .
49
3.3.10 Cumulative Frequency Polygons . . . . . . . . . . . . . .
51
3.3.11 Other graphical summaries . . . . . . . . . . . . . . . . .
51
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.3
3.4 4
Numerical Summaries of Data
57
4.1
57
Measures of Central Tendency . . . . . . . . . . . . . . . . . . .
CONTENTS
4.2
4.1.1
Arithmetic Mean . . . . . . . . . . . . . . . . . . . . . .
58
4.1.2
Weighted arithmetic mean . . . . . . . . . . . . . . . . .
67
4.1.3
Median . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.1.4
Measures of Location for ungrouped data . . . . . . . . .
75
4.1.5
Measures of Location from Grouped Data . . . . . . . . .
80
4.1.6
Box-and-Whisker Plots . . . . . . . . . . . . . . . . . . .
81
4.1.7
Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
Measures of Spread . . . . . . . . . . . . . . . . . . . . . . . . .
88
4.2.1
Range . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
4.2.2
Inter-Quartile Range (IQR) . . . . . . . . . . . . . . . . .
89
4.2.3
Mean Absolute Deviation (MAD) . . . . . . . . . . . . .
90
4.2.4
Variance and Standard Deviation . . . . . . . . . . . . . .
92
4.2.5
Combined Variance . . . . . . . . . . . . . . . . . . . . . 101
4.2.6
Properties of Measures of Dispersion . . . . . . . . . . . 102
4.2.7
Relative Measures . . . . . . . . . . . . . . . . . . . . . 102
4.3
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.4
Measures of Skewness . . . . . . . . . . . . . . . . . . . . . . . 106
4.5
4.4.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.4.2
Skewness: Meaning and Definition . . . . . . . . . . . . 106
4.4.3
Test of Skewness . . . . . . . . . . . . . . . . . . . . . . 108
4.4.4
Measures of Skewness . . . . . . . . . . . . . . . . . . . 108
4.4.5
Moments . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.4.6
Skewness of a distribution . . . . . . . . . . . . . . . . . 112
Measures of Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . 114 4.5.1
4.6
Kurtosis of a distribution . . . . . . . . . . . . . . . . . . 115
Moments of a distribution . . . . . . . . . . . . . . . . . . . . . . 116 4.6.1
5
v
Practice Problems . . . . . . . . . . . . . . . . . . . . . . 117
Correlations Analysis
119
5.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.2
Types of Correlation . . . . . . . . . . . . . . . . . . . . . . . . 120 5.2.1
Correlation does not necessarily mean causation . . . . . 121
vi
6
CONTENTS 5.2.2
Correlation Analysis . . . . . . . . . . . . . . . . . . . . 122
5.2.3
Limitations of Correlation Analysis . . . . . . . . . . . . 133
5.2.4
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.2.5
Correlation Analysis . . . . . . . . . . . . . . . . . . . . 135
5.2.6
The Scatter diagram . . . . . . . . . . . . . . . . . . . . 135
5.2.7
The Coefficient of Correlation . . . . . . . . . . . . . . . 135
5.2.8
Practice Problems . . . . . . . . . . . . . . . . . . . . . . 140
Regression Analysis 6.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.2
Independent and Dependent variables . . . . . . . . . . . . . . . 142
6.3
Simple Regression Analysis . . . . . . . . . . . . . . . . . . . . 142
6.4
6.3.1
Regression line of Y on X . . . . . . . . . . . . . . . . . 143
6.3.2
Regression line of X on Y . . . . . . . . . . . . . . . . . 145
Simple linear regression model . . . . . . . . . . . . . . . . . . . 145 6.4.1
7
141
The Simple Linear Regression Model . . . . . . . . . . . 148
Introduction to Probability 7.1
7.2
7.3
Definitions of Terms . . . . . . . . . . . . . . . . . . . . . . . . 155 7.1.1
Sample Spaces . . . . . . . . . . . . . . . . . . . . . . . 156
7.1.2
Events . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Probability of an Event . . . . . . . . . . . . . . . . . . . . . . . 158 7.2.1
Classical Approach . . . . . . . . . . . . . . . . . . . . . 158
7.2.2
Frequentist approach . . . . . . . . . . . . . . . . . . . . 162
Laws of Probability . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.3.1
7.4
7.5
155
Law of Total Probability . . . . . . . . . . . . . . . . . . 166
Tree Diagrams . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 7.4.1
Using Tree diagram to calculate probabilities . . . . . . . 168
7.4.2
Drawing the Tree Diagram under Different Schemes . . . 168
Conditional Probability . . . . . . . . . . . . . . . . . . . . . . . 170 7.5.1
The Multiplicative Rule . . . . . . . . . . . . . . . . . . 172
7.5.2
Bayes’ Theorem . . . . . . . . . . . . . . . . . . . . . . 175
CONTENTS
8
vii
7.6
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
7.7
Solved Revision Questions . . . . . . . . . . . . . . . . . . . . . 185
Random Variables
189
8.1
Mathematical Expectation . . . . . . . . . . . . . . . . . . . . . 196
8.2
Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 8.2.1
Variance and Standard Deviation . . . . . . . . . . . . . . 202
8.3
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
8.4
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
8.5
Types of Random Variables . . . . . . . . . . . . . . . . . . . . . 213
8.6
Discrete Random Variables . . . . . . . . . . . . . . . . . . . . . 214
8.7
8.8
8.9
8.6.1
Probability Mass Function . . . . . . . . . . . . . . . . . 216
8.6.2
Cumulative Distribution Function . . . . . . . . . . . . . 220
Continuous Random Variables . . . . . . . . . . . . . . . . . . . 231 8.7.1
Probability density function . . . . . . . . . . . . . . . . 231
8.7.2
Cumulative distribution function . . . . . . . . . . . . . . 237
Mathematical Expectation . . . . . . . . . . . . . . . . . . . . . 241 8.8.1
Mean of a Discrete Random Variable . . . . . . . . . . . 241
8.8.2
Expectation of a Continuous Random Variable . . . . . . 247
Variance and Standard Deviation . . . . . . . . . . . . . . . . . . 251
8.10 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 8.11 Median, Quartiles and Percentiles . . . . . . . . . . . . . . . . . 260 8.12 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.13 Moment Generating Function . . . . . . . . . . . . . . . . . . . . 266 8.13.1 Using of moment generating functions to find the distribution of functions of Random Variables . . . . . . . . . . . 270 8.14 Cumulant Generating Function . . . . . . . . . . . . . . . . . . . 270 8.15 Transformation of variable technique for univariate distribution . . 270 8.16 Discrete Random Variables . . . . . . . . . . . . . . . . . . . . . 271 8.17 Continuous Random Variables . . . . . . . . . . . . . . . . . . . 272 9
Probability Distributions
279
viii
CONTENTS 9.1
Discrete distributions . . . . . . . . . . . . . . . . . . . . . . . . 279 9.1.1
Uniform Distribution . . . . . . . . . . . . . . . . . . . . 279
9.1.2
Bernoulli Distribution . . . . . . . . . . . . . . . . . . . 282
9.1.3
Binomial distribution . . . . . . . . . . . . . . . . . . . . 284
9.1.4
Geometric distribution . . . . . . . . . . . . . . . . . . . 292
9.1.5
Negative Binomial Distribution . . . . . . . . . . . . . . 298
9.1.6
Hypergeometric distribution . . . . . . . . . . . . . . . . 300
9.1.7
Poisson distribution . . . . . . . . . . . . . . . . . . . . . 305
9.1.8
Poisson Approximation to the Binomial Distribution . . . 315
9.1.9
Sum of Poisson random quantities . . . . . . . . . . . . . 318
9.2
Probability Generating Function . . . . . . . . . . . . . . . . . . 320
9.3
Continuous distribution functions . . . . . . . . . . . . . . . . . 321 9.3.1
Uniform Distribution . . . . . . . . . . . . . . . . . . . . 321
9.3.2
Exponential distribution . . . . . . . . . . . . . . . . . . 324
9.3.3
Normal distribution . . . . . . . . . . . . . . . . . . . . . 328
9.3.4
Gamma distribution . . . . . . . . . . . . . . . . . . . . 342
9.3.5
Beta distribution . . . . . . . . . . . . . . . . . . . . . . 345
9.3.6
Pareto Distribution . . . . . . . . . . . . . . . . . . . . . 347
9.3.7
Cauchy Distribution . . . . . . . . . . . . . . . . . . . . 348
9.3.8
Burr Distribution . . . . . . . . . . . . . . . . . . . . . . 349
9.3.9
Weibull Distribution . . . . . . . . . . . . . . . . . . . . 349
9.3.10 Lognormal Distribution . . . . . . . . . . . . . . . . . . 351