例1【2017全国卷2文科19题理科18题高考真题】
海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:
(1)记\(A\)表示事件“旧养殖法的箱产量低于50kg”,估计\(A\)的概率;
分析:本题实质是考查用频率估计概率,所以要会根据频率分布直方图计算频率。
由于“旧养殖法的箱产量低于50kg”的频率为\((0.012+0.014+0.024+0.034+0.040)\times 5=0.62\),
故所求概率\(P(A)=0.62\)。
同理得到“新养殖法的箱产量低于50kg”的频率为\((0.004+0.020+0.044)\times 5=0.34\)
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
参考数据表格如下:
\(\begin{array}{c|lcr} P(\chi^2\ge k_0) & 0.050 &0.010 &0.001 \\ \hline k_0 & 3.841 & 6.635 & 10.828 \end{array}\)分析:由上问可知,“旧养殖法的箱产量低于50kg”的频数为\(100\times 0.62=62\),
则“旧养殖法的箱产量不低于\(50kg\)”的频数为\(100-62=38\),
“新养殖法的箱产量低于\(50kg\)”的频数为\(100\times 0.34=34\),
则“新养殖法的箱产量不低于\(50kg\)”的频数为\(100-34=66\),由此得到二列联表如下:
箱产量<\(50kg\) | 箱产量\(\ge 50kg\) | 总计 | |
---|---|---|---|
旧养殖法 | \(62(a)\) | \(38(b)\) | \(100(a+b)\) |
新养殖法 | \(34(c)\) | \(66(d)\) | \(100(c+d)\) |
总计 | \(96(a+c)\) | \(104(b+d)\) | \(200(a+b+c+d)\) |
由上表计算得到\(\chi^2=\cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\)
\(=\cfrac{200(62\times 66-38\times 34)^2}{(62+38)(34+66)(62+34)(38+66)}=15.705>6.635\)
故有99%以上的把握认为,二者有关联。
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较。
分析:本题目的难点有:到底从哪些角度进行比较?每一个角度下的数值的计算方法。
数据的极差:旧,\(25-70\);新,\(35-70\),极差反映了数据的取值范围和数据的几种程度,当然误差是有的;
数据的众数:旧,\(47.5\);新,\(52.5\),众数反映了出现次数最多,
数据的平均数:旧,\(47.1\);新,\(52.35\),平均数反映了一组数据的平均水平,
数据的方差(标准差):比较精确的反映了数据的分散和集中程度,将这种程度数量化了。
本题目从运算量和问题出发,可以从数据的范围和数据的中位数(或均值)两个角度作答。
“旧养殖法”的数据分布在\(25-70\)之间,“新养殖法”的数据分布在\(35-70\)之间,
故从数据范围来看,新养殖法的数据更集中,优于旧养殖法;
“旧养殖法”的平均数(中位数)分布在\(40-45\)之间,“新养殖法”的平均数(中位数)分布在\(50-55\)之间,
从平均数(中位数)角度来看,新养殖法也优于旧养殖法。
例2【2017全国卷1文科19题高考真题】
为了监控某种零件的一条生产线的流程,检验员每隔\(30min\)从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的\(16\)个零件的尺寸:
抽取次序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
零件尺寸 | 09.95 | 10.12 | 09.96 | 09.96 | 10.01 | 09.92 | 09.98 | 10.04 |
抽取次序 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
---|---|---|---|---|---|---|---|---|
零件尺寸 | 10.26 | 09.91 | 10.13 | 10.02 | 09.22 | 10.04 | 10.05 | 09.95 |
经计算得\(\bar{x}=\cfrac{1}{16}\cdot\sum\limits_{i=1}^{16}{x_i}=9.97\) ,
\(s=\sqrt{\cfrac{1}{16}\cdot\sum\limits_{i=1}^{16}{(x_i-\bar{x})^2}}=\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}^2})}\approx 0.212\),
\(\sqrt{\sum\limits_{i=1}^{16}{(i-8.5)^2}}\approx 18.439\),\(\sum\limits_{i=1}^{16}{(x_i-\bar{x})(i-8.5)}=-2.78\),
其中\(x_i\)为抽取的第\(i\)个零件的尺寸,\(i=1,2,\cdots,16\) .
(1)求\((x_i,i)(i=1,2,\cdots,16)\)的相关系数\(r\),并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小
(若\(|r|<0.25\) ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
分析:本题目的难点有:所给公式的正向迁移和破解,
比如\(i\rightarrow y_i\),即表格中的第一行\(i=1,2,\cdots,16\),故\(\bar{y_i}=\bar{i}=8.5\),
这样第一问的计算就没有多大难度了,
\(|r|=\cfrac{|\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}|}{\sqrt{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}\sqrt{\sum\limits_{i=1}^n{(y_i-\bar{y})^2}}}\)
\(=\cfrac{2.78}{0.212\times\sqrt{16}\times 18.439}\approx 0.18\)<0.25.
故可以认为零件的尺寸不随生产过程的进行而系统地变大或变小。
(2)一天内抽检零件中,如果出现了尺寸在\((\bar{x}-3s,\bar{x}+3s)\) 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
分析:\(\bar{x}=9.97,s=0.212\),故\((\bar{x}-3s,\bar{x}+3s)\)应该为\((9.97-3\times0.212,9.97+3\times0.212)\),
即\((9.334,10.606)\),可以看出表格中的第13个数据\(9.22\)不在这个范围内,
本来小概率事件在一次实验中不可能发生,现在竟然真真实实的发生,故可以认为出现异常,应该检查。
(ⅱ)在\((\bar{x}-3s,\bar{x}+3s)\)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
分析:有上一问知道离群值为\(9.22\),剔除这个值,
则剩余的\(15\)个数值的均值\(\bar{x}_{15}\)应该这样计算:
\(\bar{x}_{15}=\cfrac{16\times9.97-9.22}{15}=10.02\),
故这条生产线当天生产的零件尺寸的均值大约为\(10.02\)。
计算标准差的分析:由方差公式,要计算剩余的\(15\)个数值的标准差,
需要计算\(\cfrac{1}{15}\sum\limits_{i=1}^{15}{(x_i-\bar{x}_{15})^2}=\cfrac{1}{15}(\sum\limits_{i=1}^{15}{x_i^2}-15\bar{x}_{15}^2)\),
由于第一个公式没有办法和已知数据有效的链接,故改用第二个公式求解,
为此需要先求\(\sum\limits_{i=1}^{16}{x_i^2}\),故可以从\(\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}_{16}^2})}\approx 0.212\)开始,
分析到此,计算如下:
由\(\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}_{16}^2})}\approx 0.212\)得到,
\(\sum\limits_{i=1}^{16}{x_i^2}=16\times 0.212^2+16\times 9.97^2\);
故\(\sum\limits_{i=1}^{15}{x_i^2}=16\times 0.212^2+16\times 9.97^2-9.22^2=1506.125\),
则\(\sum\limits_{i=1}^{15}{x_i^2}-15\times\bar{x}_{15}^2=1506.125-15\times10.02^2=0.119104\);
故\(\cfrac{1}{15}(\sum\limits_{i=1}^{15}{x_i^2}-15\times\bar{x}_{15}^2)\approx 0.008\),
故所求的标准差\(s_{15}=\sqrt{0.008}\approx 0.09\),即这条生产线当天生产的零件尺寸的标准差大约为\(0.09\)。
【附:样本\((x_i,y_i)(i=1,2,\cdots,n)\)的相关系数
\(r=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}\sqrt{\sum\limits_{i=1}^n{(y_i-\bar{y})^2}}}\),\(\sqrt{0.008}=0.09\)】
【反思总结】
准确、深入、全面的理解公式中的每一个字母的含义,做到灵活运用公式,能将公式正向迁移到新的题目中,这是解决本题的关键所在。
我们平时的学习决不能仅仅停留在会套用公式的层面上,这样的要求有点低了,不符合现代社会对人的素质的要求了。
你不需要担心公式记不住,需要担心的是,给定公式,你到底会不会使用。
例3【2017全国卷1理科19题高考真题】
为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取\(16\)个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布\(N(\mu,\sigma^2)\).
(1)假设生产状态正常,记\(X\)表示一天内抽取的\(16\)个零件中其尺寸在\((\mu-3\sigma,\mu+3\sigma)\)之外的零件数,求\(P(X≥1)\)及\(X\)的数学期望;
分析:由题可知,尺寸落在\((\mu-3\sigma,\mu+3\sigma)\)之内的概率为\(0.9974\),
则尺寸落在\((\mu-3\sigma,\mu+3\sigma)\)之外的概率为\(1-0.9974=0.0026\),
因为\(P(X=0)=C_{16}^0\times (1-0.9974)^0\times 0.9974^{16}=0.9592\),
所以\(P(X\ge 1)=1-P(X=0)=0.0408\)。
又由于\(X\sim B(16,0.0026)\),故\(E(X)=16\times 0.0026=0.0416\)。
(2)一天内抽检零件中,如果出现了尺寸在\((\mu-3\sigma,\mu+3\sigma)\)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性;
分析:如果生产状态正常,一个零件尺寸在\((\mu-3\sigma,\mu+3\sigma)\)之外的概率只有\(0.0026\),一天内抽取的16个零件中,出现尺寸在\((\mu-3\sigma,\mu+3\sigma)\)之
外的零件的概率只有\(0.0408\),发生的概率很小。因此一旦发生这种状况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.(ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:
抽取次序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
零件尺寸 | 09.95 | 10.12 | 09.96 | 09.96 | 10.01 | 09.92 | 09.98 | 10.04 |
抽取次序 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
---|---|---|---|---|---|---|---|---|
零件尺寸 | 10.26 | 09.91 | 10.13 | 10.02 | 09.22 | 10.04 | 10.05 | 09.95 |
经计算得\(\bar{x}=\cfrac{1}{16}\cdot\sum\limits_{i=1}^{16}{x_i}=9.97\) ,\(s=\sqrt{\cfrac{1}{16}\cdot\sum\limits_{i=1}^{16}{(x_i-\bar{x})^2}}=\sqrt{\cfrac{1}{16}(\sum\limits_{i=1}^{16}{x_i^2-16\bar{x}^2})}\approx 0.212\),
\(\sqrt{\sum\limits_{i=1}^{16}{(i-8.5)^2}}\approx 18.439\),\(\sum\limits_{i=1}^{16}{(x_i-\bar{x})(i-8.5)}=-2.78\),其中\(x_i\)为抽取的第\(i\)个零件的尺寸,\(i=1,2,\cdots,16\) .
用样本平均数\(\bar{x}\)作为\(\mu\)的估计值\(\hat{\mu}\),用样本标准差\(s\)作为\(\sigma\)的估计值\(\hat{\sigma}\),用估计值判断是否需对当天的生产过程进行检查?剔除\((\mu-3\sigma,\mu+3\sigma)\)之外的数据,用剩下的数据估计\(\mu\)和\(\sigma\)(精确到0.01).
附:若随机变量\(Z\)服从正态分布\(N(\mu,\sigma^2)\),则\(P(\mu-3\sigma<Z<\mu+3\sigma)=0.9974\),\(0.9974^{16}≈0.9592\),\(\sqrt{0.008}≈0.09\).
分析:由\(\bar{x}=9.97\),\(s\approx 0.212\),得到\(\mu\)的估计值\(\hat{\mu}=9.97\),\(\sigma\)的估计值\(\hat{\sigma}= 0.212\),
由样本数据可以看出,有一个零件的尺寸在\((\mu-3\sigma,\mu+3\sigma)\)之外,因此需对当天的生产过程进行检查。
剔除\((\mu-3\sigma,\mu+3\sigma)\)之外的数据\(9.22\),剩下数据的平均值为\(\cfrac{16\times 9.97-9.22}{15}=10.02\),
因此\(\mu\)的估计值\(\hat{\mu}=10.02\)。
由于\(\sum\limits_{i=1}^{16}{x_i^2}=16\times 0.212^2+16\times 9.97^2\),剔除数据\(9.22\)后剩下的数据,
故\(\sum\limits_{i=1}^{15}{x_i^2}=16\times 0.212^2+16\times 9.97^2-9.22^2=1506.125\),
则\(\sum\limits_{i=1}^{15}{x_i^2}-15\times\bar{x}_{15}^2=1506.125-15\times10.02^2=0.119104\);
故剩余数据的样本方程为\(\cfrac{1}{15}(\sum\limits_{i=1}^{15}{x_i^2}-15\times\bar{x}_{15}^2)\approx 0.008\),
故所求的\(\sigma\)的估计值为\(\hat{\sigma}=\sqrt{0.008}\approx 0.09\),
即剩下15个数据的平均数的估计值\(\hat{\mu}=10.02\),标准差的估计值\(\hat{\sigma}=0.09\)。
例4【2015\(\cdot\)安徽卷】
若样本数据\(x_1,x_2,\cdots,x_{10}\)的标准差为\(8\),则数据\(2x_1-1,2x_2-1,\cdots,2x_{10}-1\)的标准差为【 】
分析:原样本数据的相关数字特征如下:
\(x_1,x_2,\cdots,x_{10}\)的平均数为\(\bar{x}=\cfrac{x_1+x_2+\cdots+x_{10}}{10}\);
其方差为\(s_1^2=\cfrac{1}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]\);
其标准差为\(s_1=\sqrt{\cfrac{1}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]}=8\);
则新样本数据的相关数字特征如下:
\(2x_1-1,2x_2-1,\cdots,2x_{10}-1\)的平均数为
\(\bar{x'}=\cfrac{(2x_1-1)+(2x_2-1)+\cdots+(2x_{10}-1)}{10}=2\bar{x}-1\);
其方差为\(s_2^2=\cfrac{1}{10}[(2x_1-1-\bar{x'})^2+(2x_2-1-\bar{x'})^2+\cdots+(2x_{10}-1-\bar{x'})^2]\);
\(=\cfrac{2^2}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]=2^2\cdot s_1^2\)
其标准差为\(s_2=\sqrt{\cfrac{1}{10}[(2x_1-1-\bar{x'})^2+(2x_2-1-\bar{x'})^2+\cdots+(2x_{10}-1-\bar{x'})^2]}\);
\(=\sqrt{\cfrac{1}{10}[(2x_1-2\bar{x})^2+(2x_2-2\bar{x})^2+\cdots+(2x_{10}-2\bar{x})^2]}\)
\(=\sqrt{\cfrac{2^2}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]}\)
\(=2\sqrt{\cfrac{1}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]}\)
\(=2\cdot s_1=2\times8=16\),故选\(C\)。
反思总结:
一组样本数据\(x_1,x_2,\cdots,x_n\),其平均数为\(\bar{x}\),方差为\(s^2\),标准差为\(s\),
则样本数据\(ax_1+b,ax_2+b,\cdots,ax_n+b\),其平均数为\(a\bar{x}+b\),方差为\(a^2\cdot s^2\),标准差为\(a\cdot s\),