回归分析的创新应用

前言

  • 小概率事件,小概率事件是一个事件的发生概率很小,那么它在一次试验中是几乎不可能发生的,但在多次重复试验中是必然发生的。在概率论中我们把概率很接近于(0)(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。习惯上将 (Pleqslant 0.05)[高中数学上常常采用这个标准] 或 (Pleqslant 0.01) 称为小概率事件,

  • (3sigma)原则, (P(mu-3sigma<Xleq mu+3sigma)=99.7\%),涉及正态分布,理科。在机械控制领域使用频次很高,实用性很强,可以将很高深的数学知识转化为简单的操作流程。

创新应用

【2017全国卷1文科19题高考真题】为了监控某种零件的一条生产线的流程,检验员每隔 (30min) 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的(16)个零件的尺寸:

抽取次序 1 2 3 4 5 6 7 8
零件尺寸 09.95 10.12 09.96 09.96 10.01 09.92 09.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 09.91 10.13 10.02 09.22 10.04 10.05 09.95

经计算得(ar{x}=cfrac{1}{16}cdotsumlimits_{i=1}^{16}{x_i}=9.97),其中(x_i)为抽取的第(i)个零件的尺寸,(i=1,2,cdots,16)

(s=sqrt{cfrac{1}{16}cdotsumlimits_{i=1}^{16}{(x_i-ar{x})^2}}=sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}^2})}approx 0.212)

(sqrt{sumlimits_{i=1}^{16}{(i-8.5)^2}}approx 18.439)(sumlimits_{i=1}^{16}{(x_i-ar{x})(i-8.5)}=-2.78)

(1). 求 ((x_i,i) (i=1,2,cdots,16)) 的相关系数 (r) ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若(|r|<0.25) ,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).

分析:本题目的难点有:所给公式的正向迁移和破解,比如 (i ightarrow y_i),即表格中的第一行 (i=1,2,cdots,16) [这和我们对表格的常规认知有偏差],故(ar{y_i}=ar{i}=8.5),这样第一问的计算就没有多大难度了,

(|r|=cfrac{|sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}|}{sqrt{sumlimits_{i=1}^n{(x_i-ar{x})^2}}sqrt{sumlimits_{i=1}^n{(y_i-ar{y})^2}}})

(=cfrac{2.78}{0.212 imessqrt{16} imes 18.439}approx 0.18) (<0.25).

故可以认为零件的尺寸不随生产过程的进行而系统地变大或变小。

(2). 一天内抽检零件中,如果出现了尺寸在 ((ar{x}-3s,ar{x}+3s)) 之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.

① 从这一天抽检的结果看,是否需对当天的生产过程进行检查?

分析: (ar{x}=9.97,s=0.212) ,故 ((ar{x}-3s,ar{x}+3s)) 应该为 ((9.97-3 imes0.212,9.97+3 imes0.212))

((9.334,10.606)) ,可以看出表格中的第13个数据 (9.22) 不在这个范围内,本来小概率事件在一次实验中不可能发生,现在竟然真真实实的发生,故可以认为出现异常,应该检查。

② 在 ((ar{x}-3s,ar{x}+3s)) 之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)

分析:有上一问知道离群值为(9.22),剔除这个值,则剩余的(15)个数值的均值(ar{x}_{15})应该这样计算:

(ar{x}_{15}=cfrac{16 imes9.97-9.22}{15}=10.02)

故这条生产线当天生产的零件尺寸的均值大约为 (10.02)

计算标准差的分析:由方差公式,要计算剩余的 (15) 个数值的标准差,

需要计算

[cfrac{1}{15}sumlimits_{i=1}^{15}{(x_i-{ar{x}_{15}})^2}=cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15{ar{x}_{15}}^2) ]

由于第一个公式没有办法和已知数据有效的链接,故改用第二个公式求解,

为此需要先求 (sumlimits_{i=1}^{16}{x_i^2}) ,故可以从 (sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}_{16}^2})}approx 0.212) 开始,

分析到此,计算如下:

由已知表达式,可知

[sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}_{16}^2})}approx 0.212 ]

[sumlimits_{i=1}^{16}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2 ]

故有

[sumlimits_{i=1}^{15}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2-9.22^2=1506.125 ]

[sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2=1506.125-15 imes10.02^2=0.119104 ]

故有

[cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2)approx 0.008 ]

故所求的标准差 (s_{15}=sqrt{0.008}approx 0.09)

即这条生产线当天生产的零件尺寸的标准差大约为(0.09)

(Bigg[) 附:样本((x_i,y_i)(i=1,2,cdots,n))的相关系数(r=cfrac{sumlimits_{i=1}^n{(x_i-ar{x})(y_i-ar{y})}}{sqrt{sumlimits_{i=1}^n{(x_i-ar{x})^2}}sqrt{sumlimits_{i=1}^n{(y_i-ar{y})^2}}})(sqrt{0.008}=0.09) (Bigg])

【反思总结】准确、深入、全面的理解公式中的每一个字母的含义,做到灵活运用公式,能将公式正向迁移到新的题目中,这是解决本题的关键所在。我们平时的学习决不能仅仅停留在会套用公式的层面上,这样的要求有点低了,不符合现代社会对人的素质的要求了。你不需要担心公式记不住,需要担心的是,给定公式,你到底会不会使用。

【2017全国卷1理科19题高考真题】为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取(16)个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布(N(mu,sigma^2))

(1)假设生产状态正常,记(X)表示一天内抽取的(16)个零件中其尺寸在((mu-3sigma,mu+3sigma))之外的零件数,求(P(X≥1))(X)的数学期望;

分析:由题可知,尺寸落在((mu-3sigma,mu+3sigma))之内的概率为(0.9974)

则尺寸落在((mu-3sigma,mu+3sigma))之外的概率为(1-0.9974=0.0026)

因为(P(X=0)=C_{16}^0 imes (1-0.9974)^0 imes 0.9974^{16}=0.9592)

所以(P(Xge 1)=1-P(X=0)=0.0408)

又由于(Xsim B(16,0.0026)),故(E(X)=16 imes 0.0026=0.0416)

(2)一天内抽检零件中,如果出现了尺寸在((mu-3sigma,mu+3sigma))之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.

(ⅰ)试说明上述监控生产过程方法的合理性;

分析:如果生产状态正常,一个零件尺寸在((mu-3sigma,mu+3sigma))之外的概率只有(0.0026),一天内抽取的16个零件中,出现尺寸在((mu-3sigma,mu+3sigma))
外的零件的概率只有(0.0408),发生的概率很小。因此一旦发生这种状况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.

(ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:

抽取次序 1 2 3 4 5 6 7 8
零件尺寸 09.95 10.12 09.96 09.96 10.01 09.92 09.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 09.91 10.13 10.02 09.22 10.04 10.05 09.95

经计算得(ar{x}=cfrac{1}{16}cdotsumlimits_{i=1}^{16}{x_i}=9.97)(s=sqrt{cfrac{1}{16}cdotsumlimits_{i=1}^{16}{(x_i-ar{x})^2}}=sqrt{cfrac{1}{16}(sumlimits_{i=1}^{16}{x_i^2-16ar{x}^2})}approx 0.212)

(sqrt{sumlimits_{i=1}^{16}{(i-8.5)^2}}approx 18.439)(sumlimits_{i=1}^{16}{(x_i-ar{x})(i-8.5)}=-2.78),其中(x_i)为抽取的第(i)个零件的尺寸,(i=1,2,cdots,16)

用样本平均数(ar{x})作为(mu)的估计值(hat{mu}),用样本标准差(s)作为(sigma)的估计值(hat{sigma}),用估计值判断是否需对当天的生产过程进行检查?剔除((mu-3sigma,mu+3sigma))之外的数据,用剩下的数据估计(mu)(sigma)(精确到0.01).

附:若随机变量(Z)服从正态分布(N(mu,sigma^2)),则(P(mu-3sigma<Z<mu+3sigma)=0.9974)(0.9974^{16}≈0.9592)(sqrt{0.008}≈0.09)

分析:由(ar{x}=9.97)(sapprox 0.212),得到(mu)的估计值(hat{mu}=9.97)(sigma)的估计值(hat{sigma}= 0.212)

由样本数据可以看出,有一个零件的尺寸在((mu-3sigma,mu+3sigma))之外,因此需对当天的生产过程进行检查。

剔除((mu-3sigma,mu+3sigma))之外的数据(9.22),剩下数据的平均值为(cfrac{16 imes 9.97-9.22}{15}=10.02)

因此(mu)的估计值(hat{mu}=10.02)

由于(sumlimits_{i=1}^{16}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2),剔除数据(9.22)后剩下的数据,

(sumlimits_{i=1}^{15}{x_i^2}=16 imes 0.212^2+16 imes 9.97^2-9.22^2=1506.125)

(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2=1506.125-15 imes10.02^2=0.119104)

故剩余数据的样本方程为(cfrac{1}{15}(sumlimits_{i=1}^{15}{x_i^2}-15 imesar{x}_{15}^2)approx 0.008)

故所求的(sigma)的估计值为(hat{sigma}=sqrt{0.008}approx 0.09)

即剩下15个数据的平均数的估计值(hat{mu}=10.02),标准差的估计值(hat{sigma}=0.09)