用逐步回归法拟合牛乳中干物质含量对其他乳成分的回归方程
(包头轻工职业技术学院 生物工程系,内蒙古 包头 014035)
摘 要:以荷斯坦牛生产性能测定数据为材料,使用逐步 回归法拟合了牛乳中干物质含量对其他乳成分的回归方程,并对回归方程进行回归诊断和实 际资料的验证。
关键词:逐步回归;乳成分;回归诊断
中图分类号:TS201.2 文献标识码:A 文章编号:1007—6921(2008)18—0080—02
随着牛奶逐渐进入我国居民的食谱,牛奶相关产业的研究也不断深入。牛奶是一种液体饮品 ,因而消费者不仅仅关心量的多少,更重视其营养成分的含量及比例。近年来广大学者对牛 乳成分作了大量的研究[1、2]。为了探索牛乳中干物质含量与乳脂率、乳蛋白率 、乳糖率等主要成分之间的关系,本研究用82头荷斯坦牛的牛奶样品测定数据对回归方程进 行拟合,然后用该方程对另外30头荷斯坦牛的数据进行预测,验证回归方程的可靠性。
1 数据来源
本研究所用数据来自两个荷斯坦牛场的生产性能测定(Dairy Herd Improvement, DHI)结 果。测定内容涉包括产奶量、乳脂率、乳蛋白率、乳糖率、体细胞数(SCC)等项目。
2 回归方程的拟合方法
2.1 简单回归方程的建立
考虑到牛乳干物质含量受产奶量、乳脂率、乳蛋白率、乳糖率、体细胞数(SCC)等因素的 影响,建立如下的简单回归模型:
s=b0+b1F+b2P+b3L+b4HTM+b5SCC+e
其中:〖ZK(〗s——奶样的干物质含量;
F——奶样的乳脂率;
P——奶样的乳蛋白率;
L——奶样的乳糖率;
HTM——被测牛只的当日产奶量;
SCC——奶样的体细胞数;
b0~b5——回归系数;
e——随机残差,e~N(0,б2)。
运用SAS8.2统计分析软件的Reg过程进行简单回归(full model)分析,结果列于表1。 2.2 逐步回归(stepwise regression)
逐步回归是一种从自变量集{x1,x2,…,xm}中选出适当的子集{xi1,xi 2,…,x }(l≤m)建立回归方程的方法。方程最终包含的所有自变量对因变量y的影响 是显著的,而不包括在方程中的变量对y的影响是不显著的(可忽略)[3]。
检验xk1的作用是否仍然显著,若不显著,马上剔除。如果仍然显著,考虑下一步引 入因子。
并且检验l个因子都重要,则第k步从剩下的变量中引入新因子xkl+1。若引入 xkl+1时,所有变量都显著,则考虑引入下一个因子;若有不显著的变量,将 其剔除,直到每一个因子都显著才考虑引入下一个变量。
如果到某一步,在剩下的变量中,没有作用显著的变量可引入,则停止,此时得到的回归方 程即为所求“最优”回归方程。
运用SAS8.2统计分析软件的Reg过程进行逐步回归(stepwise selection)分析,结果见表2 和表3。
2.3 回归诊断
为了判断通过逐步回归建立的方程能否恰当地拟合数据,参数估计和检验是否可靠,可以进 行回归方程的共线性诊断。共线性问题是指拟合多元线性回归时,自变量之间存在线性关系 或近似线性关系[3]。共线性诊断的方法是基于对自变量的观测数据构成的矩阵X′ X进行分析,常用统计量是方差膨胀因子VIF。
一般认为若VIF>10,表明模型中有很强的共线性问题。
此外,为了验证回归方程的合理性,用该方程预测了另外一个牛场的测定数据,将预测值与 真实测定值进行比较。
3 结果与分析
3.1 全模型回归
利用牛场的82条奶样测定数据,拟合包括5个自变量的回归方程,结果见表1。
由方差分析结果可以看出,自变量与依变量之间存在回归关系,回归方程显著(R2=0.99 2),得到回归方程(1):
但是产奶量(HTM)和体细胞数(SCC)两个自变量的回归系数估计非零检验不显著,显著性 概率分别为0.5917和0.8859,均>0.05。于是采用逐步回归对自变量进行筛选。
3.2 逐步回归结果
逐步回归过程按照偏回归平方和(Partial R-Square)的大小先后引入了乳脂率(F)、乳 蛋白率(P)和乳糖率(L)三个自变量,都达到了0.05的显著性水平,另外两个自变量-日 产奶量(HTM)和体细胞数(SCC)由于没有达到显著性水平而没有进入回归方程。
通过逐步回归拟合回归方程的方差分析和参数估计及检验见表3。可以看出“优化”的回归 方程回归平方和与原全模型回归方程回归平方和(R-Square)相同,但均方误的平方根(Ro ot MSE)却减小了,由0.058 68减小到0.058 04。说明通过逐步回归筛选自变量所得的方程 比原方程更优。所得回归方程(2):
3.3 回归方程的诊断结果
3.3.1 共线性诊断结果。SAS8.2统计分析的逐步回归过程,可以计算方差膨胀因子(VIF) ,见表3中参数估计的最后一列Variance Inflation,F、P、L三个自变量的方差膨胀因子分 别为1.040 84、1.020 27和1.029 9,远<10,说明三个自变量不存在线性相关,因而 回归方程是可信的。
3.3.2 用实际资料对方程验证。为了验证回归方程的合理性,我们用该方程预测了另外一 个牛场的测定数据,预测值与实际测定值比较见表4。
由表4可见由回归方程所得的估计值与实际测定值的相对误差非常小, 平均相对误差只有0.002 254。因此,利用本研究所的回归方程(2),通过乳脂率(F )、乳蛋白率(P)和乳糖率(L)三项指标估计乳中干物质含量是完全可行的。
[参考文献]
[1] 张少斌,郑冬吟.影响牛乳成分变化的因素[J].广东畜牧兽医科技,1998,2 3(1):28~29.
[2] John J.Kennely著,赵改名译.开发改变乳成分的潜力[J].国外畜牧科技,2 001,28(4):45~47.
[3] 高惠璇.实用统计方法与SAS系统[M].北京:北京大学出版社,2001.
版权声明:
1.十号范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《用逐步回归法拟合牛乳中干物质含量对其他乳成分的回归方程》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。
本栏目阅读排行
栏目最新
- 1在农民收入调查工作动员培训会上讲话
- 22024年领导干部政治素质自评材料(完整)
- 3公司党委党建工作总结报告【完整版】
- 42024年主题教育党建调研开展情况总结
- 52024年度区妇联关于党建工作述职报告(完整)
- 6关于加强企业人才队伍建设调研与思考(完整文档)
- 72024县党员干部抓基层党建工作述职报告
- 8第二批主题教育研讨发言:时刻“以民为本”,听“实言实语”,办实事好事
- 92024关于党员干部法治信仰情况调研报告(2024年)
- 10局网络安全工作责任制落实自查报告(全文)
- 11XX国企分管领导关于党建设引领企业高质量发展研讨发言(范文推荐)
- 122024年第二批主题教育专题读书班研讨发言提纲(6)【完整版】