《统计软件应用》课程大作业
从Kaggle网或其他渠道获取一个数据集,要求样本量不少1000,属性不少于20。基于数据集,用R软件完成下列工作:
1.对数据进行简单的统计描述,并给出相关图形。
2.通过可放回重复抽样(权重可变,20次)得到不同的训练集,
3.对每一训练集利用一种学习方法(如SVM方法、Logistic回归、决策树)得到弱学习器(一种学习方法可以重复4-5次),
4.通过组合方法将20个弱学习器组合成一个强学习器(投票器的权重可变),
5.计算组合后得到强学习器对OOB样本的预测效果。
6.比较得到的强学习器与弱学习器对OOB样本预测效果的差异。
要求:
• 在课堂派中提交大作业(word格式)。包括作业、R的基本程序、数据集和大作业的查重报告(简版和详细版)
• 行文格式要符合学校论文的正文格式。
• 按时在课堂派中提交大作业,超时没有成绩。
• 根据学校安排,在适当的时候提交大作业的纸质版。
https://www.kesci.com/home/project/5dbd8c03080dc300371f1a64