程序代写代做代考 python 2020-2021学年体育学院体育硕士计算机课程大作业¶

2020-2021学年体育学院体育硕士计算机课程大作业¶

题目一:(30分)¶
读取iris数据集中鸢尾花的萼片、花瓣长度数据(见已保存的CSV格式文件iris.csv),
并对其:
(1)进行排序、去重,并求出和、累积和、均值、标准查、方差、最小值、最大值
(2)绘制Sepal.Length的直方图和密度图
(3)绘制Sepal.Length的分布图
(4)绘制Petal.Length在Species上值的分布,即将三种不同的鸢尾花各自的Petal.Length的分布图画出来
(5)绘制Sepal.Width和Petal.Width的散点图矩阵,以便进行这两种数据特征的对比

数据集说明:¶
Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。
数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,
花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
iris以鸢尾花的特征作为数据来源,常用在分类操作中。该数据集由3种不同类型的鸢尾花的各50个样本数据构成。
其中的一个种类与另外两个种类是线性可分离的,后两个种类是非线性可分离的。
该数据集包含了4个属性:
& Sepal.Length(花萼长度),单位是cm;
& Sepal.Width(花萼宽度),单位是cm;
& Petal.Length(花瓣长度),单位是cm;
& Petal.Width(花瓣宽度),单位是cm;
& Spiece(种类):Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

数据类型对象 (dtype)¶
数据类型对象(numpy.dtype 类的实例)用来描述与数组对应的内存区域是如何使用,它描述了数据的以下几个方面::
数据的类型(整数,浮点数或者 Python 对象)
数据的大小(例如, 整数使用多少个字节存储)
数据的字节顺序(小端法或大端法)
在结构化类型的情况下,字段的名称、每个字段的数据类型和每个字段所取的内存块的部分
如果数据类型是子数组,那么它的形状和数据类型是什么。
字节顺序是通过对数据类型预先设定 < 或 > 来决定的。 < 意味着小端法(最小值存储在最小的地址,即低位组放在最前面)。> 意味着大端法(最重要的字节存储在最小的地址,即高位组放在最前面)。
dtype 对象是使用以下语法构造的:
numpy.dtype(object, align, copy)
object – 要转换为的数据类型对象
align – 如果为 true,填充字段使其类似 C 的结构体。
copy – 复制 dtype 对象 ,如果为 false,则是对内置数据类型对象的引用
In [34]:
#导入模块
import numpy as np
import csv
In [ ]:
# 数据存储在iris.csv文件中,请编写代码读取数据保存在iris_data中:
In [ ]:
#注意上面得到的iris_data数据中最左侧1列的数据是索引值,请编写代码实现去除索引号操作,并将数据清理后的数据另存为iris_list:
In [ ]:
#在进行数据统计前,需要创建各类变量的数据类型,实现代码如下所示
#创建数据类型:在这里指定了iris对应的5个变量的数据类型为字符串,并指定了长度
datatype = np.dtype([(“Sepal.Length”,np.str_,40),
(“Sepal.Width”,np.str_,40),
(“Petal.Length”,np.str_,40),
(“Petal.Width”,np.str_,40),
(“Species”,np.str_,40)])
print(datatype)

#基于上面数据清理后的数据iris_list,创建对应的二维数组,命名为:iris_data
iris_data = np.array(iris_list,dtype = datatype)
iris_data

#将待处理数据的类型转化为float类型。
PetalLength = iris_data[“Petal.Length”].astype(float)
SepalLength = iris_data[‘Sepal.Length’].astype(float)
SepalWidth = iris_data[‘Sepal.Width’].astype(float)
PetalWidth = iris_data[‘Petal.Width’].astype(float)
In [ ]:
#(1)请完成下列操作:
#请编写对PetalLength进行排序的语句:

#请编写对PetalLength进行数据去重的语句:

#请编写代码求出PetalLength的和、均值、标准差、方差、最小值及最大值:
In [ ]:
#(2)绘制Sepal.Length的直方图和密度图
In [ ]:
#(3)绘制Sepal.Length的分布图
In [ ]:
#(4)绘制Petal.Length在Species上值的分布,即将三种不同的鸢尾花各自的Petal.Length的分布图画出来
In [ ]:
#(5)绘制Sepal.Width和Petal.Width的散点图矩阵,以便进行这两种数据特征的对比

题目二:(30分)¶
给定小费数据集tips.csv,来源于Python库Seaborn中自带的数据。
请对该小费数据集进行数据分析与可视化。
In [8]:
#导入相应库,并做显示设置
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams[‘font.sans-serif’] = [‘SimHei’] #用来正常显示中文标签
plt.rcParams[‘axes.unicode_minus’]=False #用来正常显示负号
%matplotlib inline
In [ ]:
#(1)请编写代码导入待处理数据tips.xls,并显示并显示前5行

#(2)请编写相应语句查看数据的描述信息
In [ ]:
#(2)修改列名为汉字,
#对应列名可改为:’total_bill’:’消费总额’,’tip’:’小费’,’sex’:’性别’,’smoker’:’是否抽烟’,’day’:’星期’,’time’:’聚餐时间段’,’size’:’人数’
#并显示前5行数据
In [ ]:
#(3)请编写代码实现绘制散点图帮助分析消费金额和总金额的关系,横坐标为“消费总额”和纵坐标为“小费”
In [ ]:
#(4)请用编写代码分析不同性别(男性顾客和女性顾客)谁更慷慨(即比较不同性别小费均值大大小)
In [ ]:
#(5)请打印输出本数据集涉及一个星期的哪几天?
#请编写代码分析不同日期(星期几?)和小费的关系,要求如下:
#采用直方图绘制出可视化图形,横坐标为“星期”,纵坐标为“小费”,注意设置字体大小及旋转角度,以及坐标值大小等参数
In [ ]:
#(6)请编写代码分析性别+抽烟组合因素对慷概度的影响:
#采用直方图绘制出可视化图形,横坐标为“性别,是否抽烟”,纵坐标为“小费”,注意设置字体大小及旋转角度,以及坐标值大小等参数
In [ ]:
#(7)请编写代码分析聚餐时间段余小费数额的关系
#采用直方图绘制出可视化图形,横坐标为“聚餐时间段”,纵坐标为“小费”,注意设置字体大小及旋转角度,以及坐标值大小等参数

题目三:(40分)¶
给定一个体育馆的相关数据(gymdata.csv),涉及一天参加锻炼的人数、时长、温度、锻炼日期、时间段等信息,请编制代码完成相应的数据分析操作 可视化库从Seaborn、Pyecharts中任意选择一个来分析:
1.数据中的温度temperature为华氏度,请将其转化为摄氏度,公式为摄氏温度(C)与华氏温度(F)的换算关系是:C=5×(F-32)/9
2.请基于不同日期(周一至周日,对应day_of_week取值中的0,1,2,3,4,5,6),参加锻炼人数分布(请绘制数据柱状图,注意给出图例等显示信息,可参考采用pyecharts的)
3.请绘制不同月份锻炼人数的饼图(请绘制数据柱状图,注意给出图例等显示信息,可参考采用pyecharts的)
4.请分析基于温度,绘制不同温度区间(C<=10,10=30,按摄氏温度分成四个区间)下的锻炼人数(请采用直方图和密度图可视化展示,自己决定所采用的可视化库及函数) In [ ]: