64 人学过
***** 要求:将6个python代码文件压缩打包提交到ITC平台 *****
实验4 Python数据分析与网络爬虫
实验4.1:numpy数据分析
题目描述:利用numpy库完成2项编程任务。实验效果如图1-1所示。
(1)创建一个一维数组arr1,存放10个[10, 99]随机整数,计算其最大值,最小值和平均值。
(2)创建一个二维数组arr2,存放5行5列共25个[10, 99]随机整数,计算其最大值,最小值和平均值。
提示:使用numpy.array( )函数创建,通过列表生成数组对象。
图1-1
实验4.2:pandas数据分析
题目描述:利用pandas库完成2项编程任务。
(1)利用列表、元组和字典分别创建3个一级索引的数据结构Series。实验效果如图2-1所示。
(2)利用字典和Series分别创建2个二级索引的数据结构DataFrame。实验效果如图2-2所示。
提示:使用pandas.Series( )和pandas.DataFrame( )分别创建一维Series和二维DataFrame数据结构;
图2-1 图2-2
实验4.3:matplotlib数据可视化
题目描述:利用csv、random、datetime、pandas和matplotlib库完成5项编程任务。
图3-1
(2)利用pandas读取文件data.csv中数据,创建1个行列索引的数据结构DataFrame,并删除其中的所有缺失值。
(3)利用matplotlib生成折线图,按每天进行统计,显示商店每天的销量情况,并把图形保存为本地文件day_amount_plot.png。实验效果如图3-2所示。
图3-2
(4)利用matplotlib生成柱状图,按月份进行统计,显示商店每月的销量情况,并把图形保存为本地文件month_amount_bar.png。实验效果如图3-3所示。同时,找出相邻两个月最大涨幅,并把涨幅最大的月份写入到文件maxMonth.txt中。
图3-3
(5)利用matplotlib生成饼状图,按季度进行统计,显示商店4个季度的销量分布情况,并把图形保存为本地文件season_amount_pie.png。实验效果如图3-4所示。
图3-4
提示:使用pandas.DataFrame( )创建二维DataFrame数据结构;使用matplotlib.pyplot库中的figure( )、plot( )、bar( )、pie( )、title( )、savefig( )和show( )等创建数据可视化图片,其功能分别设置图片大小、生成这线图、生成柱状图、生成饼状图、设置图片标题、保存图片和显示图片等。
实验4.4:requests爬取文本
题目描述:利用爬虫库requests、正则表达式解析库re和纯文本txt完成编程任务,任务是爬取豆瓣排行榜的电影名称。本爬虫实验分为三个步骤:
(1)第一步数据爬取,通过requests爬取豆瓣排行榜的电影名称数据;本步骤实验说明如下:
爬取网址url=”https://movie.douban.com/chart”
浏览器用户代理”User-Agent”:”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36 Edg/99.0.1150.39”
说明:不同机器安装的浏览器用户代理也不一样,需要打开网址后,通过F12键打开开发工具查看URL和User-Agent。
(2)第二步数据解析,通过正则表达式re解析豆瓣排行榜的电影名称数据;
本步骤解析数据参考正则表达式是:re.compile(’<a.*?nbg.*?title=”(.*?)”>’,re.S)
(3)第三步存储数据,通过纯文本存储豆瓣排行榜的电影名称数据。实验效果如图4-1。
图4-1
实验4.5:Requests爬取文本
图5-1 爬取华中农业大学信息学院网址的标题信息
***** 要求:将6个python代码文件压缩打包提交到ITC平台 *****
实验4 Python数据分析与网络爬虫
实验4.1:numpy数据分析
题目描述:利用numpy库完成2项编程任务。实验效果如图1-1所示。
(1)创建一个一维数组arr1,存放10个[10, 99]随机整数,计算其最大值,最小值和平均值。
(2)创建一个二维数组arr2,存放5行5列共25个[10, 99]随机整数,计算其最大值,最小值和平均值。
提示:使用numpy.array( )函数创建,通过列表生成数组对象。
图1-1
实验4.2:pandas数据分析
题目描述:利用pandas库完成2项编程任务。
(1)利用列表、元组和字典分别创建3个一级索引的数据结构Series。实验效果如图2-1所示。
(2)利用字典和Series分别创建2个二级索引的数据结构DataFrame。实验效果如图2-2所示。
提示:使用pandas.Series( )和pandas.DataFrame( )分别创建一维Series和二维DataFrame数据结构;
图2-1 图2-2
实验4.3:matplotlib数据可视化
题目描述:利用csv、random、datetime、pandas和matplotlib库完成5项编程任务。
图3-1
(2)利用pandas读取文件data.csv中数据,创建1个行列索引的数据结构DataFrame,并删除其中的所有缺失值。
(3)利用matplotlib生成折线图,按每天进行统计,显示商店每天的销量情况,并把图形保存为本地文件day_amount_plot.png。实验效果如图3-2所示。
图3-2
(4)利用matplotlib生成柱状图,按月份进行统计,显示商店每月的销量情况,并把图形保存为本地文件month_amount_bar.png。实验效果如图3-3所示。同时,找出相邻两个月最大涨幅,并把涨幅最大的月份写入到文件maxMonth.txt中。
图3-3
(5)利用matplotlib生成饼状图,按季度进行统计,显示商店4个季度的销量分布情况,并把图形保存为本地文件season_amount_pie.png。实验效果如图3-4所示。
图3-4
提示:使用pandas.DataFrame( )创建二维DataFrame数据结构;使用matplotlib.pyplot库中的figure( )、plot( )、bar( )、pie( )、title( )、savefig( )和show( )等创建数据可视化图片,其功能分别设置图片大小、生成这线图、生成柱状图、生成饼状图、设置图片标题、保存图片和显示图片等。
实验4.4:requests爬取文本
题目描述:利用爬虫库requests、正则表达式解析库re和纯文本txt完成编程任务,任务是爬取豆瓣排行榜的电影名称。本爬虫实验分为三个步骤:
(1)第一步数据爬取,通过requests爬取豆瓣排行榜的电影名称数据;本步骤实验说明如下:
爬取网址url=”https://movie.douban.com/chart”
浏览器用户代理”User-Agent”:”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36 Edg/99.0.1150.39”
说明:不同机器安装的浏览器用户代理也不一样,需要打开网址后,通过F12键打开开发工具查看URL和User-Agent。
(2)第二步数据解析,通过正则表达式re解析豆瓣排行榜的电影名称数据;
本步骤解析数据参考正则表达式是:re.compile(’<a.*?nbg.*?title=”(.*?)”>’,re.S)
(3)第三步存储数据,通过纯文本存储豆瓣排行榜的电影名称数据。实验效果如图4-1。
图4-1
实验4.5:Requests爬取文本
图5-1 爬取华中农业大学信息学院网址的标题信息
关闭