信息学院在线教学平台

实验4_数据分析与网络爬虫

64 人学过

***** 要求：将6个python代码文件压缩打包提交到ITC平台 *****

实验4 Python数据分析与网络爬虫

实验4.1：numpy数据分析

题目描述：利用numpy库完成2项编程任务。实验效果如图1-1所示。

（1）创建一个一维数组arr1，存放10个[10, 99]随机整数，计算其最大值，最小值和平均值。

（2）创建一个二维数组arr2，存放5行5列共25个[10, 99]随机整数，计算其最大值，最小值和平均值。

提示：使用numpy.array( )函数创建，通过列表生成数组对象。

图1-1

实验4.2：pandas数据分析

题目描述：利用pandas库完成2项编程任务。

（1）利用列表、元组和字典分别创建3个一级索引的数据结构Series。实验效果如图2-1所示。

（2）利用字典和Series分别创建2个二级索引的数据结构DataFrame。实验效果如图2-2所示。

提示：使用pandas.Series( )和pandas.DataFrame( )分别创建一维Series和二维DataFrame数据结构；

图2-1 图2-2

实验4.3：matplotlib数据可视化

题目描述：利用csv、random、datetime、pandas和matplotlib库完成5项编程任务。

利用csv、random和datetime创建1个WPF商店2018年营业额模拟数据文件csv，此文件中包含两列数据（日期date、销量amount）。模拟数据随机生成共365条，数据日期date起于2018-01-01止于2018-12-31，数据销量amount的取值范围为[300，600]之间，如图3-1所示。

图3-1

（2）利用pandas读取文件data.csv中数据，创建1个行列索引的数据结构DataFrame，并删除其中的所有缺失值。

（3）利用matplotlib生成折线图，按每天进行统计，显示商店每天的销量情况，并把图形保存为本地文件day_amount_plot.png。实验效果如图3-2所示。

图3-2

（4）利用matplotlib生成柱状图，按月份进行统计，显示商店每月的销量情况，并把图形保存为本地文件month_amount_bar.png。实验效果如图3-3所示。同时，找出相邻两个月最大涨幅，并把涨幅最大的月份写入到文件maxMonth.txt中。

图3-3

（5）利用matplotlib生成饼状图，按季度进行统计，显示商店4个季度的销量分布情况，并把图形保存为本地文件season_amount_pie.png。实验效果如图3-4所示。

图3-4

提示：使用pandas.DataFrame( )创建二维DataFrame数据结构；使用matplotlib.pyplot库中的figure( )、plot( )、bar( )、pie( )、title( )、savefig( )和show( )等创建数据可视化图片，其功能分别设置图片大小、生成这线图、生成柱状图、生成饼状图、设置图片标题、保存图片和显示图片等。

实验4.4：requests爬取文本

题目描述：利用爬虫库requests、正则表达式解析库re和纯文本txt完成编程任务，任务是爬取豆瓣排行榜的电影名称。本爬虫实验分为三个步骤：

（1）第一步数据爬取，通过requests爬取豆瓣排行榜的电影名称数据；本步骤实验说明如下：

爬取网址url=”https://movie.douban.com/chart”

浏览器用户代理”User-Agent”:”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36 Edg/99.0.1150.39”

说明：不同机器安装的浏览器用户代理也不一样，需要打开网址后，通过F12键打开开发工具查看URL和User-Agent。

（2）第二步数据解析，通过正则表达式re解析豆瓣排行榜的电影名称数据；

本步骤解析数据参考正则表达式是：re.compile(’<a.*?nbg.*?title=”(.*?)”>’,re.S)

（3）第三步存储数据，通过纯文本存储豆瓣排行榜的电影名称数据。实验效果如图4-1。

图4-1

实验4.5：Requests爬取文本

题目描述：已知华中农业大学信息学院的网址是'https://coi.hzau.edu.cn'。首先利用requests库和beautifulsoup4库爬取并解析该网址的title标记的标题信息，然后利用csv库将爬取的标题信息存入文件名为title.csv的文件中，如下图5-1所示。

图5-1 爬取华中农业大学信息学院网址的标题信息