实验4_数据分析与网络爬虫

64 人学过

***** 要求:将6个python代码文件压缩打包提交到ITC平台 *****

 

实验4  Python数据分析与网络爬虫

实验4.1:numpy数据分析

题目描述:利用numpy库完成2项编程任务。实验效果如图1-1所示。

(1)创建一个一维数组arr1,存放10个[10, 99]随机整数,计算其最大值,最小值和平均值。

(2)创建一个二维数组arr2,存放5行5列共25个[10, 99]随机整数,计算其最大值,最小值和平均值。

提示:使用numpy.array( )函数创建,通过列表生成数组对象。

                                                          图1-1

 

实验4.2pandas数据分析

题目描述:利用pandas库完成2项编程任务。

(1)利用列表、元组和字典分别创建3个一级索引的数据结构Series。实验效果如图2-1所示。

(2)利用字典和Series分别创建2个二级索引的数据结构DataFrame。实验效果如图2-2所示。

提示:使用pandas.Series( )和pandas.DataFrame( )分别创建一维Series和二维DataFrame数据结构;

   

                                            图2-1                                                                                          图2-2

 

实验4.3matplotlib数据可视化

题目描述:利用csv、random、datetime、pandas和matplotlib库完成5项编程任务。

  • 利用csv、random和datetime创建1个WPF商店2018年营业额模拟数据文件csv,此文件中包含两列数据(日期date、销量amount)。模拟数据随机生成共365条,数据日期date起于2018-01-01止于2018-12-31,数据销量amount的取值范围为[300,600]之间,如图3-1所示。

 

                                                                            图3-1

(2)利用pandas读取文件data.csv中数据,创建1个行列索引的数据结构DataFrame,并删除其中的所有缺失值。

(3)利用matplotlib生成折线图,按每天进行统计,显示商店每天的销量情况,并把图形保存为本地文件day_amount_plot.png。实验效果如图3-2所示。

                                                                                          图3-2

(4)利用matplotlib生成柱状图,按月份进行统计,显示商店每月的销量情况,并把图形保存为本地文件month_amount_bar.png。实验效果如图3-3所示。同时,找出相邻两个月最大涨幅,并把涨幅最大的月份写入到文件maxMonth.txt中。

                                                                                         图3-3

(5)利用matplotlib生成饼状图,按季度进行统计,显示商店4个季度的销量分布情况,并把图形保存为本地文件season_amount_pie.png。实验效果如图3-4所示。

                                             图3-4

提示:使用pandas.DataFrame( )创建二维DataFrame数据结构;使用matplotlib.pyplot库中的figure( )、plot( )、bar( )、pie( )、title( )、savefig( )和show( )等创建数据可视化图片,其功能分别设置图片大小、生成这线图、生成柱状图、生成饼状图、设置图片标题、保存图片和显示图片等。

 

实验4.4requests爬取文本

题目描述:利用爬虫库requests、正则表达式解析库re和纯文本txt完成编程任务,任务是爬取豆瓣排行榜的电影名称。本爬虫实验分为三个步骤:

(1)第一步数据爬取,通过requests爬取豆瓣排行榜的电影名称数据;本步骤实验说明如下:

爬取网址url=”https://movie.douban.com/chart”

浏览器用户代理”User-Agent”:”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36 Edg/99.0.1150.39”

说明:不同机器安装的浏览器用户代理也不一样,需要打开网址后,通过F12键打开开发工具查看URL和User-Agent。

(2)第二步数据解析,通过正则表达式re解析豆瓣排行榜的电影名称数据;

本步骤解析数据参考正则表达式是:re.compile(’<a.*?nbg.*?title=”(.*?)”>’,re.S)

(3)第三步存储数据,通过纯文本存储豆瓣排行榜的电影名称数据。实验效果如图4-1。

                                     图4-1

 

实验4.5:Requests爬取文本

题目描述:已知华中农业大学信息学院的网址是'https://coi.hzau.edu.cn'。首先利用requests库和beautifulsoup4库爬取并解析该网址的title标记的标题信息,然后利用csv库将爬取的标题信息存入文件名为title.csv的文件中,如下图5-1所示。

图5-1 爬取华中农业大学信息学院网址的标题信息

 

 

 

实验4_数据分析与网络爬虫
知识图谱 共1道题目

***** 要求:将6个python代码文件压缩打包提交到ITC平台 *****

 

实验4  Python数据分析与网络爬虫

实验4.1:numpy数据分析

题目描述:利用numpy库完成2项编程任务。实验效果如图1-1所示。

(1)创建一个一维数组arr1,存放10个[10, 99]随机整数,计算其最大值,最小值和平均值。

(2)创建一个二维数组arr2,存放5行5列共25个[10, 99]随机整数,计算其最大值,最小值和平均值。

提示:使用numpy.array( )函数创建,通过列表生成数组对象。

                                                          图1-1

 

实验4.2pandas数据分析

题目描述:利用pandas库完成2项编程任务。

(1)利用列表、元组和字典分别创建3个一级索引的数据结构Series。实验效果如图2-1所示。

(2)利用字典和Series分别创建2个二级索引的数据结构DataFrame。实验效果如图2-2所示。

提示:使用pandas.Series( )和pandas.DataFrame( )分别创建一维Series和二维DataFrame数据结构;

   

                                            图2-1                                                                                          图2-2

 

实验4.3matplotlib数据可视化

题目描述:利用csv、random、datetime、pandas和matplotlib库完成5项编程任务。

  • 利用csv、random和datetime创建1个WPF商店2018年营业额模拟数据文件csv,此文件中包含两列数据(日期date、销量amount)。模拟数据随机生成共365条,数据日期date起于2018-01-01止于2018-12-31,数据销量amount的取值范围为[300,600]之间,如图3-1所示。

 

                                                                            图3-1

(2)利用pandas读取文件data.csv中数据,创建1个行列索引的数据结构DataFrame,并删除其中的所有缺失值。

(3)利用matplotlib生成折线图,按每天进行统计,显示商店每天的销量情况,并把图形保存为本地文件day_amount_plot.png。实验效果如图3-2所示。

                                                                                          图3-2

(4)利用matplotlib生成柱状图,按月份进行统计,显示商店每月的销量情况,并把图形保存为本地文件month_amount_bar.png。实验效果如图3-3所示。同时,找出相邻两个月最大涨幅,并把涨幅最大的月份写入到文件maxMonth.txt中。

                                                                                         图3-3

(5)利用matplotlib生成饼状图,按季度进行统计,显示商店4个季度的销量分布情况,并把图形保存为本地文件season_amount_pie.png。实验效果如图3-4所示。

                                             图3-4

提示:使用pandas.DataFrame( )创建二维DataFrame数据结构;使用matplotlib.pyplot库中的figure( )、plot( )、bar( )、pie( )、title( )、savefig( )和show( )等创建数据可视化图片,其功能分别设置图片大小、生成这线图、生成柱状图、生成饼状图、设置图片标题、保存图片和显示图片等。

 

实验4.4requests爬取文本

题目描述:利用爬虫库requests、正则表达式解析库re和纯文本txt完成编程任务,任务是爬取豆瓣排行榜的电影名称。本爬虫实验分为三个步骤:

(1)第一步数据爬取,通过requests爬取豆瓣排行榜的电影名称数据;本步骤实验说明如下:

爬取网址url=”https://movie.douban.com/chart”

浏览器用户代理”User-Agent”:”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36 Edg/99.0.1150.39”

说明:不同机器安装的浏览器用户代理也不一样,需要打开网址后,通过F12键打开开发工具查看URL和User-Agent。

(2)第二步数据解析,通过正则表达式re解析豆瓣排行榜的电影名称数据;

本步骤解析数据参考正则表达式是:re.compile(’<a.*?nbg.*?title=”(.*?)”>’,re.S)

(3)第三步存储数据,通过纯文本存储豆瓣排行榜的电影名称数据。实验效果如图4-1。

                                     图4-1

 

实验4.5:Requests爬取文本

题目描述:已知华中农业大学信息学院的网址是'https://coi.hzau.edu.cn'。首先利用requests库和beautifulsoup4库爬取并解析该网址的title标记的标题信息,然后利用csv库将爬取的标题信息存入文件名为title.csv的文件中,如下图5-1所示。

图5-1 爬取华中农业大学信息学院网址的标题信息

 

 

 

总分值:100.00,共1道题。 总得分:0.00

# 题型 得分 进度 答案解析 提交之后才会显示答案
1 文件上传题 0.00 / 100.00 0 / 1
0%
查看答案解析 参与答题

共1道题目

参加本课程
全部批改

关闭