一、基于二十大报告文本的中文词云可视化
1.文本读取与预处理:
1.1 读取20Congress.txt文件内容,使用jieba进行精确分词。
1.2 加载stopwords.txt中的停用词,过滤分词结果中的停用词;同时过滤词长小于 2 的词汇(如标点、单个字等无意义内容)。
2.词频统计:
2.1 构建字典存储过滤后词汇的出现频次,统计并输出关键词汇及其频次。
3.词云生成与保存:
3.1 以mapofChina.jpg为蒙版,设置词云背景色为白色、字体为SimHei.ttf(确保中文显示正常)、最大显示词汇量为 400。
3.2 基于词频数据生成词云图。
二、读取英文文本语料并完成统计
1.读取小说文本‘austen-emma.txt',对其分句处理;
2. 统计文本中的人名,输出出现频率最高的10个人名及其频次;
3. 对2中的结果用matplotlib画图展示,图形不限。
保存实验结果,不需要提交实验报告。