信息学院在线教学平台

实验一中英文数据处理

54 人学过

本科人工智能2025秋季第一次实验

项目内容

知识图谱共1个实验

实验1 实验一中英文数据处理

一、基于二十大报告文本的中文词云可视化

1.文本读取与预处理：

1.1 读取20Congress.txt文件内容，使用jieba进行精确分词。

1.2 加载stopwords.txt中的停用词，过滤分词结果中的停用词；同时过滤词长小于 2 的词汇（如标点、单个字等无意义内容）。

2.词频统计：

2.1 构建字典存储过滤后词汇的出现频次，统计并输出关键词汇及其频次。

3.词云生成与保存：

3.1 以mapofChina.jpg为蒙版，设置词云背景色为白色、字体为SimHei.ttf（确保中文显示正常）、最大显示词汇量为 400。

3.2 基于词频数据生成词云图。

二、读取英文文本语料并完成统计

1.读取小说文本‘austen-emma.txt'，对其分句处理；

2. 统计文本中的人名，输出出现频率最高的10个人名及其频次；

3. 对2中的结果用matplotlib画图展示，图形不限。

保存实验结果，不需要提交实验报告。

共1个实验

参加本项目

PyTorch自然语言处理

实验一 中英文数据处理

项目内容

实验一中英文数据处理