实验一 中英文数据处理

54 人学过

本科人工智能2025秋季第一次实验

项目内容
知识图谱 共1个实验
实验1 实验一 中英文数据处理
一、基于二十大报告文本的中文词云可视化

1.文本读取与预处理:

1.1 读取20Congress.txt文件内容,使用jieba进行精确分词。

1.2 加载stopwords.txt中的停用词,过滤分词结果中的停用词;同时过滤词长小于 2 的词汇(如标点、单个字等无意义内容)。

2.词频统计:

2.1 构建字典存储过滤后词汇的出现频次,统计并输出关键词汇及其频次。

3.词云生成与保存:

3.1 以mapofChina.jpg为蒙版,设置词云背景色为白色、字体为SimHei.ttf(确保中文显示正常)、最大显示词汇量为 400。

3.2 基于词频数据生成词云图。

二、读取英文文本语料并完成统计

1.读取小说文本‘austen-emma.txt',对其分句处理;

2. 统计文本中的人名,输出出现频率最高的10个人名及其频次;

3. 对2中的结果用matplotlib画图展示,图形不限。

保存实验结果,不需要提交实验报告。

实验一 中英文数据处理

共1个实验

参加本项目
PyTorch自然语言处理