位置: IT常识 - 正文

疑问搞懂,python中文词频统计,让你真能学会(python答疑)

编辑:rootadmin
疑问搞懂,python中文词频统计,让你真能学会

推荐整理分享疑问搞懂,python中文词频统计,让你真能学会(python答疑),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python询问,python答疑,python疑难解答,python常问问题,python答疑,python语言问题,python语言问题,python常问问题,内容如对您有帮助,希望把文章链接给更多的朋友!

词频统计是指在文本中计算每个词出现的次数。 在 Python 中,可以使用一些第三方库(如 jieba)来分词,然后使用字典等数据结构记录每个词的词频。

Python中文词频统计知识点分词:需要对中文文本进行分词,分词的目的是将文本分解为独立的词语,便于后续的词频统计。字典:使用字典存储每个词的词频。字典的键为词语,值为词频。遍历:遍历分词后的结果,统计每个词出现的次数。排序:对字典按照词频排序,以得到词频最高的词。输出:最后,可以输出词频最高的词,也可以输出完整的词频字典。文章目录Python中文词频分词安装 jieba 库:使用 jieba.cut() 函数对中文文本进行分词:输出结果:使用字典可以很方便地存储每个词语的词频再次整理Python词频统计的具体实现方法:停用词词干提取词云图Python 中文词频分词其它库Python中文词频分词安装 jieba 库:pip install jieba使用 jieba.cut() 函数对中文文本进行分词:import jiebatext = "梦想橡皮擦的Python博客很不错"seg_list = jieba.cut(text)print(list(seg_list))输出结果:['梦想', '橡皮擦', '的', 'Python', '博客', '很', '不错']使用字典可以很方便地存储每个词语的词频import jiebatext = "梦想橡皮擦的Python博客很不错"seg_list = jieba.cut(text)# print(list(seg_list))word_dict = {}for word in seg_list: print(word) if word in word_dict: word_dict[word] += 1 else: word_dict[word] = 1print(word_dict)再次整理Python词频统计的具体实现方法:导入 jieba 库,使用 jieba.cut() 函数对中文文本进行分词。遍历分词后的结果,统计每个词出现的次数。使用字典记录每个词出现的次数。对字典按照词频排序,并输出词频最高的词。

代码示例:

import jiebadef get_word_frequency(text): seg_list = jieba.cut(text) word_dict = {} for word in seg_list: if word in word_dict: word_dict[word] += 1 else: word_dict[word] = 1 sorted_word_dict = sorted(word_dict.items(), key=lambda x: x[1], reverse=True) return sorted_word_dicttext = "梦想橡皮擦的Python博客很不错"result = get_word_frequency(text)print(result)

停用词

在分词时,通常会忽略一些词语,这些词语被称为停用词。如常用的助词、介词等。

在 Python 中,可以预先加载停用词表,在分词时,如果词语是停用词,则忽略。

下面是一个简单的例子:

import jiebastop_words = set()with open("stop_words.txt", "r",encoding='utf-8') as f: for line in f: stop_words.add(line.strip())text = "梦想橡皮擦的Python博客很不错"seg_list = jieba.cut(text)filtered_words = [word for word in seg_list if word not in stop_words]print(filtered_words)

“stop_words.txt” 文件中是停用词表,每行一个词语。在代码中,通过 with open 语句读取文件,并将每个词语加入到 stop_words 集合中。在分词后,通过列表推导式,筛选出不是停用词的词语。文件中的内容如下:

词干提取

词干提取是将词语的不同形式提取为同一词干的过程。例如 “running” 和 “runner” 可以被提取为 “run”。

疑问搞懂,python中文词频统计,让你真能学会(python答疑)

在 Python 中,可以使用词干提取工具来进行词干提取,常见的词干提取工具有 nltk 库的 PorterStemmer 和 SnowballStemmer 。

下面是一个简单的例子:

import nltkfrom nltk.stem import SnowballStemmerstemmer = SnowballStemmer("english")words = ["run", "runner", "running"]stemmed_words = [stemmer.stem(word) for word in words]print(stemmed_words)

SnowballStemmer 函数的第一个参数是语言。 english 表示使用英语词干提取器。 其支持多种语言,可以指定不同的语言,以使用不同的词干提取器。例如,如果是法语文本,可以使用 SnowballStemmer("french") 。

stemmer.stem(word) 是 nltk 库的 SnowballStemmer 函数的一个方法,用于提取词干。

词云图

词云图是一种展示词频的可视化图形,其中词语的大小代表词频的多少。

在 Python 中,可以使用词云库 wordcloud 来生成词云图。

以下是一个使用 wordcloud 库创建词云图的简单示例:

from wordcloud import WordCloudimport matplotlib.pyplot as plttext = "ca1 ca2 ca3 ca4 ca4 ca4"wordcloud = WordCloud(width=400, height=400, random_state=21, max_font_size=110).generate(text)plt.figure(figsize=(10, 5))plt.imshow(wordcloud, interpolation="bilinear")plt.axis('off')plt.show()

首先使用 WordCloud 函数创建一个词云图对象,并设置图片的宽度、高度、随机状态、字体大小等参数。

然后,使用 generate() 方法生成词云图,并将其作为参数传递给 matplotlib 的 imshow() 函数。

最后,使用 show() 方法显示词云图。

Python 中文词频分词其它库thulac:thulac 是一个中文分词库,支持动态词性标注。snownlp:snownlp 是一个基于 SnowNLP 的中文自然语言处理库,支持中文分词、情感分析、关键词提取等功能。

📢📢📢📢📢📢 💗 你正在阅读 【梦想橡皮擦】 的博客 👍 阅读完毕,可以点点小手赞一下 🌻 发现错误,直接评论区中指正吧 📆 橡皮擦的第 872 篇原创博客

👇 全网 6000+人正在学习的 爬虫专栏 👇👇👇👇

⭐️ Python 爬虫 120,点击订购 ⭐️⭐️ 爬虫 100 例教程,点击订购 ⭐️
本文链接地址:https://www.jiuchutong.com/zhishi/300298.html 转载请保留说明!

上一篇:OpenCV中的图像处理 —— 傅里叶变换+模板匹配(opencv如何显示图片)

下一篇:端午假期整理了仿天猫H5 APP项目vue.js+express+mongo(端午假期干什么)

  • 飞机上可以充电吗(飞机上可以充电宝多大毫安最大)

    飞机上可以充电吗(飞机上可以充电宝多大毫安最大)

  • 抖音慢动作音乐对不上(抖音慢动作音乐不够)

    抖音慢动作音乐对不上(抖音慢动作音乐不够)

  • 抖音邀请好友怎么邀请(抖音邀请好友怎么没到账)

    抖音邀请好友怎么邀请(抖音邀请好友怎么没到账)

  • iphone怎么用微信支付(iPhone怎么用微信充值公交卡)

    iphone怎么用微信支付(iPhone怎么用微信充值公交卡)

  • qq消息免打扰为什么会自己关闭(qq消息免打扰为什么还会提示)

    qq消息免打扰为什么会自己关闭(qq消息免打扰为什么还会提示)

  • 一寸蓝底电子照片怎么弄(一寸蓝底电子照片尺寸)

    一寸蓝底电子照片怎么弄(一寸蓝底电子照片尺寸)

  • docx用什么软件打开(docx用什么软件可以打开)

    docx用什么软件打开(docx用什么软件可以打开)

  • 手机开空调是不是要下个什么软件(手机开空调不能调温度)

    手机开空调是不是要下个什么软件(手机开空调不能调温度)

  • 启用volte高清通话是什么意思(启用volte高清通话费流量吗)

    启用volte高清通话是什么意思(启用volte高清通话费流量吗)

  • 模拟摄像头怎么能变成网络的(模拟摄像头怎么接到网络录像机上)

    模拟摄像头怎么能变成网络的(模拟摄像头怎么接到网络录像机上)

  • 华为nova6怎么取卡(华为nova6怎么取出手机卡)

    华为nova6怎么取卡(华为nova6怎么取出手机卡)

  • 微信更换手机号频繁要等多久(微信更换手机号码后里面的信息会不会消失)

    微信更换手机号频繁要等多久(微信更换手机号码后里面的信息会不会消失)

  • word怎么把数字竖过来(word怎么把数字往上调)

    word怎么把数字竖过来(word怎么把数字往上调)

  • 抖音图片视频怎么制作(抖音图片视频怎么保存成单张图片)

    抖音图片视频怎么制作(抖音图片视频怎么保存成单张图片)

  • ptt中文什么意思

    ptt中文什么意思

  • 苹果11售价多少(苹果11售价多少人民币)

    苹果11售价多少(苹果11售价多少人民币)

  • 手机视频存在哪里(手机视频存在哪里不会丢失)

    手机视频存在哪里(手机视频存在哪里不会丢失)

  • 百度地图怎么圈范围(百度地图怎么圈出几公里的地方)

    百度地图怎么圈范围(百度地图怎么圈出几公里的地方)

  • qq怎么看单项好友有谁(qq怎么看单项好友的消息)

    qq怎么看单项好友有谁(qq怎么看单项好友的消息)

  • Win11太难用怎么办?手把手教你将Win11变得更顺手(wiwin11)

    Win11太难用怎么办?手把手教你将Win11变得更顺手(wiwin11)

  • 笔记本出厂预装Win8改装Win7的设置方法(笔记本电脑预装)

    笔记本出厂预装Win8改装Win7的设置方法(笔记本电脑预装)

  • 300Mbps Wi-Fi增强神器新版极卫星图赏(wifi增强器1200m的是不是比较好)

    300Mbps Wi-Fi增强神器新版极卫星图赏(wifi增强器1200m的是不是比较好)

  • 卡鲁拉国家公园里的小湖,爱沙尼亚 (© Sven Zacek/Minden Pictures)(卡拉公路)

    卡鲁拉国家公园里的小湖,爱沙尼亚 (© Sven Zacek/Minden Pictures)(卡拉公路)

  • 训练集、验证集、测试集的作用和划分比例?(训练集验证集和测试集)

    训练集、验证集、测试集的作用和划分比例?(训练集验证集和测试集)

  • 经营租赁增值税税率3%
  • 驾驶培训 增值税
  • 实际出资人享有什么权利
  • 建筑公司办公室照片真实
  • 金税三期电子发票怎么领取
  • 房产税的原值是如何确定的
  • 管理费抵扣如何计算
  • 其他应收款转入实收资本
  • 为别人开发票先收的税金怎么入帐?
  • 企业相互之间借款合法吗
  • 年终奖第二年才发怎么计算个税在个税app
  • 含有商品编码的增值税普通发票如何开具?
  • 餐饮消费,碰到商家不愿意开发票怎么办?
  • 已经计提的增值税怎么退
  • 未认证进项税额转出
  • 私对私转账是否缴纳个人所得税
  • 小规模专票普票都开怎么申报增值税
  • 股权增资稀释股价会涨吗
  • 利润表没有其他业务利润
  • 营业外支出期末需要结转吗
  • 小规模增值税报表模板
  • 先开发票再预缴税款吗
  • 短期借款有没有上年结转
  • 变更股权需要资质证书吗
  • 生产车间制造费用包括
  • 企业收到保险公司的赔款
  • 盈余公积必须提折旧吗
  • enter an integer
  • 货物运输税费
  • 前端gui
  • 公司购垃圾袋怎么做账
  • python雪花算法生成id
  • 让 new bing 使用 GPT-4 编写一个令人满意的程序全过程赏析
  • 命令行 压缩
  • 财政贴息会计处理怎么理解
  • 租赁业务
  • java计数器的用法
  • 织梦栏目描述调用
  • 织梦模板官网
  • 一般纳税人跨年冲红报年度所得税怎么做
  • 劳动仲裁的调解书可以撤销吗
  • sqlserver存储过程返回多个结果集
  • 售后服务维修收费制度
  • 国际结算手续费收入增值税
  • 已付款发票未到怎么做分录
  • 销项税计提多了
  • 跨年的施工项目成本
  • 企业计提坏账准备形成可抵扣暂时性差异
  • 固定资产处置怎么报税
  • 保险增值税发票是什么
  • 一般纳税人会计分录
  • 贸易公司的成本怎么做
  • 给客户购物卡如何充钱
  • 进项票是服务费怎么做会计分录
  • 删除mysql数据库命令
  • ubuntu 18.04网络连接
  • big是什么文件格式
  • services.exe是什么文件
  • 帝国时代2能在win10
  • svchosl.exe - svchosl是什么进程 有什么作用
  • win10系统浏览器怎么换成ie
  • win10浏览器没有网络连接
  • linux远程gui
  • win8.1自带usb3.0驱动吗
  • xp升win10教程
  • win8设备管理器没有端口
  • 使用linux的电脑
  • unity3d跑酷游戏推荐
  • 炉石传说用什么开发的
  • Unity3D游戏开发pdf
  • glslpe
  • 超漂亮的38种刺绣图案
  • jquery触发点击事件click
  • pycharm配置pyqt
  • 盗梦英雄限时占卜顺序
  • javascript如何学
  • androidstudio性能检测工具
  • 老板思维案例
  • 财税老师刘杨年龄
  • 携程机票票号怎么查询
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设