位置: IT常识 - 正文

疑问搞懂,python中文词频统计,让你真能学会(python答疑)

编辑:rootadmin
疑问搞懂,python中文词频统计,让你真能学会

推荐整理分享疑问搞懂,python中文词频统计,让你真能学会(python答疑),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python询问,python答疑,python疑难解答,python常问问题,python答疑,python语言问题,python语言问题,python常问问题,内容如对您有帮助,希望把文章链接给更多的朋友!

词频统计是指在文本中计算每个词出现的次数。 在 Python 中,可以使用一些第三方库(如 jieba)来分词,然后使用字典等数据结构记录每个词的词频。

Python中文词频统计知识点分词:需要对中文文本进行分词,分词的目的是将文本分解为独立的词语,便于后续的词频统计。字典:使用字典存储每个词的词频。字典的键为词语,值为词频。遍历:遍历分词后的结果,统计每个词出现的次数。排序:对字典按照词频排序,以得到词频最高的词。输出:最后,可以输出词频最高的词,也可以输出完整的词频字典。文章目录Python中文词频分词安装 jieba 库:使用 jieba.cut() 函数对中文文本进行分词:输出结果:使用字典可以很方便地存储每个词语的词频再次整理Python词频统计的具体实现方法:停用词词干提取词云图Python 中文词频分词其它库Python中文词频分词安装 jieba 库:pip install jieba使用 jieba.cut() 函数对中文文本进行分词:import jiebatext = "梦想橡皮擦的Python博客很不错"seg_list = jieba.cut(text)print(list(seg_list))输出结果:['梦想', '橡皮擦', '的', 'Python', '博客', '很', '不错']使用字典可以很方便地存储每个词语的词频import jiebatext = "梦想橡皮擦的Python博客很不错"seg_list = jieba.cut(text)# print(list(seg_list))word_dict = {}for word in seg_list: print(word) if word in word_dict: word_dict[word] += 1 else: word_dict[word] = 1print(word_dict)再次整理Python词频统计的具体实现方法:导入 jieba 库,使用 jieba.cut() 函数对中文文本进行分词。遍历分词后的结果,统计每个词出现的次数。使用字典记录每个词出现的次数。对字典按照词频排序,并输出词频最高的词。

代码示例:

import jiebadef get_word_frequency(text): seg_list = jieba.cut(text) word_dict = {} for word in seg_list: if word in word_dict: word_dict[word] += 1 else: word_dict[word] = 1 sorted_word_dict = sorted(word_dict.items(), key=lambda x: x[1], reverse=True) return sorted_word_dicttext = "梦想橡皮擦的Python博客很不错"result = get_word_frequency(text)print(result)

停用词

在分词时,通常会忽略一些词语,这些词语被称为停用词。如常用的助词、介词等。

在 Python 中,可以预先加载停用词表,在分词时,如果词语是停用词,则忽略。

下面是一个简单的例子:

import jiebastop_words = set()with open("stop_words.txt", "r",encoding='utf-8') as f: for line in f: stop_words.add(line.strip())text = "梦想橡皮擦的Python博客很不错"seg_list = jieba.cut(text)filtered_words = [word for word in seg_list if word not in stop_words]print(filtered_words)

“stop_words.txt” 文件中是停用词表,每行一个词语。在代码中,通过 with open 语句读取文件,并将每个词语加入到 stop_words 集合中。在分词后,通过列表推导式,筛选出不是停用词的词语。文件中的内容如下:

词干提取

词干提取是将词语的不同形式提取为同一词干的过程。例如 “running” 和 “runner” 可以被提取为 “run”。

疑问搞懂,python中文词频统计,让你真能学会(python答疑)

在 Python 中,可以使用词干提取工具来进行词干提取,常见的词干提取工具有 nltk 库的 PorterStemmer 和 SnowballStemmer 。

下面是一个简单的例子:

import nltkfrom nltk.stem import SnowballStemmerstemmer = SnowballStemmer("english")words = ["run", "runner", "running"]stemmed_words = [stemmer.stem(word) for word in words]print(stemmed_words)

SnowballStemmer 函数的第一个参数是语言。 english 表示使用英语词干提取器。 其支持多种语言,可以指定不同的语言,以使用不同的词干提取器。例如,如果是法语文本,可以使用 SnowballStemmer("french") 。

stemmer.stem(word) 是 nltk 库的 SnowballStemmer 函数的一个方法,用于提取词干。

词云图

词云图是一种展示词频的可视化图形,其中词语的大小代表词频的多少。

在 Python 中,可以使用词云库 wordcloud 来生成词云图。

以下是一个使用 wordcloud 库创建词云图的简单示例:

from wordcloud import WordCloudimport matplotlib.pyplot as plttext = "ca1 ca2 ca3 ca4 ca4 ca4"wordcloud = WordCloud(width=400, height=400, random_state=21, max_font_size=110).generate(text)plt.figure(figsize=(10, 5))plt.imshow(wordcloud, interpolation="bilinear")plt.axis('off')plt.show()

首先使用 WordCloud 函数创建一个词云图对象,并设置图片的宽度、高度、随机状态、字体大小等参数。

然后,使用 generate() 方法生成词云图,并将其作为参数传递给 matplotlib 的 imshow() 函数。

最后,使用 show() 方法显示词云图。

Python 中文词频分词其它库thulac:thulac 是一个中文分词库,支持动态词性标注。snownlp:snownlp 是一个基于 SnowNLP 的中文自然语言处理库,支持中文分词、情感分析、关键词提取等功能。

📢📢📢📢📢📢 💗 你正在阅读 【梦想橡皮擦】 的博客 👍 阅读完毕,可以点点小手赞一下 🌻 发现错误,直接评论区中指正吧 📆 橡皮擦的第 872 篇原创博客

👇 全网 6000+人正在学习的 爬虫专栏 👇👇👇👇

⭐️ Python 爬虫 120,点击订购 ⭐️⭐️ 爬虫 100 例教程,点击订购 ⭐️
本文链接地址:https://www.jiuchutong.com/zhishi/300298.html 转载请保留说明!

上一篇:OpenCV中的图像处理 —— 傅里叶变换+模板匹配(opencv如何显示图片)

下一篇:端午假期整理了仿天猫H5 APP项目vue.js+express+mongo(端午假期干什么)

  • 什么类型的博客点击量最高(什么类型的博客最好)

    什么类型的博客点击量最高(什么类型的博客最好)

  • 为什么库乐队设置不了铃声(为什么库乐队设置的铃声音质都不好)

    为什么库乐队设置不了铃声(为什么库乐队设置的铃声音质都不好)

  • 账户状态异常(账户状态异常是什么意思)

    账户状态异常(账户状态异常是什么意思)

  • 手机电量跑得快怎么处理(手机电量跑得快从哪里看我开了什么)

    手机电量跑得快怎么处理(手机电量跑得快从哪里看我开了什么)

  • iphone待机一晚上耗电多少正常(iphone待机一晚上掉30%)

    iphone待机一晚上耗电多少正常(iphone待机一晚上掉30%)

  • oppoa92s有nfc功能吗(oppoa92支不支持nfc)

    oppoa92s有nfc功能吗(oppoa92支不支持nfc)

  • 荣耀v10支持多少w快充(荣耀V10支持多少G的内存卡?)

    荣耀v10支持多少w快充(荣耀V10支持多少G的内存卡?)

  • pppoe错误怎么解决(pppoe错误代码)

    pppoe错误怎么解决(pppoe错误代码)

  • qq群语音通话人数上限(qq群语音通话人员进进出出声音太吵)

    qq群语音通话人数上限(qq群语音通话人员进进出出声音太吵)

  • ipadproa1701到底是第几代(ipadproa1701价格)

    ipadproa1701到底是第几代(ipadproa1701价格)

  • 如何设置黑名单提示音(如何设置黑名单短信收不到)

    如何设置黑名单提示音(如何设置黑名单短信收不到)

  • 对方账号封禁什么意思(对方账号已被禁封是怎么回事)

    对方账号封禁什么意思(对方账号已被禁封是怎么回事)

  • iphone总是弹出输入密码(苹果输入老是蹦出来东西什么意思)

    iphone总是弹出输入密码(苹果输入老是蹦出来东西什么意思)

  • 手机锁屏怎么取消(手机锁屏怎么取消掉)

    手机锁屏怎么取消(手机锁屏怎么取消掉)

  • 为什么微信点赞不提醒(为什么微信点赞别人的也要显示)

    为什么微信点赞不提醒(为什么微信点赞别人的也要显示)

  • 苹果耳机单个能买吗(苹果耳机单个能连接吗)

    苹果耳机单个能买吗(苹果耳机单个能连接吗)

  • ipad可以播放flash吗(ipad可以播放flash的浏览器)

    ipad可以播放flash吗(ipad可以播放flash的浏览器)

  • 抖音怎么拍长腿特效(抖音怎么拍长腿视频)

    抖音怎么拍长腿特效(抖音怎么拍长腿视频)

  • ipad pro 快速截图(ipad pro快速截屏)

    ipad pro 快速截图(ipad pro快速截屏)

  • 联想电脑如何看显卡参数(联想电脑如何看内存容量)

    联想电脑如何看显卡参数(联想电脑如何看内存容量)

  • 在电脑怎么打印课程表(在电脑怎么打印图片出来)

    在电脑怎么打印课程表(在电脑怎么打印图片出来)

  • x5690相当于什么cpu(x5690cpu参数)

    x5690相当于什么cpu(x5690cpu参数)

  • Kali Linux鼠标怎么设置左撇子模式? Linux鼠标左手操作的选择方法(linux命令行使用鼠标)

    Kali Linux鼠标怎么设置左撇子模式? Linux鼠标左手操作的选择方法(linux命令行使用鼠标)

  • 资产总额的季度怎么算
  • 工商年报纳税总额包括哪些税
  • 主管盾和制单盾的区别
  • 企业清算的资产包括
  • 出售无形资产和转让无形资产
  • 个税里任职受雇从业类型
  • 一次性收取全年培训费
  • 用友工资系统参数设置
  • 企业季度预缴所得税怎么账务处理
  • 如何设置处理器个数如何设置显示器超频
  • 电子产品委外加工
  • 营改增后建筑业怎么开票
  • 公司土地转让另外公司
  • 工程项目垃圾清运项目编码
  • 固定资产清理科目怎么结转
  • 企业所得税税前扣除政策
  • 12万纳税
  • 跨年的发票可以冲红重开吗
  • 旅行社差额纳税开专票吗 会议会展
  • 税局定额的标准
  • 总公司给分公司钱
  • 融资租赁要怎么做
  • 旅游服务机票款普通发票可以抵扣吗
  • 吊装费和吊车费是一样的不?
  • 会计费用涉及哪些科目?
  • 收到员工补缴的公积金怎么入账
  • 资源费用怎么算
  • 发票红冲和作废一样吗
  • 换货的手续费走哪个科目
  • 办公费差旅费属于
  • 工资薪金支出账载金额小于实际发生额
  • win10开机启动文件路径
  • 原始凭证和记账凭证各应具备哪些内容
  • 公司实缴资本有什么风险
  • 软件存在的意义
  • 您的磁盘
  • 民办学校的财务制度
  • 一些出口商为什么要倾销
  • 劳务公司怎么做进项
  • cuda completed with errors
  • 购买其他权益工具
  • 交易性金融资产属于流动资产
  • 文件上传漏洞原因
  • pyecharts 表格
  • 旅游景点的门票能做费用吗
  • 我的Vue之旅 11 Vuex 实现购物车
  • 应收账款红冲什么意思
  • 银行对账单由谁负责
  • 小规模差额征税的账务处理
  • mysql数据库优化及sql调优
  • 税控盘 减免
  • 银行汇票的会计处理过程分为什么阶段
  • 固定资产溢余账务处理
  • 现金日记账要如何做账
  • 进销存的会计处理实务
  • 在外地设办事处需要办什么手续
  • 年底员工借款如何处理
  • 应纳税工资是应发还是实发
  • 薪金的定义
  • 残疾人就业保障金上年职工工资总额
  • 手写发票还能用么
  • 从mysql导出数据
  • 通过注册表修改office默认字体
  • win10虚拟桌面版
  • debian和ubuntu命令一样吗
  • exe什么意思?
  • xp创建VPN连接图文教程
  • VirtualBox安装64位系统报错的处理方法
  • windows8.1玩穿越火线
  • iptables centos
  • win8怎么连接宽带账号密码
  • 列举css的三种应用方式
  • jquery常用api
  • python科学绘图
  • Vuforia 4.0 beta——Object Recognition (二)
  • python 多线程
  • 贵阳网上办税服务厅
  • 大连电子税务局app下载
  • 杭州车辆购置税怎么算
  • 新能源车需要缴纳购置税吗?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设