位置: 编程技术 - 正文
推荐整理分享python实现简单中文词频统计示例(python怎么用),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:python zhon,python简单gui,python简单gui,python 中,python中简单的例子,python zsh,python zsh,python中简单的例子,内容如对您有帮助,希望把文章链接给更多的朋友!
本文介绍了python实现简单中文词频统计示例,分享给大家,具体如下:
任务
简单统计一个小说中哪些个汉字出现的频率最高
知识点
1.文件操作2.字典3.排序4.lambda
代码
统计了一个M的小说,结果如下:
[(',', ), ('。', ), ('的', ), ('陈', ), ('欢', ), ('不', ), ('是', ), ('了', ), ('一', ), ('着', ), ('他', ), ('这', ), ('人', ), ('“', ), ('”', ), ('有', ), ('就', ), ('个', ), ('都', ), ('你', ), ('来', ), ('我', ), ('在', ), ('们', ), ('到', ), ('说', ), ('还', ), ('么', ), ('下', ), ('地', ), ('得', ), ('上', ), ('看', ), ('没', ), ('出', ), ('道', ), ('大', ), ('?', ), ('那', ), ('要', ), ('子', ), ('自', ), ('点', ), ('好', ), ('想', ), ('里', ), ('面', ), ('她', ), ('过', ), ('话', )]
使用jieba先对中文文档进行分词处理
输出的clean_title.txt内容邮轮,地中海,深度,罗马,自由纳西,柏林签证,步行,三天,批准申根,手把手,签证,申请,如何赞爆,法兰,穿越,葡萄酒,风景,河谷,世界欧洲颜色,一种,国家,一个水族箱,帕劳,七日,上帝奥林匹亚,跑步圣托, 里尼,文明古国,探访,爱琴海,魅力,希腊
2、统计词频
结果:
最后 4 欧洲幽蓝 1 集美 1 葡萄牙法多 1 工地 1 知道湖光山色 1 神圣 7 欧洲少女瑞士加游 1
根据词汇数量排序查看:
cat word.txt |sort -nr -k 2|more
神圣 7 最后 4 欧洲幽蓝 1 集美 1 葡萄牙法多 1 工地 1 知道湖光山色 1 欧洲少女瑞士加游 1
标签: python怎么用
本文链接地址:https://www.jiuchutong.com/biancheng/372190.html 转载请保留说明!上一篇:python中如何正确使用正则表达式的详细模式(Verbose mode expression)(python的步骤)
下一篇:python通过socket实现多个连接并实现ssh功能详解(python socketio)
友情链接: 武汉网站建设