位置: - 正文

python实现简单中文词频统计示例(python怎么用)

编辑：rootadmin

推荐整理分享python实现简单中文词频统计示例(python怎么用)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:python zhon,python简单gui,python简单gui,python 中,python中简单的例子,python zsh,python zsh,python中简单的例子,内容如对您有帮助，希望把文章链接给更多的朋友！

本文介绍了python实现简单中文词频统计示例，分享给大家，具体如下：

任务

简单统计一个小说中哪些个汉字出现的频率最高

知识点

1.文件操作2.字典3.排序4.lambda

代码

统计了一个M的小说，结果如下：

[('，', ), ('。', ), ('的', ), ('陈', ), ('欢', ), ('不', ), ('是', ), ('了', ), ('一', ), ('着', ), ('他', ), ('这', ), ('人', ), ('“', ), ('”', ), ('有', ), ('就', ), ('个', ), ('都', ), ('你', ), ('来', ), ('我', ), ('在', ), ('们', ), ('到', ), ('说', ), ('还', ), ('么', ), ('下', ), ('地', ), ('得', ), ('上', ), ('看', ), ('没', ), ('出', ), ('道', ), ('大', ), ('？', ), ('那', ), ('要', ), ('子', ), ('自', ), ('点', ), ('好', ), ('想', ), ('里', ), ('面', ), ('她', ), ('过', ), ('话', )]

使用jieba先对中文文档进行分词处理

输出的clean_title.txt内容邮轮,地中海,深度,罗马,自由纳西,柏林签证,步行,三天,批准申根,手把手,签证,申请,如何赞爆,法兰,穿越,葡萄酒,风景,河谷,世界欧洲颜色,一种,国家,一个水族箱,帕劳,七日,上帝奥林匹亚,跑步圣托, 里尼,文明古国,探访,爱琴海,魅力,希腊

2、统计词频

结果：

最后 4 欧洲幽蓝 1 集美 1 葡萄牙法多 1 工地 1 知道湖光山色 1 神圣 7 欧洲少女瑞士加游 1

根据词汇数量排序查看：

cat word.txt |sort -nr -k 2|more

神圣 7 最后 4 欧洲幽蓝 1 集美 1 葡萄牙法多 1 工地 1 知道湖光山色 1 欧洲少女瑞士加游 1

本文链接地址:https://www.jiuchutong.com/biancheng/372190.html 转载请保留说明！

下一篇链接:https://www.jiuchutong.com/biancheng/372191.html