位置: 编程技术 - 正文

Python自然语言处理之词干,词形与最大匹配算法代码详解(Python自然语言处理PDF)

编辑:rootadmin

推荐整理分享Python自然语言处理之词干,词形与最大匹配算法代码详解(Python自然语言处理PDF),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:Python自然语言处理 文法特征,Python自然语言处理周元哲电子书,Python自然语言处理PDF,Python自然语言处理 文法特征,Python自然语言处理 刘鸿博,Python自然语言处理,Python自然语言处理PDF,python自然语言处理总结,内容如对您有帮助,希望把文章链接给更多的朋友!

本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例,Python实现,下面我们一起看看具体内容。

自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization,二者非常类似。它们是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。

1、词干提取(stemming)

定义:Stemmingistheprocessforreducinginflected(orsometimesderived)wordstotheirstem,baseorrootform—generallyawrittenwordform.

解释一下,Stemming是抽取词的词干或词根形式(不一定能够表达完整语义)。

NLTK中提供了三种最常用的词干提取器接口,即Porterstemmer,LancasterStemmer和SnowballStemmer。

PorterStemmer基于Porter词干提取算法,来看例子

Lancaster Stemmer 基于Lancaster 词干提取算法,来看例子

Snowball Stemmer基于Snowball 词干提取算法,来看例子

2、词形还原(lemmatization)

定义:Lemmatisation(orlemmatization)inlinguistics,istheprocessofgroupingtogetherthedifferentinflectedformsofawordsotheycanbeanalysedasasingleitem.

可见,Lemmatisation是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)。相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值。

我们会在后面给出一个同MaxMatch算法相结合的更为复杂的例子。

这里介绍下词干提取和词形还原的联系与区别:

词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取

(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类

重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别

现将共同点和联系总结为以下4方面:

Python自然语言处理之词干,词形与最大匹配算法代码详解(Python自然语言处理PDF)

(1)目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(stem)

或原形的基础形式,都是一种对词的不同形态的统一归并的过程。

(2)结果部分交叉。词干提取和词形还原不是互斥关系,其结果是有部分交叉的。一部分词利用这两类方法都能达到相同的词形转换效果。如“dogs”的词

干为“dog”,其原形也为“dog”。

(3)主流实现方法类似。目前实现词干提取和词形还原的主流实现方法均是利用语言中存在的规则或利用词典映射提取词干或获得词的原形。

(4)应用领域相似。主要应用于信息检索和文本、自然语言处理等方面,二者均是这些应用的基本步骤

二者的区别归纳为以下5方面:

(1)在原理上,词干提取主要是采用“缩减”的方法,将词转换为词干,如将“cats”处理为“cat”,将“effective”处理为“effect”。而词形还原主要采用“转变”

的方法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。

(2)在复杂性上,词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但

原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。

(3)在实现方法上,虽然词干提取和词形还原实现的主流方法类似,但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减,从而达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则无法很好地完成。其更依赖于词典,进行词形变化和原形的映射,生成词典中的有效词。

(4)在结果上,词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“revival”词干提取的结果为“reviv”,“ailiner”词干提取的结果为“airlin”。而经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。

(5)在应用领域上,同样各有侧重。虽然二者均被应用于信息检索和文本处理中,但侧重不同。词干提取更多被应用于信息检索领域,如Solr、Lucene等,用于扩展检索,粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理,用于更细粒度、更为准确的文本分析和表达

相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值

3、最大匹配算法(MaxMatch)

MaxMatch算法在中文自然语言处理中常常用来进行分词(或许从名字上你已经能想到它是基于贪婪策略设计的一种算法)。通常,英语中一句话里的各个词汇之间通过空格来分割,这是非常straightforward的,但是中文却没有这个遍历。例如“我爱中华人民共和国”,这句话被分词的结果可能是这样的{‘我',‘爱',‘中华',‘人民',‘共和国'},又或者是{‘我',‘爱',‘中华人民共和国'},显然我们更倾向于后者的分词结果。因为‘中华人民共和国'显然是一个专有名词(把这样一个词分割来看显然并不明智)。我们选择后者的策略就是所谓的MaxMatch,即最大匹配。因为‘中华人民共和国'这个词显然要比‘中华',‘人民',‘共和国'这些词都长。

我们可以通过一个英文的例子来演示MaxMatch算法(其实中文处理的道理也是一样的)。算法从右侧开始逐渐减少字符串长度,以此求得可能匹配的最大长度的字符串。考虑到我们所获得的词汇可能包含有某种词型的变化,所以其中使用了Lemmatisation,然后在词库里进行匹配查找。

来看看算法的实现效果

当然,上述代码尚有一个不足,就是当字符串中存在非字母字符时(例如数字标点等),它可能会存在一些问题。有兴趣的读者不妨自己尝试完善改进这个版本的实现。

总结

标签: Python自然语言处理PDF

本文链接地址:https://www.jiuchutong.com/biancheng/372272.html 转载请保留说明!

上一篇:用不到50行的Python代码构建最小的区块链(python 500行)

下一篇:TF-IDF算法解析与Python实现方法详解(tf-idf例题)

  • 劳务费个人所得税税率表2023最新
  • 报税申报不了
  • 应收账款和应付账款可以抵消吗
  • 补发上年度奖金如何计税
  • 金税四期对小规模纳税人
  • 等额本息还款的特点
  • 固定资产投资损失怎么做账
  • 价外补贴需要交增值税吗
  • 小规模免税农产品怎么做账
  • 购进货品未取得发票如何处理
  • 收到销售折让的红字怎么做账
  • 销售包装物的会计处理
  • 境内所得境外发放工资
  • 劳务派遣案例分析题
  • 财务会计中的费用
  • 如何从工商信息中看出是小规模还是一般纳税人
  • 员工购买公司股权
  • 存货计价方法的选择对利润表中的项目没有影响
  • 民间非营利组织会计制度最新版
  • 托收承付结算的付款期均为三天
  • 未确认融资费用属于企业资产类科目对不对
  • 房地产销售佣金表格模板
  • 如何在excel中链接图片对方能显示
  • qqprotect.exe是什么进程?qqprotect.exe怎么禁止自动启动?
  • wordpress主题0skr
  • 房地产企业用开发产品对外投资涉及税收
  • php后端技术栈
  • 应付职工薪酬账户期末余额可能是
  • 物业收取停车费归谁所有
  • 常用的php操作mysql的函数有哪些
  • 加工费计入什么成本类别
  • yii框架连接数据库
  • 一台设备可以分开开票吗
  • 合并报表中为什么要抵损益
  • mongodb morphia
  • 织梦开发教程
  • 残保金由哪个部门负责稽查
  • 开增值税发票可以做三方协议吗?
  • 付国外专利费用需办什么手续
  • 在计算应纳税所得额时,下列支出不得扣除
  • 发票替票该怎么做账
  • 营业外收入交企业所得税吗
  • 出纳需要填写会计凭证吗
  • 2019员工旅游费最新规定
  • 员工备用金会计分录
  • 收到供应商的赔偿款要开票吗
  • 普通发票开具红字发票后发票联怎么处理?
  • 对外投资需要股东会决议吗
  • 收到先征后返的增值税计入哪里
  • 公司给客户的礼品太差了还需要给客户吗
  • 免税企业开了含税吗
  • 待清算商户款项分录的摘要是什么
  • 单位给个人转款怎么做账
  • 如何解绑企业微信绑定的邮箱
  • 应付账款怎么做平
  • sql命令语句
  • 一些有用的sql语句是什么
  • 微软补丁星期二更新吗
  • ubuntu怎么用
  • win10添加闹钟
  • ubuntu系统如何
  • 随机产生10个数
  • u盘安装win7视频教程
  • xp系统硬盘管理
  • windows缓存写入失败,数据怎么找回
  • 进程mmc.exe
  • 32位系统的电脑可以连接打印机吗
  • 一起回顾一下本周我们的读书生活
  • win10系统找不到无线网络连接
  • unity3d需要购买吗
  • javascript屏蔽元素
  • unity projector
  • js中鼠标经过事件
  • 超全面的竣工验收流程及资料
  • [置顶]电影名字《收件人不详》
  • unity3d跑酷游戏教程
  • 江苏省税务局电子发票
  • 别人用你的收款码能骗到钱吗
  • 办税人员怎么绑定电子税务系统
  • 成都国税工勤人员待遇
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设