位置: IT常识 - 正文

python如何提取文本信息?(python如何提取文件中的数据)

编辑:rootadmin

推荐整理分享python如何提取文本信息?(python如何提取文件中的数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python提取txt指定内容,python怎么提取文件名,python提取文本文件中的数据,python正文提取,python提取文本文件中的数据,python提取文本文件中的数据,Python如何提取文件中的文字,Python如何提取文本框内容,内容如对您有帮助,希望把文章链接给更多的朋友!

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):#nltk默认的句子分段器sentences=nltk.sent_tokenize(document)#nltk默认分词器sentences=[nltk.word_tokenize(sent)forsentinsentences]#nltk默认词性标记sentences=[nltk.pos_tag(sent)forsentinsentences]python如何提取文本信息?(python如何提取文件中的数据)

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。classUnigramChunker(nltk.ChunkParserI):#constructordef__init__(self,train_sents):#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]forsentintrain_sents]#训练一元分块器#self.tagger=nltk.UnigramTagger(train_data)#训练二元分块器self.tagger=nltk.BigramTagger(train_data)#sentence为一个已标注的句子defparse(self,sentence):#提取词性标记pos_tags=[posfor(word,pos)insentence]#使用标注器为词性标记标注IOB词块tagged_pos_tags=self.tagger.tag(pos_tags)#提取词块标记chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]#将词块标记与原句组合conlltags=[(word,pos,chunktag)for((word,pos),chunktag)inzip(sentence,chunktags)]#转换成词块树returnnltk.chunk.conlltags2tree(conlltags)
本文链接地址:https://www.jiuchutong.com/zhishi/310697.html 转载请保留说明!

上一篇:Linux下载安装RabbitMQ(linux lab安装)

下一篇:帝国CMS如何判断会员是否登录及登录后才能看到内容(帝国cms如何判断图片有没有被使用)

  • 酒类的包装物押金可以单独核算吗
  • 未达起征点的增值税怎么账务处理
  • 所得税申报表收入
  • 金税盘没有报税管理怎么把发票明细怎么导出
  • 营业收入包括投资净收益吗
  • 税控盘服务费抵减有效期几年
  • 开发票第一行
  • 如何让自己公司成为供应商
  • 取得的进项发票当月不抵扣怎么做账
  • 房租抵扣个税需要提供发票吗
  • 其它应付款是否可以直接冲收入呢?
  • 公司对项目管理方式
  • 资产折旧纳税
  • 收到的出口退税款一直有余额吗
  • 交易性金融资产借贷方向
  • 亏损企业交税
  • 怎么合理规范地避免企业涉税风险?
  • 粮食仓储设施设备管理
  • 金融企业贷款利率
  • 土地溢价款如何计算
  • 非居民企业租赁增值税
  • powershell不显示用户名
  • 鼠标反应迟钝是什么原因
  • 股东以无形资产投资,撤资时怎么算
  • 事业单位工作人员暂行处分办法
  • 如何申请税务发票
  • 个税的征税范围主要包括哪些项目
  • 债权转增资本公积账务处理
  • PHP:http_build_query()的用法_url函数
  • 超额累进税率包括
  • mcu version
  • 所得税减免与纳税的关系
  • 头歌java入门运算符和表达式答案
  • avoid什么用法
  • zend框架教程
  • 税控减免怎么做账
  • 固定资产不计提折旧有什么影响
  • 一般纳税人在什么情况下,不可以开具增值税专用发票
  • 酒店客房收入怎么算
  • 工程项目成本核算的依据主要有
  • php curl_setopt
  • 收到国税退回的发票
  • 提取企业所得税怎么做会计科目
  • 应付短期租入固定资产的租金计入什么科目
  • 去年的预提费用今年进来了怎么入账
  • mongodb $nin
  • 金蝶软件做账流程图片
  • 银行代发工资流程
  • 吊车租赁有限公司
  • 宾馆收入怎么做账
  • 生产成本有贷方余额怎么调整
  • 收到科技局补贴金费怎么入账
  • 坏账收回来了怎么处理
  • 外币汇兑会计分录
  • 其他应收款怎么冲平
  • 现金收款凭证的填制日期应当是
  • mysql详细教程
  • Windows 2008 R2 AD组策略-统一域用户桌面背景详细图文教程
  • win 9x
  • 使用灭火器时要对准火焰的什么部位喷射
  • linux的压缩包
  • ghost硬盘对拷反了
  • .intro
  • 快速锁定单元格的方法
  • w10 xbox
  • linux限速
  • shell 子函数
  • win7电脑键盘失灵怎么解决
  • windows8怎么搜索文件
  • cocos2dx schedule
  • vue.js作用
  • js双击触发
  • Linux中的host命令应用实例详解
  • python urllib urlopen
  • jquery如何解决跨域问题
  • js实现网页收藏的方法
  • javascript word
  • 企业购置房屋需要交哪些税费
  • 何为金税三期
  • 税控发票开票软件(金税盘版)事件代码768功能代码5?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设