位置: IT常识 - 正文

python如何提取文本信息?(python如何提取文件中的数据)

编辑:rootadmin

推荐整理分享python如何提取文本信息?(python如何提取文件中的数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python提取txt指定内容,python怎么提取文件名,python提取文本文件中的数据,python正文提取,python提取文本文件中的数据,python提取文本文件中的数据,Python如何提取文件中的文字,Python如何提取文本框内容,内容如对您有帮助,希望把文章链接给更多的朋友!

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):#nltk默认的句子分段器sentences=nltk.sent_tokenize(document)#nltk默认分词器sentences=[nltk.word_tokenize(sent)forsentinsentences]#nltk默认词性标记sentences=[nltk.pos_tag(sent)forsentinsentences]python如何提取文本信息?(python如何提取文件中的数据)

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。classUnigramChunker(nltk.ChunkParserI):#constructordef__init__(self,train_sents):#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]forsentintrain_sents]#训练一元分块器#self.tagger=nltk.UnigramTagger(train_data)#训练二元分块器self.tagger=nltk.BigramTagger(train_data)#sentence为一个已标注的句子defparse(self,sentence):#提取词性标记pos_tags=[posfor(word,pos)insentence]#使用标注器为词性标记标注IOB词块tagged_pos_tags=self.tagger.tag(pos_tags)#提取词块标记chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]#将词块标记与原句组合conlltags=[(word,pos,chunktag)for((word,pos),chunktag)inzip(sentence,chunktags)]#转换成词块树returnnltk.chunk.conlltags2tree(conlltags)
本文链接地址:https://www.jiuchutong.com/zhishi/310697.html 转载请保留说明!

上一篇:Linux下载安装RabbitMQ(linux lab安装)

下一篇:帝国CMS如何判断会员是否登录及登录后才能看到内容(帝国cms如何判断图片有没有被使用)

  • 非营利组织免税资格认定申请表
  • 两处取得工资的成语
  • 应收账款和应付账款可以抵消吗
  • 三栏式明细账适用于银行存款吗
  • 差旅费津贴怎么报税
  • 事业单位私车公用条例
  • 远期采购合同会查吗
  • 资产报废账务处理资产处置损益
  • 付款方式公对公什么意思
  • 物业公司收到一年物业费开具发票后如何确认收入
  • 电梯安装简易征收的优点
  • 绿化费用明细
  • 保障性住房享有怎么取消儿子的名字呀
  • 开通税种需要带发票吗
  • 培训费增值税专用发票怎么开
  • 企业合并报表后为何要抵消盈余公积补提?
  • 自产农产品销售怎么做账
  • 理财赎回本金没赎回利息咋办
  • 代缴个税税务局奖励款怎么做账?
  • 工程储备的材料是存货吗
  • 代账代税与自行核算申报应从哪几个角度考虑
  • 结转本月销售成本的会计分录
  • 公司注销时帐面清算
  • 如何查看本机的ip 网关 和dns配置
  • 更改macbook
  • 开源鸿蒙适配
  • 权限控制的原则是什么
  • php精彩编程200例
  • 营业费用这个科目还在用吗
  • 企业收回应收账款会计分录
  • 计算机视觉会议2023年11月
  • php similar_text()函数的定义和用法
  • 应收账款的账期是什么意思
  • 工程物资发生报废损毁
  • dedecms主页修改
  • python struct库
  • 批量替换多个word文档的同一内容
  • 建筑业差额纳税申报
  • access数据库如何
  • sql server搜索语句
  • 代开发票相关问答有什么?
  • 社保局退的工伤保险怎么记账
  • 销售退货会计分录
  • 承兑汇票利息分录
  • 奖励促销策略
  • 固定资产相关业务
  • 一般纳税人购买汽车会计分录
  • 客户试用产品期间怎么跟进
  • 强化劳务输出
  • 出库单上面的单位写谁的
  • 增值税免税入账
  • 一般纳税人销售使用过的固定资产
  • 其他应收款待抵扣借方是什么意思啊
  • 企业如何建账之类的账目
  • sql只能查询数据,不能修改数据
  • windows mobile应用下载
  • mac salad
  • ghost还原文件
  • windows8.1使用教程
  • 桌面开始菜单跑到右边去了怎么办
  • ubuntu on xorg
  • win10 oem key
  • fpx是什么文件格式
  • win10系统声音怎么打开
  • wind8桌面
  • 超级按钮条上的设置
  • win10升级准备就绪需要多久
  • win8系统升级win8.1
  • win10 rs3
  • perl数组求和
  • osg uniform
  • cocos-2dx
  • 批处理基础知识
  • 正则批量匹配
  • easyui表格
  • 用jquery实现局部刷新
  • win7 python
  • unity相关问题
  • 高新企业公布
  • 建筑业统一发票税率
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设