位置: IT常识 - 正文

python如何提取文本信息?(python如何提取文件中的数据)

编辑:rootadmin

推荐整理分享python如何提取文本信息?(python如何提取文件中的数据),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:python提取txt指定内容,python怎么提取文件名,python提取文本文件中的数据,python正文提取,python提取文本文件中的数据,python提取文本文件中的数据,Python如何提取文件中的文字,Python如何提取文本框内容,内容如对您有帮助,希望把文章链接给更多的朋友!

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):#nltk默认的句子分段器sentences=nltk.sent_tokenize(document)#nltk默认分词器sentences=[nltk.word_tokenize(sent)forsentinsentences]#nltk默认词性标记sentences=[nltk.pos_tag(sent)forsentinsentences]python如何提取文本信息?(python如何提取文件中的数据)

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。classUnigramChunker(nltk.ChunkParserI):#constructordef__init__(self,train_sents):#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]forsentintrain_sents]#训练一元分块器#self.tagger=nltk.UnigramTagger(train_data)#训练二元分块器self.tagger=nltk.BigramTagger(train_data)#sentence为一个已标注的句子defparse(self,sentence):#提取词性标记pos_tags=[posfor(word,pos)insentence]#使用标注器为词性标记标注IOB词块tagged_pos_tags=self.tagger.tag(pos_tags)#提取词块标记chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]#将词块标记与原句组合conlltags=[(word,pos,chunktag)for((word,pos),chunktag)inzip(sentence,chunktags)]#转换成词块树returnnltk.chunk.conlltags2tree(conlltags)
本文链接地址:https://www.jiuchutong.com/zhishi/310697.html 转载请保留说明!

上一篇:Linux下载安装RabbitMQ(linux lab安装)

下一篇:帝国CMS如何判断会员是否登录及登录后才能看到内容(帝国cms如何判断图片有没有被使用)

  • 所得税调增调减项目有哪些
  • 增值税的计税依据包括
  • 购买办公用品为什么不能用现金
  • 出口消费税税率
  • 个人所得税中的综合所得包括哪些
  • 公司破产债务清偿顺序是怎样的
  • 怎么知道对方的支付宝账号
  • 使用党费要向哪里倾斜
  • 财务月末结转成什么账户
  • 如何在电子税务局开发票
  • 生产企业运费收入怎么处理?
  • 业务招待费记账凭证摘要
  • 存货换入无形资产考虑增值税
  • 银行的期初数据怎么进行账务处理?
  • 现金流量表借款还了流入和流出可以抵消吗
  • 建筑施工企业开立临时账户
  • 国际工程物资采购网
  • 员工休产假期间公司发工资吗
  • 公司给部分员工交公积金
  • 总承包简易计税
  • 保养费计入什么科目
  • windows11关机在哪
  • mac如何修改照片的尺寸大小
  • php数据库分页是怎么实现的
  • 单位给个人开票需要什么资料才能开
  • 税控机抵减增值税税额
  • 税务局关于免税资格的审核认定
  • 会计准则长期待摊费用开始计提摊销的时间
  • 增值税专票跨月怎么冲红
  • webpack devserver contentbase
  • 机器学习——BP神经网络详细介绍及案例Python代码实现
  • node.js安装步骤
  • 小程序项目开发流程
  • apache php mysql开发环境安装教程
  • return 重定向
  • sendmailadmin
  • 银行同业存放业务管理办法
  • 预缴纳税申报怎么不能保存
  • c+c#
  • 劳动仲裁要出钱吗
  • 工业企业成本核算会计分录
  • 营业利润包括资产处置收益吗
  • 外包人员的餐费可以全部扣除吗
  • 月底分红
  • file file=new file()的作用
  • sql获取第一条记录的内容
  • 个人所得税可以取出来用吗
  • 企业收利息会计科目
  • 深入浅出夏寒陆行全文免费阅读笔趣阁番外
  • 年底要结转净利润怎么算
  • 增值税期末留抵退税附加税退还吗
  • 在建工程什么意思
  • 工会经费保留整数吗
  • 母公司代子公司收款,子公司开具发票
  • 供应商质量考核单
  • 员工体检费发票怎么入账
  • 收到个人支付的培训费可以开对公的发票吗
  • sql查询和遍历数据
  • mysql总是安装失败
  • microsoft office诊断
  • centos8终端
  • Red Hat Enterprise Linux AS4( 企业版4.0下载)
  • ubuntu系统安装程序
  • 制作linux的u盘安装盘
  • 优化linux系统的方法
  • wysafe.exe是什么
  • win7无法注册dll文件
  • cocos2dx4.0教程
  • android 一个activity多个layout
  • android yield
  • 基于jQuey实现鼠标滑过变色(整行变色)
  • jquery地址
  • unity 3d ui
  • python库怎么用
  • 在文件中偏移量为
  • 粮食企业所得税税率
  • 单张发票开票限额?
  • 税务被风控了多久才会解除
  • 重庆市电子税务局官网
  • 出口退税是哪个环节交的
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设