位置: IT常识 - 正文
推荐整理分享python如何提取文本信息?(python如何提取文件中的数据),希望有所帮助,仅作参考,欢迎阅读内容。
文章相关热门搜索词:python提取txt指定内容,python怎么提取文件名,python提取文本文件中的数据,python正文提取,python提取文本文件中的数据,python提取文本文件中的数据,Python如何提取文件中的文字,Python如何提取文本框内容,内容如对您有帮助,希望把文章链接给更多的朋友!
1、信息提取
先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。
defie_preprocess(document):#nltk默认的句子分段器sentences=nltk.sent_tokenize(document)#nltk默认分词器sentences=[nltk.word_tokenize(sent)forsentinsentences]#nltk默认词性标记sentences=[nltk.pos_tag(sent)forsentinsentences]2、词块划分
词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。
如Noun Phrase Chunking(名词短语词块划分)
使用正则表达式来定义一个语法,来进行名词短语词块的划分
3、开发和评估词块划分器
分区器可以用evaluate()方法评价分区器的性能好坏。
以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。
#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。classUnigramChunker(nltk.ChunkParserI):#constructordef__init__(self,train_sents):#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]forsentintrain_sents]#训练一元分块器#self.tagger=nltk.UnigramTagger(train_data)#训练二元分块器self.tagger=nltk.BigramTagger(train_data)#sentence为一个已标注的句子defparse(self,sentence):#提取词性标记pos_tags=[posfor(word,pos)insentence]#使用标注器为词性标记标注IOB词块tagged_pos_tags=self.tagger.tag(pos_tags)#提取词块标记chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]#将词块标记与原句组合conlltags=[(word,pos,chunktag)for((word,pos),chunktag)inzip(sentence,chunktags)]#转换成词块树returnnltk.chunk.conlltags2tree(conlltags)上一篇:Linux下载安装RabbitMQ(linux lab安装)
下一篇:帝国CMS如何判断会员是否登录及登录后才能看到内容(帝国cms如何判断图片有没有被使用)
友情链接: 武汉网站建设