位置: - 正文

Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容(linux用yum)

编辑：rootadmin

推荐整理分享Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容(linux用yum)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:linux怎样使用,在linux中,如何利用linux,如何利用linux,在linux中,在linux中,如何利用linux,如何利用linux,内容如对您有帮助，希望把文章链接给更多的朋友！

前言

想要做全文搜索引擎，则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。

但Word文档的情况则会复杂一些。

提取PDF文本内容

XPDF是一个免费开源的软件，用于显示PDF文件，并可将pdf转换成文字图片等，同样支持Windows版。在Debian Linux上安装非常简单:

我们这里只使用pdftotext这个功能，直接输入可查看帮助：

测试一下：

然后在node.js中使用 child_process直接调用此命令即可，pdftotext会将内容输出以文本文件中，可能需要多一些操作。具体代码略。

用antiword提取 .doc 的内容

我们这里使用了 antiword 开源软件，来提取word以前版本的内容，安装同样非常简单：

查看帮助：

antiword直接将word内容输出到了console中：

同样在node.js用child_process调用此命令即可。

解析提取.docx 的内容

对于 docx 文档来说，因基本身就是一个zip文件，只需要在node.js先将其解压，再解析 text.docxworddocument.xml 文件即可。

Github上也有些将docx解析成html的库，

如：

等。

总结

本文链接地址:https://www.jiuchutong.com/biancheng/382105.html 转载请保留说明！

下一篇链接:https://www.jiuchutong.com/biancheng/382106.html