二、libnpce组件

新闻文章正文抽取News Passage Content Extractor (NPCE)，是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

三、组件演示

打开页面： https://gitee.com/inrgihc/libnpce/releases/v1.0

下载httpd_npce_py-v1.0-bin.tar.gz文件，在centos环境下解压，然后执行：

cd httpd_npce_py/
./startup.sh

命令启动服务，打开浏览器访问服务器上的服务：http://XXX.XXX.XXX.XXX:7645

在页面中的URL栏中粘贴一个新闻页面的URL地址，然后点击右侧的“抽取”按钮查看效果，我的截图如下：

抽取的URL地址：http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

一个网站新闻页通用的正文抽取组件libnpce
一、背景
二、libnpce组件
三、组件演示
三、性能测试

经本人工作期间，将libnpce与计算所的constor组件（闭源）进行比较测试，性能相当，并应用在公司底层的爬虫模块中进行实时正文抽取。