开源 java CMS

原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html

项目地址:http://www.freeteam.cn/

Web页面信息採集

   从FreeCMS 2.1開始支持

通过简单配置就可以抓取目标网页信息,支持增量式採集、keyword替换、定时採集,同一採集规则可採集多个页面(静态和动态)。可採集多种信息属性。可自己主动审核且静态化信息页面。

採集规则管理

从左側管理菜单点击採集规则进入。

开源 java CMS

加入採集规则

在採集规则列表下方点击"加入"button。

开源 java CMS

开源 java CMS

开源 java CMS

开源 java CMS

开源 java CMS

开源 java CMS

开源 java CMS

填写相关属性后点击"保存"button就可以。

採集规则属性说明

採集规则属性分为基本、设置、採集地址,採集属性。关键词替换。

普通情况下仅仅要在基本选项卡填写相关属性就可以完毕。假设须要很多其它高级设置能够使用后面几个选项卡。

以下针对主要属性进行解释说明。

名称:採集规则的名称。

採集到栏目:採集的信息要加入到那个栏目。

页面编码:目标网页的页面编码,默觉得UTF-8。

採集地址:目标网页的地址。在基本选项卡中仅仅能设置一个,想要设置多个能够在採集地址选项卡中设置。

採集调度:设置定时运行採集操作,这个设置很重要。仅仅有设置了採集调度系统才运行採集操作。

内容列表開始结束html:由于系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的開始结束html就非常重要,一定要设置为相对照较唯一的開始结束html,这样系统才干正确的截取到目标属性。

此属性主要为了截取目标页面信息列表的html.

内容地址開始结束html:依据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题開始结束html:依据上面的属性获取内容地址后。系统会抓取此内容地址的网页内容。然后依据此属性截取内容标题。内容相关属性的设置跟此属性类似。以下不再赘述。

状态:启用状态下的採集规则,系统才会运行。

採集图片:将信息内容中的图片下载到本地。

自己主动审核通过:将採集的信息直接设置为已审核状态。

使用採集信息点击量:默认採集到的信息的点击量为0。设置此属性和内容点击量開始结束html后系统会截取目标信息的点击量,设置为採集后信息的点击量。

最多採集内容数:默认不限制,假设设置了此属性,系统会从採集记录中统计此採集规则已採集了多少条信息,假设超过最多採集内容数。系统将不再採集。

将首幅图片设为标题图片:假设信息内容中有图片,则提取第一张做为标题图片。并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除。保留纯文本。

当内容为空时是否採集:可设置在内容为空时不採集此信息。

使用採集信息的加入时间:默认採集到的信息的加入时间为当前时间。设置此属性和内容加入时间開始结束html后系统会截取目标信息的加入时间,设置为採集后信息的加入时间。

採集信息加入时间格式:默认格式为yyyy-MM-dd,假设目标页面的加入时间格式不同,须要在这里设置为正确的日期格式。

採集開始时间:默觉得当前时间,假设不到採集開始时间,系统是不会採集的。

採集结束时间:默觉得永不结束,假设超过採集结束时间,系统是不会採集的。

内容地址补全url:由于有些网页使用的是相对路径或绝对路径。能够设置内容地址的前缀。

图片地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置图片链接地址的前缀。

内容中A标签链接地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置内容中A标签链接地址的前缀。

採集地址分为静态和动态地址,静态地址为固定的地址。动态地址一般指能够分页的地址,通过{page}来代表分页变量,能够设置从那一页採集到那一页,如http://www.freetam.cn/list_{page}.html,设置開始页数为1,结束页数为10,系统会自己主动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html全部页面的数据。

普通情况下我们仅仅採集信息的标题和内容就能够了,系统还提供採集内容描写叙述、点击量、作者、来源、加入时间属性的功能。

通过关键词替换功能,您能够将採集到的信息里面的关键词替换为自己想要的关键词。


编辑採集规则

选择须要编辑的採集规则,然后点击"编辑"button。

注意:同一时候仅仅能编辑一个採集规则。

开源 java CMS

填写相关属性后点击"保存"button就可以。

採集

选择须要採集的採集规则。然后点击"採集"button。

注意:同一时候仅仅能对一个採集规则进行採集操作。

开源 java CMS

开源 java CMS

删除採集规则

选择须要删除的採集规则,然后点击"删除"button。

提示:同一时候能够删除多个採集规则。

开源 java CMS

开源 java CMS

为了防止误操作,系统会提示用户是否删除,点击"确定"完毕删除操作。

查看採集记录

从左側管理菜单点击採集记录进入。

开源 java CMS在这里能够查看到全部web页面採集记录,您能够删除指定的採集记录。但并不会删除已採集的信息数据,选择须要删除的採集记录。然后点击"删除"button。

   提示:同一时候能够删除多个採集记录。


开源 java CMS

开源 java CMS

为了防止误操作,系统会提示用户是否删除。点击"确定"完毕删除操作。