1 准备工作

这部分为该程序执行前要做的准备工作。

1.1 本地文件路径

通过本程序抓取下来的html、pdf、doc、ppt、txt等文件分别存在其对应的文件夹内，路径依次为Filehtml，Filepdf，Filedoc，Fileppt，File xt，其他可下载文件存入Fileothers

数据库内存放各种信息。包括：

1.被抓取网页的类型、编码等信息；

2.文件下载后在本地的存储路径；

3.文件的下载时间记录、更新时间记录、最后一次更新记录。

将上述数据库配置到Windows（或Windows server）数据源中，数据库名为yuanhang1617，用户名密码依次为……（这个是由服务器决定的吧？）

该部分即为正式爬取过程中的操作方法及程序反馈等。

在主界面的URL seed中输入源网址，程序将从该网址开始，以广度优先方法依次爬取下一级链接。

在主界面how much pages中输入想要抓取的网页数量，该程序最终将会抓取这么多的网页及其内部信息。

在the number of thread中输入想要开启的爬取线程数。

本部分向用户阐明在抓取网页过程中对于该程序执行情况的反馈。

在主界面中会显示已爬取的URL数、当前爬取URL、爬取进度、爬取状态、最后爬取的100条URL。

在本地File路径下为爬取结果下载的文件内容，包含html、pdf、doc、ppt、txt等文件。

在数据库中保存本地文件的绝对路径、文件的下载地址及对应URL的网页编码与类型、对当前文件的下载时间、更新时间集、以及最后一次操作时间等信息。