网络舆论信息分析系统——(1)

网络舆情信息分析系统——(1)

学院实验室找老师,跟着老师做的项目。

四个大四,六个大三,分成三个组开始做的一个java项目。

先从网络上抓取数据,然后聚类分析,然后感情分析,得出最终结果。

我在的一组是做网络爬虫,将数据抓取下来供后面两个小组使用。一直都是在学java,所以做这个反而比做之前那个要顺手要舒服。

刚开始的时候,拿到手的,就是一个半成品。但是很多缺陷,比如暂时只能抓搜狐的,比如评论抓取有问题,存储慢,抓取慢,等等。

经过一个月边上课边做,还有好多别的事情。目前做到了:可以准确完整的抓取到搜狐上想要的新闻和评论,存储到文件系统中。现在第一紧要缺陷就是慢,很慢,这个问题正在解决,java并发多线程,应该可以极大提高资源利用率,提高效率。如果有哪位大哥大姐有建议或者方法也请指教。其次要解决的问题就是,如何自动适应不同门户网站,现在只能抓取搜狐的网页内容。


继续做,有空再写。希望大哥大姐们能有所指导,谢谢~

1楼authorzhh昨天 20:12
为什么只能抓搜狐的?难道你们抓取是根据搜狐网页的 id、class、name判断?n曾经写过一个與情,抓网页内容,取所有<a>,判断链接名称,出现关键字存到map中,这样就可以得到一个装好相关與情 链接的map。n用到 httpcomponment 和 jsoup (第一个名称不知道记错没)