请问从单一网站上某栏目按顺序采集信息,使用多线程的思路,有优化方法吗
问题描述:
公司做网站 需要采集其他网站的新闻信息,现有自制采集器,正则表达式,根据html标签判断采集信息,每页面50条信息,根据传入值来取多少页,C#语言 VS2008 单线程,每分钟大约几百条
该如何改编这个程序,让其多线程执行?希望能提供个大体的思路
我做了个简单的多线程 分5个线程,每个线程sleep(200毫秒)然后在线程里分别实例化bll类,用for循环执行分别采集(0-9,10-19,20-29,30-39,40-49)页的数据,1分钟采集插入372条数据
只使用1个线程 1分钟采集270条数据 感觉差距不大啊(当然这里面涉及到带宽 机器配置的问题)- -是要做什么优化吗
答
把0-50页面放入队列,开多线程读取这个队列,还嫌慢的话,开多个程序读取这个队列。