用什么样的采集方法采集新闻比较好呢,该怎么解决

用什么样的采集方法采集新闻比较好呢
好多cms系统都集成了采集功能,需要提供前缀+内容+后缀的方式,根据提供的前缀和后缀把内容找出来,他是怎么实现的呢?是不是先根据前缀将网页拆分成组,取第二个组,然后再根据后缀接着将这个组继续拆分成组,分组后的第一个部分就是内容了呢??

如果用正则直接取会不会更好??

------解决方案--------------------
根据具体页面特征标识信息,分析,选择解析方式

至于是否用正则,没有定论,正则也只是一种文本的解析方式——当然,正则绝对是把利剑!