采集网页有关问题，怎么提取不同来源正文页中的正文部分？恳请提供方法或思路

采集网页问题，如何提取不同来源正文页中的正文部分？恳请各位高手提供方法或思路
在采集不同网页内容时，我遇到个很难解决的问题，就是如何正确的、完整的提取网页中的正文部分，而把其他的内容去除；注意不是针对某个网站，而是针对所有的网站。感谢各位高手赐教，如果有好的方法，还可以另行加分！

------解决方案--------------------
模式识别也要有模式才行，没有模式想要识别是不可能的。
------解决方案--------------------

探讨
模式识别也要有模式才行，没有模式想要识别是不可能的。

------解决方案--------------------
http://zhidao.baidu.com/question/39002023.html

其实主要还是多多试试、多多思考
------解决方案--------------------