采集网页有关问题,怎么提取不同来源正文页中的正文部分?恳请提供方法或思路
采集网页问题,如何提取不同来源正文页中的正文部分?恳请各位高手提供方法或思路
在采集不同网页内容时,我遇到个很难解决的问题,就是如何正确的、完整的提取网页中的正文部分,而把其他的内容去除;注意不是针对某个网站,而是针对所有的 网站。感谢各位高手赐教,如果有好的方法,还可以另行加分!
------解决方案--------------------
模式识别也要有模式才行,没有模式想要识别是不可能的。
------解决方案--------------------
------解决方案--------------------
http://zhidao.baidu.com/question/39002023.html
其实主要还是 多多试试、多多思考
------解决方案--------------------
在采集不同网页内容时,我遇到个很难解决的问题,就是如何正确的、完整的提取网页中的正文部分,而把其他的内容去除;注意不是针对某个网站,而是针对所有的 网站。感谢各位高手赐教,如果有好的方法,还可以另行加分!
------解决方案--------------------
模式识别也要有模式才行,没有模式想要识别是不可能的。
------解决方案--------------------
------解决方案--------------------
http://zhidao.baidu.com/question/39002023.html
其实主要还是 多多试试、多多思考
------解决方案--------------------