透过htmlParser抓取百度的相关内容

通过htmlParser抓取百度的相关内容

最近这两天我做了个最新电影网的视频网站,主要是从土豆抓取来的.所以内容页就是框架,不便于搜索的抓取。所以我就想加些相关内容,像这样的内容
      由于我就是通过百度搜索关键字来填充内容。下面就是我通过htmlParser抓取的代码。

透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容public class BaiduResultAction extends BaseAction 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容
透过htmlParser抓取百度的相关内容    
public static final Logger logger = Logger
透过htmlParser抓取百度的相关内容            .getLogger(BaiduResultAction.
class);
透过htmlParser抓取百度的相关内容
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容    
/** *//**
透过htmlParser抓取百度的相关内容     * 组装新闻
透过htmlParser抓取百度的相关内容     * 
透过htmlParser抓取百度的相关内容     * 
@param url
透过htmlParser抓取百度的相关内容     * 
@return
透过htmlParser抓取百度的相关内容     
*/

透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容    
public String compNews(String url) 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容        String returnContent 
= null;
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容        
try 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容            ParserModel parserModel 
= new ParserModel();
透过htmlParser抓取百度的相关内容            
//table 的抓取标签
透过htmlParser抓取百度的相关内容
            String content = "border=\"0\" cellpadding=\"0\" cellspacing=\"0\"";
透过htmlParser抓取百度的相关内容            parserModel.setContent(content);
透过htmlParser抓取百度的相关内容            NodeClassNameFilter contentNodeClassNameFilter 
= new NodeClassNameFilter(
透过htmlParser抓取百度的相关内容                    TableTag.
class, parserModel);
透过htmlParser抓取百度的相关内容
透过htmlParser抓取百度的相关内容            NodeList contentList 
= getAllNodeList(url,
透过htmlParser抓取百度的相关内容                    contentNodeClassNameFilter);
透过htmlParser抓取百度的相关内容
透过htmlParser抓取百度的相关内容            
// 对table的处理 只取第一个table中的一项记录
透过htmlParser抓取百度的相关内容            
//如果全部抓取内容,则要去掉最后一个break;
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容
            for (int i = 1; i < contentList.size(); i++透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容                
if (contentList.elementAt(i) instanceof TableTag) 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容                    TableTag tableContent 
= (TableTag) contentList
透过htmlParser抓取百度的相关内容                            .elementAt(i);
透过htmlParser抓取百度的相关内容                    
int rowCount = tableContent.getRowCount();
透过htmlParser抓取百度的相关内容                    TableRow[] arrRows 
= tableContent.getRows();
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容                    
for (int j = 0; j < arrRows.length; j++透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容                        TableRow tableRow 
= arrRows[j];
透过htmlParser抓取百度的相关内容                        TableColumn[] arrColumm 
= tableRow.getColumns();
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容                        
for (int k = 0; k < arrColumm.length; k++透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容                            String columContent 
= arrColumm[k].toHtml();
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容                            
if(columContent != null)透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容                                String[] split 
= columContent.split("<br>");
透过htmlParser抓取百度的相关内容                                
if(split.length>2)
透过htmlParser抓取百度的相关内容                                    returnContent 
= split[1].substring(0,split[1].length()-4);
透过htmlParser抓取百度的相关内容                            }

透过htmlParser抓取百度的相关内容                            
break;
透过htmlParser抓取百度的相关内容                        }

透过htmlParser抓取百度的相关内容                    }

透过htmlParser抓取百度的相关内容                }

透过htmlParser抓取百度的相关内容                
break;
透过htmlParser抓取百度的相关内容            }
        
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容        }
 catch (IllegalArgumentException e) 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容            
// TODO Auto-generated catch block
透过htmlParser抓取百度的相关内容
            e.printStackTrace();
透过htmlParser抓取百度的相关内容            
return null;
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容        }
 catch (Exception e) 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容            
// TODO Auto-generated catch block
透过htmlParser抓取百度的相关内容
            e.printStackTrace();
透过htmlParser抓取百度的相关内容        }

透过htmlParser抓取百度的相关内容        
return returnContent;
透过htmlParser抓取百度的相关内容    }

透过htmlParser抓取百度的相关内容
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容    
public static void main(String[] args) throws Exception 透过htmlParser抓取百度的相关内容{
透过htmlParser抓取百度的相关内容        BaiduResultAction action 
= new BaiduResultAction();
透过htmlParser抓取百度的相关内容        
//抓取sohu的内容.通过百度
透过htmlParser抓取百度的相关内容
        String url = "http://www.baidu.com/s?wd=%BA%DA%BF%CD%B5%DB%B9%FAII+11%28112%29++site%3Asohu.com";
透过htmlParser抓取百度的相关内容        
// String url = "http://bbs.hoopchina.com/htm_data/96/0712/274754.html";
透过htmlParser抓取百度的相关内容        
// List<String> hrefList = sinaAction.parseLink(url, getIndexFilter());
透过htmlParser抓取百度的相关内容透过htmlParser抓取百度的相关内容
        /**//* logger.debug(sinaAction.compNews(url)); */
透过htmlParser抓取百度的相关内容        action.compNews(url);
透过htmlParser抓取百度的相关内容    }

透过htmlParser抓取百度的相关内容}

效果如下:http://www.tondou.cn/c/2008-05-12/314146