爬虫学习-Jsoup简单方法测试
爬虫学习-------Jsoup简单方法测试
package com.ahuiby.main; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Spider { public static void main (String[] args){ try{ Document document=Jsoup.connect("http://www.baidu.com/").get(); //========================================== //直接抓取页面元素模块 //========================================== //抓取文章title标签 String title=document.title(); //抓取文章text标签内容 String text=document.text(); //获取Html文件中的body元素 Element body=document.body(); //获取a标签 Elements aArray=body.getElementsByTag("a"); //类选择器 Elements classArray=body.getElementsByClass("s_form");//此处为类名,截取的div的类名 //获取属性 Elements attributesArray=body.getElementsByAttribute("href"); //获取子元素 Elements children=body.children(); //========================================== //选择器模块 //========================================== Elements aSelect=document.select("a[href]"); System.out.println("页面标题: "+title+"\n 页面内容: "+text+ "\n body:\n"+ body); System.out.println("================================================="); System.out.println("所有a标签:\n"+aArray); System.out.println("================================================="); System.out.println("div:\n"+classArray); System.out.println("================================================="); System.out.println("href:\n"+attributesArray); System.out.println("================================================="); System.out.println("children:\n"+children); System.out.println("================================================="); System.out.println("aSelect:\n"+aSelect); }catch (IOException e){ e.printStackTrace(); } } }