[关闭]
@shjanken 2018-09-17T05:40:48.000000Z 字数 941 阅读 731

Jsoup 学习笔记

java clojure 笔记


使用 DOM Method 在文档中导航

使用 dom method 的方式就类似 js 原生方法的方式

  1. File input = new File("/tmp/input.html");
  2. Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
  3. Element content = doc.getElementById("content");
  4. Elements links = content.getElementsByTag("a");
  5. for (Element link : links) {
  6. String linkHref = link.attr("href");
  7. String linkText = link.text();
  8. }

使用 getElementByIdgetElementByTag 来获取元素(和 js 中的同名方法一样, getElementsByTag 返回的是多个对象)
之后可以使用 attr()text() 方法来获取属性和内容

在 clojure 里面, 使用的话就是 p, a 这样的字面量

使用 selector-syntax 來查找页面里面的元素

使用 Element.select(String selector)Elements.select(String selector) 方法来查找元素

  1. File input = new File("/tmp/input.html");
  2. Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
  3. Elements links = doc.select("a[href]"); // a with href
  4. Elements pngs = doc.select("img[src$=.png]");
  5. // img with src ending .png
  6. Element masthead = doc.select("div.masthead").first();
  7. // div with class=masthead
  8. Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

可以使用正则, 比如
- [attr^=value]
- [attr~=regex]

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注