CyberNeko html parser + XPATH
Май.22, 2008 Рубрика:
Java
Получать информацию из html страницы удобно с помощью языка XPATH. В Java для этого существует интерфейс javax.xml.xpath.XPath. Для его применения необходимо иметь DOM структуру документа. Чтобы ее получить, можно использовать CyberNeko html parser:
XML:
-
<dependency>
-
<groupId>nekohtml</groupId>
-
<artifactId>nekohtml</artifactId>
-
<version>1.9.6.2</version>
-
</dependency>
Пример для получения третей строки таблицы из html страницы:
JAVA:
-
InputSource source = new InputSource(pageStream);
-
DOMParser parser = new DOMParser();
-
parser.parse(source);
-
-
XPath xpath = XPathFactory.newInstance().newXPath();
-
Node node = (Node) xpath.evaluate("//TABLE/TR[3]/TD",document, XPathConstants.NODE);
HTML:
