Получать информацию из html страницы удобно с помощью языка XPATH. В Java для этого существует интерфейс javax.xml... Для его применения необходимо иметь DOM структуру документа. Чтобы ее получить, можно использовать CyberNeko html parser:

XML:
  1. <dependency>
  2.     <groupId></groupId>
  3.     <artifactId></artifactId>
  4.     <version>1.9.6.2</version>
  5. </dependency>

Пример для получения третей строки таблицы из html страницы:

JAVA:
  1. InputSource source = new InputSource(pageStream);
  2. parser = new ();
  3. parser.parse(source);
  4. Document document = parser.getDocument();
  5.  
  6. = XPathFactory.newInstance().newXPath();
  7. Node node = (Node) .evaluate("//TABLE/TR[3]/TD",document, XPathConstants.NODE);

HTML:

HTML:
  1. <title>Test page</title>
  2. </head>
  3.     <tr>
  4.         <td>First row</td>
  5.     </tr>
  6.     <tr>
  7.         <td>Second row</td>
  8.     </tr>
  9.     <tr>
  10.         <td>Third row</td>
  11.     </tr>
  12. </table>
  13. </body>
  14. </html>

Связанные записи