Получать информацию из html страницы удобно с помощью языка XPATH. В Java для этого существует интерфейс javax.xml.xpath.XPath. Для его применения необходимо иметь DOM структуру документа. Чтобы ее получить, можно использовать CyberNeko html parser:

XML:
  1. <dependency>
  2.     <groupId>nekohtml</groupId>
  3.     <artifactId>nekohtml</artifactId>
  4.     <version>1.9.6.2</version>
  5. </dependency>

Пример для получения третей строки таблицы из html страницы:

JAVA:
  1. InputSource source = new InputSource(pageStream);
  2. DOMParser parser = new DOMParser();
  3. parser.parse(source);
  4. Document document = parser.getDocument();
  5.  
  6. XPath xpath = XPathFactory.newInstance().newXPath();
  7. Node node = (Node) xpath.evaluate("//TABLE/TR[3]/TD",document, XPathConstants.NODE);

HTML:

HTML:
  1. <title>Test page</title>
  2. </head>
  3.     <tr>
  4.         <td>First row</td>
  5.     </tr>
  6.     <tr>
  7.         <td>Second row</td>
  8.     </tr>
  9.     <tr>
  10.         <td>Third row</td>
  11.     </tr>
  12. </table>
  13. </body>
  14. </html>