Получать информацию из html страницы удобно с помощью языка XPATH. В Java для этого существует интерфейс javax.xml.xpath.XPath. Для его применения необходимо иметь DOM структуру документа. Чтобы ее получить, можно использовать CyberNeko html parser:
PLAIN TEXT
XML:

<dependency>

    <groupId>nekohtml</groupId>

    <artifactId>nekohtml</artifactId>

    <version>1.9.6.2</version>

</dependency>

Пример для получения третей строки таблицы из html страницы:
PLAIN TEXT
JAVA:

InputSource source = new InputSource(pageStream);

DOMParser [...]