HTML Parser en JAva

Hola, buen dia. Hace relativamente poco tiempo un profesor nos encargo un desarrollo para un Lexicon. El proyecto consiste en tomar el codigo fuente de una palabra de la real academia española (HTML), analizarlo, tomar el texto e ingresar en una base de datos, tanto el nombre de la palabra, su etimologia, el numero de definiciones y como estan compuestas estas definiciones.

En una primera instancia, pense que solo bastaria con checar el codigo y encontrar las tags que necesito. Y asi lo hice, converti todo el codigo fuente en String, para poder buscar los tags y darle formato a las palabras.

Lo hice de esta manera:

 

Entre otros tags que existen en las palabras, pero al profesor no le gusto mi forma de implementarlo, me dijo que tenia que ser valido para todas las palabras que el quisiera poner.

Teniendo en cuenta que hay muchisimas palabras...y muchisimos Tags, a un compañero se le ocurrio tratar varios archivos y encontrar los tags o la mayoría de ellos. Sin embargo, yo no tengo idea de como hacerlo. Acudo a ustedes a que me brinden su conocimiento, o los temas que tengo que estudiar para poder realizar el proyecto. La verdad que he intentado de todo, pero no logro realizarlo. Muchas gracias :D

Opciones de visualización de comentarios

Seleccione la forma que prefiera para mostrar los comentarios y haga clic en «Guardar las opciones» para activar los cambios.
Imagen de neko069

En el título de tu post está la solución

Si buscas en google, encuentras HTML Parser ahora, no nada más uses el proyecto, checa cómo funcionan los fuentes para que sepas cómo se implementar un parser.

Gracias

Gracias por la pronta respuesta, ahora mi pregunta es como guardar todas esas tags que salgan para poderlas implementar! porque son demasiados archivos, no tengo ni la menor idea de como pueda leerlos todos y sacar las tags y que no se repitan. Hay algun texto, o herramienta que me pueda permitir eso??

Imagen de neko069

Los fuentes del proyecto...

Los fuentes del proyecto... leéte la documentación, y los fuentes