Recuperar datos de PDF

Buenas. Mi problema es que tengo que crear un programa que dado un pdf (que contendrá un listado de clientes de la empresa), me genere un documento de texto plano con algún caracter especial (un ; por ejemplo) que delimite los diferentes campos en el pdf. He visto que existen algunas bibliotecas como pdfbox para convertir un pdf a texto plano, pero el asunto está en la delimitación de campos, ya que algunos me los separa con espacios, pero otros me los pone todo seguido; además la existencia de algún espacio entre datos no implica que pertenezcan a campos diferentes obligatoriamente. Se supone que yo la longitud de los campos no la puedo saber, así que, ¿existe algún tipo de información en el pdf que pueda servirme para este propósito? ¿O quizá hay algo diferente que pueda probar?

Saludos y perdón por la parrafada.

Opciones de visualización de comentarios

Seleccione la forma que prefiera para mostrar los comentarios y haga clic en «Guardar las opciones» para activar los cambios.

Re: Recuperar datos de PDF

Puede probar con la excelente librería iText de Bruno Lowagie, la cual te ayudará a extraer el texto del PDF. Ahora bien, según entiendo, tu principal problema es la delimitación, pues si "la existencia de algún espacio entre datos no implica que pertenezcan a campos diferentes" entonces tienes una dificultad más importante de qué preocuparte que el acceso al texto del PDF en crudo.

Saludos

Javier

Buenas Javier. Exactamente

Buenas Javier. Exactamente ese es el principal problema, porque para poder extraer el texto hay mil herramientas y bibliotecas que me lo pueden hacer, entre ellas como bien has dicho, iText. El problema es la delimitación de campos... ¿Alguien tiene alguna idea de esto?

Saludos.

Delimitación de campos

Se me ocurre un contrato de mantenimiento de la aplicación que extrae los datos. Cada vez que un dato no se importe bien, habrá que modificar la aplicación. No veo ´me imagino otra solución más económica.

Saludos

Javier