Já anteriormente mostrei como era fácil de Ler PDF e Documentos Word com PHP, agora e porque ontem, numa aplicação remota que estou a trabalhar, também tem de ler ficheiros PDF’s, .DOCs e afins, para já hoje fica a solução que encontrei para ler os PDF’s com JAVA, isto vai ajudar a ler os PDF’s e transformá-los em formato de texto.
Antes de tudo, precisas de instalar a API do PDFBox
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.Reader;
import java.io.StringReader;
import java.util.Date;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdmodel.PDDocumentInformation;
import org.pdfbox.util.PDFTextStripper;
public class PdfParser
{
private String enderecoRecurso;
public void setEnderecoRecurso(String enderecoRecurso)
{
this.enderecoRecurso = enderecoRecurso; //endereço dos ficheiros
}
public String getConteudo()
{
File f = new File(this.enderecoRecurso);
FileInputStream is = null;
try{
is = new FileInputStream(f);
}
catch(IOException e){
System.out.println("ERRO: " + e.getMessage());
return null;
}
PDDocument pdfDocument = null;
try{
PDFParser parser = new PDFParser(is);
parser.parse();
pdfDocument = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(pdfDocument);
}
catch (IOException e){
return "ERRO: Não é possível abrir a stream" + e;
}
catch (Throwable e){
// Fazemos um catch, uma vez que precisamos de fechar o recurso
return "ERRO: Um erro ocorreu enquanto tentava obter o conteúdo do PDF" + e;
}
finally{
if (pdfDocument != null){
try{
pdfDocument.close();
}
catch (IOException e){
return "ERRO: Não foi possível fechar o PDF." + e;
}
}
}
}
}
Para quem não sabe o que é o Finally clica sobre ele.






