Um dos trabalhos que já fiz para um cliente, envolvia manipulação de muitos documentos Word e PDF no site.
Eram documentos importantes dos serviços online desse cliente, não é como se fossem um amontoado de lixo de ficheiros no servidor. O objectivo do trabalho era que o motor de pesquisa do seu site (Sphider) lesse esses ficheiros PDF e DOC, para que os seus clientes pudessem chegar aos documentos que precisavam, sem que para isso tivessem de andar à procura deles através de inúmeras páginas.
Fui bem sucedido no que toca à realização do objectivo do cliente, e vou agora explicar como ler PDF’s e DOC’s utilizando PHP.

Ler Ficheiros PDF

Para que seja possível a leitura de PDF’s, primeiramente precisas de instalar o xpdf package, que inclui “pdftotext.” Depois de termos xpdf/pdftotext instalado, executamos a seguinte instrução PHP para obter o texto do PDF:

$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -');

Ler Ficheiros Word (.doc)

Ainda como o exemplo acima dos PDF’s, precisas de instalar outro pacote. Pacote esse denominado Antiword.
Esta é a linha que obtém o conteúdo do Documento Word:

$content = shell_exec('/usr/local/bin/antiword '.$filename);

De frisar que o código acima não lê ficheiros .DOCX (Office 2007) e não (propositadamente) preserva o formato.
Existem outras bibliotecas que preservam a formatação, mas no meu caso, o objectivo era so mesmo obter o texto.


Muito FracoFracoRazoávelBomMuito Bom (1 votos, média: 4,00 num total de 5)
Loading ... Loading ...