Em continuação do desenvolvimento da aplicação que estou a criar, ontem terminei a Leitura de documentos Word (.doc) com JAVA.
Na realidade é bastante simples.
Começa por fazer download da API POI, que ao contrário do Ler Excel com JAVA, com o Word facilita mais que o Aspose.

Após termos a API POI, fazemos os imports necessários:

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

De seguida:

File f = new File(caminhoArquivo);
FileInputStream is = new FileInputStream(f);

HWPFDocument wdoc = new HWPFDocument(is);
WordExtractor extractor = new WordExtractor(wdoc);
String conteudo = extractor.getText();
conteudo = conteudo.replace("\n", " ");
System.out.println("Conteúdo do ficheiro: " + conteudo);

Como também precisava de extrair o conteúdo de .RTF, temos de fazer:

import javax.swing.text.BadLocationException;
import javax.swing.text.rtf.RTFEditorKit;
import javax.swing.text.DefaultStyledDocument;

import java.io.InputStream;
import java.io.IOException;
import java.io.File;
import java.io.FileInputStream;
public class RtfParser
{
	public String enderecoRecurso;

	public void setEnderecoRecurso(String enderecoRecurso)
	{
		this.enderecoRecurso = enderecoRecurso; //caminho do ficheiro
	}

	public String getConteudo()
	{
		File f = new File(this.enderecoRecurso);
		FileInputStream is = null;

		try {
			is = new FileInputStream(f);
		}
		catch(IOException e) {
			System.out.println("ERRO: " + e.getMessage());
			return null;
		}

		String bodyText = null;

		DefaultStyledDocument styledDoc = new DefaultStyledDocument();
		try {
			new RTFEditorKit().read(is, styledDoc, 0);
			bodyText = styledDoc.getText(0, styledDoc.getLength());
		}
		catch (IOException e) {
			return "ERRO: Impossível extrair o texto do Documento RTF. Excepção: " + e;
		}
		catch (BadLocationException e) {
			return "ERRO: Impossível extrair o texto do Documento RTF. Excepção: " + e;
		}
		return bodyText;
	}
}

Pronto é isto, dúvidas, não hesitem.


Muito FracoFracoRazoávelBomMuito Bom (Nenhum voto por enquanto)
Loading ... Loading ...