Em continuação do desenvolvimento da aplicação que estou a criar, ontem terminei a Leitura de documentos Word (.doc) com JAVA.
Na realidade é bastante simples.
Começa por fazer download da API POI, que ao contrário do Ler Excel com JAVA, com o Word facilita mais que o Aspose.
Após termos a API POI, fazemos os imports necessários:
import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.extractor.WordExtractor;
De seguida:
File f = new File(caminhoArquivo);
FileInputStream is = new FileInputStream(f);
HWPFDocument wdoc = new HWPFDocument(is);
WordExtractor extractor = new WordExtractor(wdoc);
String conteudo = extractor.getText();
conteudo = conteudo.replace("\n", " ");
System.out.println("Conteúdo do ficheiro: " + conteudo);
Como também precisava de extrair o conteúdo de .RTF, temos de fazer:
import javax.swing.text.BadLocationException;
import javax.swing.text.rtf.RTFEditorKit;
import javax.swing.text.DefaultStyledDocument;
import java.io.InputStream;
import java.io.IOException;
import java.io.File;
import java.io.FileInputStream;
public class RtfParser
{
public String enderecoRecurso;
public void setEnderecoRecurso(String enderecoRecurso)
{
this.enderecoRecurso = enderecoRecurso; //caminho do ficheiro
}
public String getConteudo()
{
File f = new File(this.enderecoRecurso);
FileInputStream is = null;
try {
is = new FileInputStream(f);
}
catch(IOException e) {
System.out.println("ERRO: " + e.getMessage());
return null;
}
String bodyText = null;
DefaultStyledDocument styledDoc = new DefaultStyledDocument();
try {
new RTFEditorKit().read(is, styledDoc, 0);
bodyText = styledDoc.getText(0, styledDoc.getLength());
}
catch (IOException e) {
return "ERRO: Impossível extrair o texto do Documento RTF. Excepção: " + e;
}
catch (BadLocationException e) {
return "ERRO: Impossível extrair o texto do Documento RTF. Excepção: " + e;
}
return bodyText;
}
}
Pronto é isto, dúvidas, não hesitem.






