小弟是用poi读取doc的
public static String docString(String filePath) { File file = new File(filePath); String result = ""; try { FileInputStream fis = new FileInputStream(file); HWPFDocument doc = new HWPFDocument(fis); Range rang = doc.getRange(); result += rang.text(); fis.close(); } catch (Exception e) { e.printStackTrace(); } return result; }
但是读取出来的内容会这样的 TOC \o “1-3” \h \z \u HYPERLINK \l “_Toc440010147″一、一般要求 PAGEREF _Toc440010147 \h 4,带有TOC \o “1-3” \h \z \u HYPERLINK \l “_Toc440010147″这些本人不需要的东西 问一下是本人读取的方法不对吗?或该怎么去掉这些多余的字符
解决方案
50
本人写的一个例子,读取word文档没有问题。
public class ReadWord { public static void main(String[] args) { File doc1 = new File("doc/2012年秋季期末试题.doc"); if (doc1.exists()) { System.out.println("文件存在!"); } else { System.out.println("文件不存在!"); } try { InputStream is=new FileInputStream(doc1); WordExtractor we=new WordExtractor(is); System.out.println(we.getText()); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } }