搜索资源列表
parse-pptx
- 上次,上传的文件parseoffice2007.rar中不含有pptx与ppt的解析,本次补齐。现在office的解析已经基本完成。本文档是关于office所有ppt,pptx的解析。用户根据自己需要进行修改。jar还是Apache-POI-3.8。-Last, upload the file does not contain parseoffice2007.rar ppt pptx and analytical, this padded. The office now has been bas
jacob-1.16-M1
- 基于lucene的文本分词包,可以对office文件进行解析-Text segmentation based on lucene package, you can parse for office documents
tika
- Apache tika 可以解析各种富文本格式的文件,得到其中的文本内容字符串。如tika 可用于解析Office 97/2003/2007 格式、PDF 格式、HTML 等格式的文件。请参考tika-app-1.5.jar 的功能,实现一个GUI 界面的桌面程序,该程序可以打开以上几种格式的文件,调用tika 进行解析,在界面上展示txt 解析结果,并将结果保存成文本文件。该程序也可以同时打开一组文件,以多线程的方式对它们进行并行处理。注:请在程序中导入tika-core-1.5.jar 和t