`
deepfuture
  • 浏览: 4341493 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79518
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68578
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101725
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281686
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14653
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65846
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31406
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45320
社区版块
存档分类
最新评论

lucene入门-使用pdfbox解析中文PDF

阅读更多

很多人使用 PDFBOX无法解析中文PDF,其实是在编程时没有指定字符集导致的,指定字符集后,pdfbox是完全可以解析中文PDF的

下载JAR文件

下载pdfbox

http://incubator.apache.org/pdfbox/

下载相关的jar

http://commons.apache.org/downloads/download_logging.cgi

引入external下的所有包

笔者BLOG地址:http://blog.163.com/sukerl@126/

以下是JAVA代码,注意红色部分指定了字符集:

package extract;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;


import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.*;

public class ExtractorPDF {

public static String getText(String file){
String s="";
String pdffile=file;
PDDocument pdfdoc=null;
try {
pdfdoc=PDDocument.load(pdffile);
PDFTextStripper stripper=new PDFTextStripper("GBK");
s=stripper.getText(pdfdoc);

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){
pdfdoc.close();
}
}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return s;
}
public static void toTextFile(String doc,String filename) throws Exception{
String pdffile=doc;
PDDocument pdfdoc=null;
try {
pdfdoc=PDDocument.load(pdffile);

PDFTextStripper stripper=new PDFTextStripper("GBK");
PrintWriter pw=new PrintWriter(new FileWriter(filename));
stripper.writeText(pdfdoc, pw);

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
finally{
try {
if (pdfdoc!=null){
pdfdoc.close();
}
}catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("D:/workspace/testsearch2/htmls/xxxx.pdf");
System.out.print(sc);
toTextFile("D:/workspace/testsearch2/htmls/xxxx.pdf","D:/workspace/testsearch2/htmls/xxxx.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

}

解析效果如下:

光盘使用指南光盘使用指南光盘使用指南光盘使用指南
北京希望电子出版社出版
********************************************************
提示
本张光盘采用了 Autorun 技术 也就是您只要把本光盘插入
到您的光驱中 就会自动启动 Acrobat Reader 并打开本书电子版
在我的电脑中 直接双击该光盘会再次启动阅读器
若自动运行未实现 请进入 \Rddirect\reader 文件夹 直接
双击 ACRORD32.EXE 启动 Acrobat Reader 再打开 \PDF 文件夹中
的 Zong.pdf 即可 若想直接双击打开 zong.pdf, 请先按下文所述
安装 Acrobat Reader 之后使用
如要查看光盘中的文件 请用鼠标右健单击光盘盘符 在出
现的快捷菜单中单击 打开 命令即可打开光盘 或在 Windows
资源管理器中单击光盘盘符 则可直接打开该光盘
********************************************************
欢迎使用北京希望电子出版社开发制作 出品的电子图书
本光盘利用美国 Adobe 公司开发的 Acrobat 4.0 中文版制作
********************************************************
电子图书具有存储容量大 占书架空间小 易于查询内容和
可加多媒体信息等特点 所以 电子图书在发达国家发展很快
且深受读者欢迎 本书从读者利益出发 将电子版与传统方式结
合起来 让读者取其所长 用得称心
********************************************************
系统需求

- i486 或基于 Pentium 处理器的个人计算机
- Microsoft Windows 95 Windows 98 或 Windows NT 4.0
带有 Service Pack 3 或更新版本
- Windows 95 和 Windows 98 要求 8 MB RAM 建议用 16 MB
- Windows NT 要求 16 MB RAM 建议用 24 MB
- 10 MB 可用硬盘空间
- 为亚洲字体准备额外的 50 MB 硬盘空间 (可选 )
- 800X600 分辨率 16 位色以上显示
- 倍速以上光驱
- 声卡 音箱 (若要观看本盘中多媒体演示 教学部分
- 鼠标

********************************************************
本光盘目录结构及操作使用
1 \H3D 文件夹为 Hope 3D 希望三维设计系统普通版 多
媒体演示教学程序 单击其中的 Hope3D.exe 文件即可运行 有关
系统需求及使用方法 请参考该文件夹下的 readme.txt 文件
2 \Ps 文件夹为大型情景化 Photoshop 教学片 照相馆的故
事 的演示动画 直接双击其中的 Psdemo.exe 文件即可运行该演
示动画 有关系统需求及如何使用 请参考该文件夹中的
Readme.txt 文件
3 \RDinstall 文件夹为 Acrobat Reader 安装程序
4 \RDdirect 文件夹为 Acrobat Reader 可直接运行版本
5 为阅读此格式的文件 请您先安装 Acrobat Reader 阅读
器 本盘提供了其两个版本的程序
在 \RDdirect\reader 目录下为可直接运行版本 直接双击
ACRORD32.EXE 即可启用
在 \RDinstall 目录下为安装版本 需双击 ACRD4CHS.EXE 进行
安装后使用
6. \PDF 文件夹中的 Zong.pdf 为本书电子版 您可用
Acrobat Reader 阅读
********************************************************
出版社联系信息
热线电话 (010)62633308 62633309 62562329 62541992
传 真 (010)62633308 62579874
技术支持 (010)82624263 62613322-315
地 址 北京海淀区海淀路 82 号 (海淀剧院北侧 )
邮政地址 北京中关村 083 信箱
邮 编 100080
网上书店 www.bhp.com.cn
E-mail lwm@hope.com.cn

 

 

PDFTextStripper

public PDFTextStripper(Stringencoding)
                throws IOException
Instantiate a new PDFTextStripper object. This object will load properties from Resources/PDFTextStripper.properties and will apply encoding-specific conversions to the output text.
Parameters:
DE>encodingDE> - The encoding that the output will be written in.
Throws:
DE>IOExceptionDE> - If there is an error reading the properties.
2
0
分享到:
评论
1 楼 rockethj8 2010-10-14  
刚好碰到~!

相关推荐

    lucene-analyzers-smartcn-7.7.0-API文档-中文版.zip

    标签:apache、lucene、analyzers、smartcn、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明...

    毕设 Lucene解析索引PDF文档的内容

    ----使用iText解析PDF 文档代码 PDFBoxHello.java ----------- --PDFBox测试代码 PDFBoxLuceneIndex.java ------ --PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java ------- --PDFBox创建指定目录PDF文档...

    lucene-analyzers-common-6.6.0-API文档-中文版.zip

    标签:apache、analyzers、common、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明...

    lucene-core-7.7.0-API文档-中文版.zip

    标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    lucene-core-7.2.1-API文档-中文版.zip

    标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    lucene-core-2.9.4,lucene-core-3.0.2,lucene-core-3.0.3,lucene-core-3.4.0

    lucene-core-2.9.4,lucene-core-3.0.2,lucene-core-3.0.3,lucene-core-3.4.0

    lucene-suggest-6.6.0-API文档-中文版.zip

    标签:apache、lucene、suggest、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    Lucene搜索-引擎开发权威经典pdf+源码

    Lucene搜索-引擎开发权威经典pdf+源码第一部分共2个

    lucene-core-6.6.0-API文档-中文版.zip

    标签:core、apache、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    lucene-highlighter-6.6.0-API文档-中文版.zip

    标签:apache、highlighter、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译...

    lucene-sandbox-7.2.1-API文档-中文版.zip

    标签:apache、lucene、sandbox、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    lucene-backward-codecs-7.3.1-API文档-中英对照版.zip

    包含翻译后的API文档:lucene-backward-codecs-7.3.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.lucene:lucene-backward-codecs:7.3.1; 标签:apache、lucene、backward、codecs、中英...

    lucene-suggest-7.7.0-API文档-中文版.zip

    标签:apache、lucene、suggest、中文文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    lucene-backward-codecs-6.6.0-API文档-中文版.zip

    标签:apache、codecs、lucene、backward、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准...

    lucene-memory-6.6.0-API文档-中文版.zip

    标签:apache、memory、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    lucene-spatial-6.6.0-API文档-中文版.zip

    标签:apache、lucene、spatial、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请...

    lucene-misc-6.6.0-API文档-中文版.zip

    标签:apache、lucene、misc、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可纵览文档内容。 人性化翻译,文档中的代码和结构保持不变,注释和说明精准翻译,请放心...

    lucene-analyzers-smartcn-7.7.0-API文档-中英对照版.zip

    包含翻译后的API文档:lucene-analyzers-smartcn-7.7.0-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.lucene:lucene-analyzers-smartcn:7.7.0; 标签:apache、lucene、analyzers、smartcn...

    lucene-spatial-extras-7.3.1-API文档-中英对照版.zip

    包含翻译后的API文档:lucene-spatial-extras-7.3.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.lucene:lucene-spatial-extras:7.3.1; 标签:apache、lucene、spatial、extras、中英对照...

    lucene-spatial-extras-7.2.1-API文档-中英对照版.zip

    包含翻译后的API文档:lucene-spatial-extras-7.2.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.lucene:lucene-spatial-extras:7.2.1; 标签:apache、lucene、spatial、extras、中英对照...

Global site tag (gtag.js) - Google Analytics