您的位置:首页 > Web前端 > HTML5

如何将PDF转html5?

2013-12-27 09:56 2755 查看
网上找了JS将PDF转html,貌似没有,比较多的都是html转PDF。

pdf.js这个可以将PDF在HTML5 平台上展示。那么转换成html5或其他呢?

现在的需求主要是为了对PDF转换成可操作的html5文档(主要是分离图片、文字、提取字库等功能),然后对其选中文本设置id、class、添加一些动作之类。

【寻求答案ing...】不局限与pdf.js

有思路的朋友们可以探讨一下...

—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————

pdf.js – 利用HTML5技术读取PDF文件:http://www.html5dw.com/portal.php?mod=view&aid=203

pdf.js在firefox下运行,其他浏览器运行不怎么兼容

常见的 PDF 阅读功能一应俱全,渲染速度上也已经和本地的 PDF 阅读插件无异。

毫无疑问 pdf.js 将被整合入 Gecko 成为 Firefox 的内嵌 PDF 阅读器,但是具体整合时间表尚未确定。

—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————

HTML5文档转换工具Crocodoc兴起:http://www.csdn.net/article/2012-05-02/2805221 (这个貌似不错,不过是在线的。)

http://preview.crocodoc.com 在线上传文档可下载,可预览(已试过,可以生成html5,采用内嵌SVG

http://personal.crocodoc.com/ 新的个人上传文件转换

https://crocodoc.com/see-it-in-action/upload/ 这个也是上传的 不过上传了没反应。

Crocodoc现在已经被box收购了http://blog.box.com/2013/05/box-is-acquiring-crocodoc-to-reimagine-documents-in-the-cloud/

可以给普通消费者提供文档转换,它还为企业客户提供服务并整合到客户的产品中

在线转换教程:http://www.freehao123.com/crocodoc-com/

box开发者使用:http://developers.box.com/using-the-view-api-with-the-content-api/

—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————

Java:采用xpdf将pdf转html http://www.iteye.com/topic/333676

转换后的效果是:只是提取pdf中的文字出来,没有图片提取等。

nodejs:pdf转html http://blog.yourtion.com/nodejs-convert-pdf-to-html.html

没试验,估计跟上面的Java一样只是提取文字而已。(已调试,简单地提取文字而已)

—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————

由于 Crocodoc在线上传且部分无法转换成功的局限性,我后来找了另外的转换工具。——PDF2HtmlEx

其转换的效果还不错,说是高保真的。刚开始我觉得唯一不好就是每一个pdf就只转换成一个html,没有抽离文字、图片、字体库等等,还对字体重编码(考虑文件大小优化问题)。后来发了邮件给作者,他回复了可以加参数,果真如此:参数请参考:https://github.com/coolwanglu/pdf2htmlEX/wiki/QuickStart

如:pdf2htmlEX --embed cfijo --dest-dir out pdf/test.pdf

还可以指定字体库参数 --font-format <string>

功能强大,更多功能可以使用pdf2htmlEx --help 获取

PDF2htmlEx window版本下载 :

http://soft.rubypdf.com/software/pdf2htmlex-windows-version

使用方法:http://blog.rubypdf.com/2013/08/19/pdf2htmlex-windows-verion-release/

PDF2htmlEx百科:

http://baike.baidu.com/link?url=SomIaaN2-fIKza5DRpEH4M7EXQJL2AYCQ-fHcQhZzs5jxwCwxQvUO4RFrrkEddBguox-tI5TKfV4KzXduBZ1i_

pdf2htmlEX:高保真PDF至HTML转换器

http://www.linuxidc.com/Linux/2012-09/69749.htm

开发者:王路 PDF2html github版本 :https://github.com/coolwanglu/pdf2htmlEX

—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————

总结:采用PDF2htmlEx,功能强大,免费开源,高保真转换效果。

与其他工具对比:

Convert to HTML 5Parse by JSConvert to imageConvert to HTML 4Adobe PDF pluginOther plugins
Examplepdf2htmlEXPDF.jspdftoppm (poppler) Google Docpdftohtml (poppler)Adobe PDF PluginN/A
BriefingPDF elements are converted into corresponding or closest
HTML elements
PDF file is loaded, parsed and rendered by JavascriptPDF pages are converted into images and shown in web pagesSimilar as “Convert to HTML 5”, but with much less featuresOfficial pluginNon-official PDF plugins, Flash-based plugins or others
Open sourceYesSome (pdf.js)Poppler is open source. Google Doc may be based on poppler as well, because they showed same errors.Some (pdftohtml)NoMaybe
FreeYesSomeSomeSomeYesSome
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: