Linux 下 将PDF文件中的文本,图片导出的方法。
2010-01-04 13:55
525 查看
PDF格式文件中的文本是可以导出来再修改的。
同样,PDF里面的插图也是可以提取出来的。
PDF转纯文本:
pdftotext -enc GBK godson2e-data.Sheet.pdf text.GBK.txt
-enc (encoding)
要参照/etc/xpdf/xpdfrc 里面提到的编码格式。对于中文,用GBK
就可以了。
提取插图:
pdfimages godson2e-data.Sheet.pdf img
该命令就生成N个PPM文件,(一种BMP格式)
文件名为img-00?.ppm
? = (1 ~ N)
可以用ImageMagick里面的convert工具将其转换成相要的格式:
convert img-001.ppm img-001.jpg
或
convert img-001.ppm img-001.eps
上述方法在ubuntu下测试通过。
其中,pdfimages, pdftotext来自xpdf-utils包,xpdf的中文编码
支持来自xpdf-chinese-simplified包。换句话说,要实现上述功能
得安装:
xpdf-utils
xpdf-chinese-simplified
安装方法:
aptitude install xpdf-utils xpdf-chinese-simplified
如果没有aptitude,可以用apt-get
apt-get install xpdf-utils xpdf-chinese-simplified
同样,PDF里面的插图也是可以提取出来的。
PDF转纯文本:
pdftotext -enc GBK godson2e-data.Sheet.pdf text.GBK.txt
-enc (encoding)
要参照/etc/xpdf/xpdfrc 里面提到的编码格式。对于中文,用GBK
就可以了。
提取插图:
pdfimages godson2e-data.Sheet.pdf img
该命令就生成N个PPM文件,(一种BMP格式)
文件名为img-00?.ppm
? = (1 ~ N)
可以用ImageMagick里面的convert工具将其转换成相要的格式:
convert img-001.ppm img-001.jpg
或
convert img-001.ppm img-001.eps
上述方法在ubuntu下测试通过。
其中,pdfimages, pdftotext来自xpdf-utils包,xpdf的中文编码
支持来自xpdf-chinese-simplified包。换句话说,要实现上述功能
得安装:
xpdf-utils
xpdf-chinese-simplified
安装方法:
aptitude install xpdf-utils xpdf-chinese-simplified
如果没有aptitude,可以用apt-get
apt-get install xpdf-utils xpdf-chinese-simplified
相关文章推荐
- Linux不用使用软件把纯文本文档转换成PDF文件的方法
- Linux不用使用软件把纯文本文档转换成PDF文件的方法
- linux 下查找图片文件方法
- c#读取图片文件信息并转换成16进制文本方法
- Python使用reportlab将目录下所有的文本文件打印成pdf的方法
- Proe5.0导出PDF至配置文件的相关方法,VC++
- pdf文件转换成jpg图片格式的四种方法
- pdf文件是怎么导出图片的
- java导出pdf文件(插入图片及信息)
- PHP中使用mpdf 导出PDF文件的实现方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- PDF文件中的图片导出
- 将PDF文件转换成为JPG图片的方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- android webview将网页内容导出为图片和PDF方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法
- Proe5.0导出PDF至配置文件的相关方法,VC++
- C#导出数据到CSV和EXCEL文件时数字文本被转义的解决方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JS导出PDF插件的方法(支持中文、图片使用路径)