002_027 Python 从微软Word文档中抽取文本
2014-03-17 23:26
274 查看
代码如下:
打印结果如下:
中国
processing D:\123\test.docx...
end
I love China
我爱中国
#encoding=utf-8 print '中国' #从微软Word文档中抽取文本 import fnmatch, os, sys, win32com.client readpath=r'D:\123' wordapp = win32com.client.gencache.EnsureDispatch("Word.Application") try: for path, dirs, files in os.walk(readpath): for filename in files: if not fnmatch.fnmatch(filename, '*.docx'):continue doc = os.path.abspath(os.path.join(path,filename)) print 'processing %s...' % doc wordapp.Documents.Open(doc) docastext = doc[:-4] + 'txt' wordapp.ActiveDocument.SaveAs(docastext,FileFormat=win32com.client.constants.wdFormatText) wordapp.ActiveDocument.Close() finally: wordapp.Quit() print 'end' f=open(r'd:\123\test.txt','r') for line in f.readlines(): print line.decode('gbk') f.close()
打印结果如下:
中国
processing D:\123\test.docx...
end
I love China
我爱中国
相关文章推荐
- python网络爬虫文档读取-微软Word文档和.docx
- 从文档中抽取文本,实现 Word, Excel, PowerPoint 文件的全文搜索
- 002_026 Python 从OpenOffice.org的文档中提取文本
- python操作wps/操作word/操作excle/操作ppt:文档专用模块或者二次开发
- Spire.Doc 教程:将word文档中的隐藏文本保存到PDF
- dotnet环境下从PDF文档中抽取Text文本的一些方法汇总
- 怎么把pdf转成word文本文档
- python自动化之word文档
- python 操作word文档
- python 解析docx文档的方法,以及利用Python从docx文档提取插入的文本对象和图片
- C# 定位Word文档中的某个位置插入文本
- jacob 抽取word文档
- 能够按页号提取word文档文本内容的小程序,由C#实现
- 创建word文档,并输出文本
- [java] 获取pdf/word文档文本内容
- [Python] python-docx 编辑word文档
- kindeditor粘贴word文档内容时去除格式的方法?如何设置为默认无文本格式呢?
- 用Python开始机器学习(5:文本特征抽取与向量化)
- $用python-docx模块读写word文档
- 借助python工具从word文件中抽取相关表的定义,最后组装建表语句-非常好