您的位置:首页 > Web前端 > HTML

提取网页内容存储为word的方法

2017-03-02 16:52 344 查看

应用需求

word是我们平常办公最常用的文字处理软件之一了,但是我们第一手阅读的材料却并不通常是用word来写就的(非doc格式),可能是txt文本,pdf文件,更多的可能就是网页内容了。我们希望有一种轻快便捷的方案可以很容易地将网页内容导出成doc格式的文件,这样我们就可以用word来处理它们了。

今天老师让我办件事,是登录进一个问卷调查网页,将所有问卷内容提取出来,整理成word文件发给她。我在登进问卷(.aspx格式)后发现,网页内容是受保护的,不可以直接复制内容(点击右键没有任何响应)。

于是乎,我就面临了第一个考验,如何获取网页内容?

pdf2word

我的第一种方法是利用浏览器的打印功能,将网页保存为pdf。保存了4个pdf文件(因为问卷有4页)之后,我首先利用在线文档转换工具Smallpdf将4个pdf文件合二为一,然后在线转为word。

然而令我大失所望的是,转化成的word文件有太多太多的格式、字体问题,别说是编辑重用了,连阅读都不堪其用。我试了许多其他的pdf转word在线平台,效果都是半斤八两,不堪入目。

html2word

既然pdf不是一个明智的选择,我开始思考其他方案。我发现在浏览器中还有这样一个功能:将页面存储为html格式。以谷歌为例,在功能->更多工具中选中另存为html,就可以将当前网页的html格式连同一个链接文件(如果存在)一起下载到本地。

接下来的操作异常简单:

选择下载好的html文件,右键点击“打开方式”选项,用Word打开;

打开后可以看到文件格式与网页中显示基本一致,选择“文件另存为”,存成以“docx”为后缀的文件;

如果html中有引用文件包中的链接,需要对其进行编辑(我遇到的网页无此情形);

可尝试删除与html文件一起被下载的文件包,以免每次打开html转成的word文件都需要授权。

这样一来,一个可以分享给他人的word文件就完成了。

为了方便以后的工作,以及分享给有需要的人,暂且把这些操作记录下来。

【其实我是个科研工作者~~~】

参考内容:

http://code.makery.ch/library/convert-web-page-to-word/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  网页 html word pdf 转化