用wget递归下载网站 离线浏览
2016-02-20 21:10
513 查看
因为想离线浏览www.tutorialspoint.com
—An Indian Website
因为Teleport收费
所以只好使用免费的自由软件
可以显示详细的
-H, –span-hosts go to foreign hosts when recursive
不加-H选项时,不会识别
wget gnu manual ftp://ftp.gnu.org/old-gnu/Manuals/wget-1.8.1/html_chapter/wget_4.html
-H span to any host
-D limit spanning to certain domain
—An Indian Website
因为Teleport收费
所以只好使用免费的自由软件
帮助信息
$ wget --help
可以显示详细的
命令
$ sudo wget -r -H -Dtutorialspoint.com -np -k -p www.tutorialspoint.com
选项
-r, –recursive specify recursive download 默认5级目录 可通过 -l number改动-H, –span-hosts go to foreign hosts when recursive
不加-H选项时,不会识别
<a href="/apex/index.htm" title="Learn Apex Programming">Learn Apex</a>这样的超链接。测试可以接受
<link href=开头的超链接,很confusing,下面是来自gnu网站的说法
wget gnu manual ftp://ftp.gnu.org/old-gnu/Manuals/wget-1.8.1/html_chapter/wget_4.html
-H span to any host
-D limit spanning to certain domain
sudo wget -rH -Dserver.com http://www.server.com/[/code] 下载www.server.com,同时允许下载images.server.com
你也可以-Ddomain1.com,domain2.com --exclude-domains sunsite.domain1.com
-k, –convert-links make links in downloaded HTML or CSS point to local files 将下载的html页面中链接转换为指向本地文件的链接
–convert-file-only convert the file part of the URLs only(usual only known as the basename)
-p, –page-requisites get all images, etc. needed to display HTML page 下载所有图片等页面显示元素
–strict-comments turn on strict (SGML) handling of HTML comments
-np, –no-parent don’t ascend to the parent directory不追溯至父级
-nc, –no-clobber skip downloads that would download to existing files thus overwriting them 断点续传
-A, –accept=LIST comma-separated list of accepted extensions后续问题
下下来后,发现没有更正全部的超链接。
比如要访问 file:///Users/username/Documents/www.tutorialspoint.com/index.html里,仍然包含了href=”www.tutorialspoint.com/apex/index.htm”
所以构思把网页放到本地服务器localhost上,离线时修改dns解析到下载的网页。
修改 /etc/hosts 文件127.0.0.1 example.com alias.example.com 127.0.0.1 www.tutorialspoint.com tutorialspoint.com
添加最后一行即可
如果是Mac 根据hosts(5) manual page/etc/hosts文件是由mDNSResponder使用。重置DNS缓存方法为:sudo dscacheutil -flushcache
我的OS X 10.10发现修改完hosts就直接生效了
相关文章推荐
- android 学习网站
- 架构之路(四):测试驱动
- 12306网站架构设想
- JVM性能参数调优实践,不会执行Full GC,网站无停滞
- LAMP 环境下添加多个虚拟主机(网站)
- Java 集合系列02之 Collection架构
- 怎么确保网站的可用性
- 学习笔记:确保网站的可用性
- LAMP架构搭建与优化(2.0-2.4)
- Java分布式应用技术架构介绍
- 三层架构的基础知识
- 开发环境配置(三) 局域网中其他机器不能访问本机IIS网站
- 设计系统的组织,其产生的设计和架构等价于组织间的沟通结构(转)
- 做网站开发的有几样东西是必须要有(转)
- Smart L - 架构设计
- 服务器端学习(一) 如何把自己的电脑作为网站服务器
- 固定本机宽带IP对外开放个人网站
- android 预习第一章节 android的系统架构
- RESTful架构
- hadoop技术基本架构