wget命令下载整站,并忽略robots.txt文件
服务器 /
2016-04-20 /
阅读: 170
看到某些网站的页面很漂亮,想下载下来分析源码,或者借鉴前端风格,linux下有一个很好用的命令wget,可以整站下载。
在网上找到几个参数:
-r 递归 -p, --page-requisites(页面必需元素) -np, --no-parent(不追溯至父级) -k 将下载的HTML页面中的链接转换为相对链接即本地链接
例如,要下载一个 http://www.xxx.com/test/ 下的所有页面可以使用命令:
# wget -r http://www.xxx.com/test/
可是有的时候网站的根目录有 robots.txt 文件约束,所以,可能根本下载不完全,但是为了达到目的,可以使用另外一个参数:
-e robots=off
# wget -r -e robots=off http://www.xxx.com/test/
OK,搞定,这样一来就可以整站下载了。