wget命令下载整站，并忽略robots.txt文件

服务器 / 2016-04-20 / 阅读: 170

看到某些网站的页面很漂亮，想下载下来分析源码，或者借鉴前端风格，linux下有一个很好用的命令wget，可以整站下载。

在网上找到几个参数：

-r  递归
-p,  --page-requisites（页面必需元素）
-np, --no-parent（不追溯至父级）
-k  将下载的HTML页面中的链接转换为相对链接即本地链接

例如，要下载一个 http://www.xxx.com/test/ 下的所有页面可以使用命令：

# wget -r http://www.xxx.com/test/

可是有的时候网站的根目录有 robots.txt 文件约束，所以，可能根本下载不完全，但是为了达到目的，可以使用另外一个参数：

-e robots=off

# wget -r -e robots=off http://www.xxx.com/test/

OK，搞定，这样一来就可以整站下载了。

wget

Leo Code