• 您可以使用 wget 下载整个网站以供离线访问。
• wget 是一个命令行工具,可用于 Linux、Windows 和 MacOS。
• 它可以代替其他工具,如cURL,HTTrack,WebCopy和SiteSucker。
如果您想要自己的文本、图像和其他内容的副本,下载整个网站很有用,以防作者删除它或网站关闭。但是,Web 浏览器不包含开箱即用的此功能。以下是使用 wget 工具下载整个网站的方法。
在开始之前,请确保您有足够的磁盘空间来保存要下载的站点。有些网站有很多页面和很多内容,可以快速添加,因此请记住您将要下载的内容,这样您就不会耗尽存储空间。如果您使用的是笔记本电脑,请确保您已插入电源插座,因为下载数千个文件可能需要一段时间。
如果你使用的是 Windows,则需要安装适用于 Linux 的 Windows 子系统 (WSL) 才能访问 wget。
此外,请了解许多现代网站都是动态生成的,这意味着它们在其服务器上处理数据以生成页面,这些页面在添加新内容或刷新页面时会发生变化。下载网站或页面会在该时刻创建其快照,因此如果您想要最新的副本,则需要重新下载该网站。
Wget 是一个命令行工具,用于从 Web 下载数据。默认情况下,它安装在 Ubuntu(这也意味着 WSL)和 Fedora 上。如果你使用的是基于 Arch 的发行版,则需要安装它。如果您使用的是 macOS,则可以通过 MacPorts 使用 wget.
如果您使用的是 Linux 或 MacOS,则需要打开“终端”窗口。如果你在使用 WSL 的 Windows 上,请启动要使用的任何 Linux 发行版.
您可以通过运行以下命令来确认 wget 已安装:
wget --help
如果 wget 在您的系统上可用,则该命令将返回有关 wget 命令的信息。
现在,您可以开始下载了。这是下载整个网站的命令:
wget -mpEk https://example.com
此命令将尝试从 https://example.com 的网站中获取所有可能的内容,扫描第一页上的所有链接,下载这些链接页面及其上的所有内容,然后继续浏览从这些页面链接的页面。
以下是每个命令标志(上面 wget 命令中破折号后面的字母)的含义:
• -m 启用了多个选项来配置 wget 以镜像网站,包括时间戳检查和无限递归深度
• -p 告诉 wget 获取所有页面必需内容,例如图像、媒体、样式表和 JavaScript 文件
• -E 调整下载文件的文件扩展名以匹配服务器上的文件扩展名
• -k 将保存页面中的链接转换为指向本地副本,以便无需 Internet 连接即可完全浏览离线站点
当您看到类似于以下内容的输出时,您将知道该网站正在成功下载:
$ wget -mpEk https://example.com
--2024-04-05 10:00:00-- https://example.com/
Resolving example.com (example.com)... 93.184.216.34
Connecting to example.com (example.com)|93.184.216.34|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘example.com/index.html’
example.com/index.html [ <=> ] 1.07K --.-KB/s in 0s
2024-04-05 10:00:01 (68.7 MB/s) - ‘example.com/index.html’ saved [1096]
请注意,虽然这是递归下载,但只会下载来自指定网站的链接。其他网站上的页面将保持在线状态,需要互联网连接才能查看。
您可以在 wget 用户手册中看到所有 wget 命令标志的完整列表以及它们的作用.
请记住,这可能需要一段时间,并且没有真正的方法可以估计大型网站下载所需的时间,因此值得偶尔检查进度以确保事情仍在进行中。
如果你想下载一个网页,你的网络浏览器可以用一个更简单的过程来完成:只需转到“文件”菜单,然后单击“保存”按钮(你的浏览器的措辞可能有点不同,在Firefox上是“将页面另存为...”)。
如果要使用 wget 下载单个页面,请运行以下命令:
wget -pk https://example.com
相关文章
网友评论(共有 0 条评论)