码迷,mamicode.com
首页 > 其他好文 > 详细

轻而易举的抓取一个web站点

时间:2018-11-26 20:16:04      阅读:160      评论:0      收藏:0      [点我收藏+]

标签:pre   教程   用户名   源码编译安装   这一   软件包安装   名称   软件   显示   

今天一位网友突然在deepin群里问怎么抓取一个站点。他自己用的wget尝试了一下,太繁琐。失败了。有网友建议他学习爬虫技术的,也有说右键保存的,直到有个网友提到了webhttrack这个工具。
 webhttrack这个工具算是一个简单的,只需要点击几个按钮就能抓取整个站点的工具。简单又好用。本来是不打算写博的,无奈那位网友又没解决。随写博客以示之。
webhttrack这个工具在deepin的官方源里面就有,所以不必下载deb包,也不需要添加源或者下载源码编译安装。我能确定的是在ubuntu的官方源里也有。其他的Linux发行版用户可以尝试一下官方源,官方源没有再去webhttrack的官网去下载相应的软件包安装吧。下面是deepin下的安装方式:

 $ sudo apt-get install webhttrack
 安装完直接在终端下运行就行了:
 $ webhttrack
 然后会启动一个浏览器引导着你一步一步完成一个网站的抓取。1、2、3……step by step超级简单。
 下面以一个实例来展示一下webhttrack的应用。我们以抓取菜鸟网中的一个c++学习部分内容为例来展开。
  1. $ webhttrack 启动webhttrack
  2. webhttrack会自动启动浏览器出现引导界面。如图:
    技术分享图片
    直接点击“next”进入下一步。
    3.在这一步里会出现选择工程名称和保存路径的选择。由于是第一次操作不会有现有工程名供选择也不会有次级Project category供选择。什么意思呢?意思是你只要用过一次,下一次操作你可以选择上一次的工程名称及次级名称会在下拉列表显示。这里直接取名:“菜鸟教程网”,Project category就取名c++吧。保存路径默认就行。然后“next”。由于我做过了,名称就不在图片输入了,请读者自行输入。附图:
    技术分享图片
    4. 到这一步直接输入URL就行。操作项目列表其实就是个筛选,你可以下载整个网站或者下载个别文件等等。你甚至可以输入多个url下载,只需编辑多个URL为txt文本文件导入就行。“选项”按钮的设定其实也是一个筛选,是一个更高级的全面的筛选。如果需要的话。默认我们只输入url来抓取我们需要的c++教程部分;http://www.runoob.com/cplusplus/cpp-tutorial.html 点击“next”下一步。附图:技术分享图片
    5. 这一步就自动化进行了,你可以人为忽略其中的某些部分,也可以随时终止。附图:技术分享图片
  3. 最后一步,“站点镜像完毕!”在点击“退出”之前你可以选择“查看日志”或“浏览已镜像的网站”。退出以后也可已浏览,不必输入长长的网址。只要在你用户名目录下找到一个目录“websites”进入双击index.html文件就可以浏览了,打开还需要点击一下链接就是你要浏览的内容。技术分享图片

轻而易举的抓取一个web站点

标签:pre   教程   用户名   源码编译安装   这一   软件包安装   名称   软件   显示   

原文地址:http://blog.51cto.com/mingzhuantou/2322264

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!