码迷,mamicode.com
首页 > 其他好文 > 详细

从零开始学爬虫(一)------环境配置

时间:2015-04-29 09:45:43      阅读:160      评论:0      收藏:0      [点我收藏+]

标签:

前言:

  本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。

  需要阅读者对html语言python语言有基本的了解。

  (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)


爬虫简介:

  网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

  网络爬虫先获取某网站的源代码,通过源码解析(如<a><p>标签等)来获得想要的内容。


环境配置:

  ubuntu系统(安装方法请自行百度由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多,故我们选用ubuntu系统)

  爬虫可用的软件很多,我们选择在ubuntu系统下使用python进行网页爬取,并将爬取下的内容放入mysql数据库中。


所需软件:

  pythonubuntu系统自带,无需安装

  pippython包管理工具(需要下载python库进行网页爬取,安装pip方便我们对python中库的下载)

  scrapyPython开发的一个快速,高层次的屏幕抓取和web抓取框架即从web站点爬取信息,读入到本地

  BeautifulSoup:通过标签解析(如<a>,<p>,id,class等)htmlxml文件中提取数据的python

  mysql一种关联数据库管理系统,将数据保存在不同的表中,用来存储数据。


软件安装步骤:

  使用Ctrl+Alt+T打开命令行

  1.pip安装 sudo apt-get install python-pip

  2.scrapy安装 pip install scrapy

  3.beautifulsoup4安装 pip install beautifulsoup4

  4.安装与mysql相关的python

  (1) pip install mysql-connector-python

  (2) pip install MySQL-python

  (3) pip install mysql-utilities

  5.安装mysql

  (1) sudo apt-get install mysql-server

  (2) sudo apt-get install mysql-client

  (3) sudo apt-get install libmysqlclient-dev

 

  环境配置是个挺麻烦的工作,要有耐心哦~不同ubuntu系统版本可能会遇到各种奇葩问题,由于个人水平所限,请自行百度(-.-)

  如果环境已经配置好了,那么下面我们可以开始爬取网页了^v^

从零开始学爬虫(一)------环境配置

标签:

原文地址:http://www.cnblogs.com/KoalaDream/p/4464999.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!