毕设是做爬虫相关的,本来想的是用java写,也写了几个爬虫,其中一个是爬网易云音乐的用户信息,爬了大概100多万,效果不是太满意。之前听说Python这方面比较强,就想用Python试试,之前也没用过Python。所以,边爬边学,边学边爬。废话不多说,进入正题。 1.首先是获取目标页面,这个对用p....
分类:
编程语言 时间:
2016-01-22 21:16:06
阅读次数:
298
毕设是做爬虫相关的,本来想的是用java写,也写了几个爬虫,其中一个是爬网易云音乐的用户信息,爬了大概100多万,效果不是太满意。之前听说Python这方面比较强,就想用Python试试,之前也没用过Python。所以,边爬边学,边学边爬。废话不多说,进入正题。 1.首先是获取目标页面,这个对...
分类:
编程语言 时间:
2016-01-22 17:42:59
阅读次数:
212
首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏 和 Python爬虫学习系列教程。写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是一个不断的去抓去网页的程序,根据我们的需要得到我们想要的结果!但我们又要让服务器感觉是我们人在通过浏...
分类:
编程语言 时间:
2016-01-14 18:47:36
阅读次数:
189
百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住。我们来用Python来爬取这些信息,同时学习Python爬虫基础。首先来到百词斩网站:http://www.baicizhan.com/logi...
分类:
编程语言 时间:
2015-12-16 01:39:42
阅读次数:
374
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家。来源:http://cuiqingcai.com/1052.html一、Python入门1.Python爬虫入门一之综述2.Python爬虫入门二之爬虫基础了解3.Python爬虫入门三之Urllib库的基本...
分类:
编程语言 时间:
2015-11-25 10:53:25
阅读次数:
166
转自:http://cuiqingcai.com/954.html1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chro...
分类:
编程语言 时间:
2015-09-29 11:18:26
阅读次数:
271
转自:http://cuiqingcai.com/977.html在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特...
分类:
编程语言 时间:
2015-09-29 11:15:39
阅读次数:
374
一、使用正则表达式实现爬虫: Import requests,re 获取网页源码:htmlsource=requests.get(url).text 使用正则表达式匹配网页中的内容: Re模块常用的函数 Re.findall(pattern,string,flags=0) #返回内容为包含匹配结果的...
分类:
编程语言 时间:
2015-09-06 20:06:56
阅读次数:
212
现在,我们已经进入到大数据时代,在对数据进行处理分析时,首要的是需要有数据,而作为数据的一个重要来源则来自于网络爬虫,鉴于Python语言的简洁高效,以及对爬虫技术的大力支持,我们选择利用Python作...
分类:
编程语言 时间:
2015-08-03 17:05:38
阅读次数:
261
2015-6-2今天把昨天Git上看的一个下载网易云音乐歌单歌曲的脚本尝试看懂并修改Git地址:https://github.com/keli/netease-music#! /usr/bin/env python# -*- coding: utf-8 -*-import urllib2import...
分类:
编程语言 时间:
2015-06-02 17:36:03
阅读次数:
382