码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
[Python]爬虫v0.1
#coding:utf-8import urllib#######爬虫v0.1 利用urlib2 和 字符串内建函数####### 获取网页内容def getHtml(url): page = urllib.urlopen(url) html = page.read() retur...
分类:编程语言   时间:2015-06-20 20:51:01    阅读次数:157
python爬虫 爬取知乎用户的用户信息
我用python爬虫找到了不想告诉我她知乎ID的妹纸的ID…….在我做了这件事情之后 , 她觉得我越来越懂她了 , 嘻嘻有一天 , 我发现我心仪已久的妹纸在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能作为谈资 , 简直太赞了 (*^^)v . 但是输入她的名字…… 在知乎上根本找...
分类:编程语言   时间:2015-06-17 21:43:01    阅读次数:123
python 爬虫
import urllib2 as urlimport reurls = 'http://www.php100.com/html/it/'headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2...
分类:编程语言   时间:2015-06-17 00:26:10    阅读次数:187
Python爬取新闻网标题、日期、点击量
最近接触Python爬虫,以爬取学校新闻网新闻标题、日期、点击量为例,记录一下工作进度 目前,感觉Python爬虫的过程无非两步: Step1.获取网页url(利用Python库函数import urllib2) Step2.利用正则表达式对html中的字符串进行匹配、查找等操作 自我感觉sublime text2编辑器真心好用,部署Python后不会像WingIDE、notepa...
分类:编程语言   时间:2015-06-14 09:29:15    阅读次数:2137
python爬虫解决百度贴吧登陆验证码问题
作为贴吧重度用户,写了个贴吧爬虫脚本抄了一些别人的代码,记得有个验证码解决的,但是忘了链接了,今天终于自己解决了。...
分类:编程语言   时间:2015-06-10 22:39:42    阅读次数:364
scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据
在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤。如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考。.....
分类:Web程序   时间:2015-06-10 20:59:51    阅读次数:212
安装python爬虫scrapy踩过的那些坑和编程外的思考
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识。于是就开干了,没想到的配置一个运行环境就花了我一天时间。.....
分类:编程语言   时间:2015-06-06 22:05:10    阅读次数:665
Python爬虫之抓取豆瓣影评数据
Python爬虫之抓取豆瓣影评数据
分类:编程语言   时间:2015-06-05 12:06:21    阅读次数:212
·「python爬虫入门」网易云音乐下载
2015-6-2今天把昨天Git上看的一个下载网易云音乐歌单歌曲的脚本尝试看懂并修改Git地址:https://github.com/keli/netease-music#! /usr/bin/env python# -*- coding: utf-8 -*-import urllib2import...
分类:编程语言   时间:2015-06-02 17:36:03    阅读次数:382
python爬虫笔记
1 import urllib2 2 response = urllib2.urlopen("http://www.baidu.com") 3 html = response.read() 4 5 #eg2 6 import urllib2 7 req = urllib2.Request("ht.....
分类:编程语言   时间:2015-06-02 12:46:20    阅读次数:126
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!