爬虫这东西最早出现在我大学计算机网络的课程上面,我们当时的老师人很好,期末不笔试,他说这东西笔试没什么用,对于一个年纪比较大的老师来讲,能提出这种方式,实在难得。当时在考虑做一个与网络有关的东西好,第一个想到的就是爬虫。想想也没想过用Java写过这种东西,所以当时是一般看一本爬虫的书一边敲代码,现在想起来有很多东西是没有想明白的——我当时爬的是刘末鹏的博客,把全部文章用分类爬了下来,在本地可以打开...
分类:
编程语言 时间:
2015-11-20 12:50:12
阅读次数:
1462
# -*- coding: utf-8 -*-import requestsimport reimport sysreload(sys)sys.setdefaultencoding('utf-8')class Spider(object): def __init__(self): ...
分类:
编程语言 时间:
2015-11-19 16:25:20
阅读次数:
265
其实我只是想试试爬取图片而已,先看看网页,需要爬的地方有两个,一是封面图,二是下载地址,挺简单的Item定义:importscrapy
classTiantianmeijuItem(scrapy.Item):
name=scrapy.Field()
p_w_picpath_urls=scrapy.Field()
p_w_picpaths=scrapy.Field()
p_w_picpath_paths=sc..
分类:
其他好文 时间:
2015-11-17 19:13:53
阅读次数:
330
最近我突然对网络爬虫开窍了,真正做起来的时候发现并不算太难,都怪我以前有点懒,不过近两年编写了一些程序,手感积累了一些肯定也是因素,总之,还是惭愧了。好了,说正题,我把这两天做爬虫的过程中遇到的问题总结一下: 需求:做一个爬虫,爬取一个网站上所有的图片(只爬大图,小图标就略过) 思路:1、获...
分类:
编程语言 时间:
2015-11-10 01:43:06
阅读次数:
250
在逛贴吧的时候看见贴吧里面漂亮的图片,或有漂亮妹纸的图片,是不是想保存下来?但是有的网页的图片比较多,一个个保存下来比较麻烦。最近在学Python,所以用Python来抓取网页内容还是比较方便的:所以就尝试了一下------code-------#coding=utf-8
importre
importurllib//导..
分类:
编程语言 时间:
2015-11-04 19:46:06
阅读次数:
313
最近领导给了一个任务,从单位的数据库里面导出所有的数据,存到本地excel表格。我就想,这不挺简单的么,给我数据库的密码账户,几条语句搞定。结果让人大失所望,单位数据库只能通过后台管理系统查看,平台压根不提供批量导出功能,至于数据库直接访问什么的,更是想都别想,大领导不给批。所以,只能采取笨办法了,...
分类:
编程语言 时间:
2015-11-03 21:09:27
阅读次数:
379
周末下雨,原本计划泡汤,只好宅在家中。翻翻网页,觉着写一个python爬虫吧。作为一个只会c的程序员,表示python的基本语法看起来还是蛮清楚的。大致差不多。然后就爬一下基金的当前价格吧,本来想着写完后让它一直运行,后来写完发现mathematica里直接有函数可以查往年基金价格的接口,那就没必要...
分类:
其他好文 时间:
2015-11-01 18:07:06
阅读次数:
260
在我们日常上网浏览网页的时候,经常会看到某个网站中一些好看的图片,它们可能存在在很多页面当中,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但...
分类:
编程语言 时间:
2015-11-01 15:00:42
阅读次数:
266
做了一个返利网爬虫,想和大家分享一下,在新浪博客中写了写,一不小心切换了界面,写的东西也丢了。有点小失落~ 言归正传,说说我的这次返利网的爬虫经历^\/^ 返利网的“今日值得买”版块每天都有数据更新,而且汇集了各大电商网站,包括淘宝、京东、易迅等网站的促销打折商品,所以能在这里有点数据的积累,做一....
分类:
编程语言 时间:
2015-10-25 17:49:34
阅读次数:
217