之前在淘宝众筹买了个迅雷赚钱宝Pro,2016年01月到手,玩了半个月。之后在看百度贴吧时,看到好多大神都在用PC上用网页版软件来管理赚钱宝。非常是好奇。搜索了非常多资料,基本上都已经过时了。都无法成功安装,后来自己各处查找最终在github上发现了至今2016-02-04最新版的云监工,最终成功安 ...
分类:
其他好文 时间:
2018-02-05 23:32:27
阅读次数:
550
import urllib.request import urllib.parse from lxml import etree def loadPage(url): """ 作用:根据url发送请求,获取服务器响应文件 url: 需要爬取的url地址 """ #print url #美女 # he ...
分类:
编程语言 时间:
2018-02-05 20:02:01
阅读次数:
174
人生如此复杂,机会多得像稠密图,我们没理由认输。尽管我们走不了最短路,但图仍是连通图,TLE之前,没有一个节点叫失败。 ----转载自百度贴吧 ...
分类:
其他好文 时间:
2018-01-25 13:11:14
阅读次数:
147
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子。 比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1 所以我们可以把 ...
分类:
编程语言 时间:
2018-01-11 15:36:15
阅读次数:
237
爬虫的分类 按使用场景: 1. 通用爬虫:指搜索引擎的爬虫 2. 聚焦爬虫:指针对特定网站的爬虫 聚焦爬虫又可以分为大致3种: 1. 累积式爬虫: 从开始到结束,一直不断爬取,过程中会进行去重操作; 2. 增量式爬虫: 对已经下载的网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫; 3. ...
分类:
其他好文 时间:
2018-01-03 11:45:06
阅读次数:
165
前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少。原因他也大概分析了下,就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。 分析 他的代码比较简单,主要有以下的步骤:使用 库,打开百度贴吧的首页地 ...
分类:
编程语言 时间:
2017-12-23 11:57:13
阅读次数:
1157
使用方法 python 代码所在文件名 美女 3 ...
分类:
编程语言 时间:
2017-12-12 00:08:59
阅读次数:
204
指针定义成全局和定义在main中为什么不一样?定义在main中执行中止 Leetcode441ArrangingCoins 我更喜欢朴素的C式的C++,而不是java式的C++ vs2017的使用 9hb谝释雇http://p.baidu.com/ihome/center?uid=1a4a61626 ...
分类:
Web程序 时间:
2017-12-03 11:21:50
阅读次数:
227
#coding:utf-8importrequestsimportrandomclassTiebaSpider:def__init__(self,tieba_name):self.headers={‘User-Agent‘:‘Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/61.0.3163.100Safari/537.36‘}self.tieba_name=tieba_nameself.url_temp="h..
分类:
其他好文 时间:
2017-11-12 20:53:09
阅读次数:
184
#!/usr/bin/python
#coding=utf-8
importurllib
importurllib2
defloadPage(url,filename):
‘‘‘
作用:根据URL发送请求,获取服务器响应文件
html:返回的响应文件
filename:处理的文件名
‘‘‘
print("正在下载"+filename)
headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW..
分类:
其他好文 时间:
2017-11-06 11:06:19
阅读次数:
144