python2.7.6urllib:发送报文并得到responseBeautifulSoup:解析报文的body(html)#encoding=UTF-8
frombs4importBeautifulSoup
fromurllibimporturlopen
importurllib
list_no_results=[]#没查到的银行卡的list
list_yes_results=[]#已查到的银行卡的list
#解析报文,以字典..
分类:
编程语言 时间:
2014-12-05 19:49:25
阅读次数:
233
摘要 手上有几十万邮箱,本来用户系统没有做头像的东西,现在想根据这些邮箱能拿一部分用户的头像,可以直接使用
gravatar的服务,不过这玩意儿不时会被墙,还是拉回来靠谱,第2个途径是qq邮箱,通过分析数据发现,这几十万 用户里面居然有一半以上是qq邮箱,so 要想办法通过不用oauth的方式拿到.
爬虫
目录[-]
用邮箱扒头像来告诉你怎么写简单的脚本扒图
思...
分类:
其他好文 时间:
2014-12-05 15:37:00
阅读次数:
773
今天才写了个随笔,然后不到一个小时就有个网站进行了爬虫,呵呵好速度,而已百度的搜索排名比博客园还高,不过我加了防伪处理,大家看看效果吧
分类:
Web程序 时间:
2014-12-05 10:44:16
阅读次数:
321
scrapy安装脚本#######installdependentpackageanddevelopment-lib#######
yum-yinstallgcczlibzlib-developensslopenssl-develbzip*libxml2*libxslt*libffi-devellibffi
#######installpython-2.7.7
wget‘https://www.python.org/ftp/python/2.7.7/Python-2.7.7.tgz‘
tar-zxvf..
分类:
编程语言 时间:
2014-12-04 15:53:54
阅读次数:
207
今日完成任务:与安卓组进行商量对数据库修改的方案。现在在等他们最终确认,确认之后进行整理以及源代码的调试。对资源功能的代码进行阅读。遇到困难:关于整合,爬虫组爬到的内容和网站定位有所不符,所以我们重新对爬虫组提出了关于所爬内容的需求明日任务:黎柱金数据库整理并对源码进行调试孙思权对源码进行调试冯飘飘...
分类:
其他好文 时间:
2014-12-04 00:59:10
阅读次数:
178
爬虫简介:
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
爬虫内核:
WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。
量级:
...
分类:
编程语言 时间:
2014-12-03 23:35:39
阅读次数:
609
为大家推荐一款非常好用的java写的垂直爬虫webmagic,力挺,非常好用...
分类:
编程语言 时间:
2014-12-03 23:23:37
阅读次数:
418
【网络爬虫】 预备知识一. 正则表达式之常用表达式正则表达式里有很多东西,学精不易,但做爬虫不需要学精,只要会其中部分就行,下面将介绍本人常用的表达式,基本够用了。1. 去头去尾 --- (?...)...该表达式主要用在用一个正则匹配多条数据时使用会了上面2个基本就没问题了二. 抓包工具,做爬虫这...
分类:
其他好文 时间:
2014-12-03 18:50:29
阅读次数:
213
? 单位的项目是IBatis做的,每个查询的SQL里面都有很多判断 上次优化SQL之后,其中的一个分支报错,但是作为dba,不可能排查每一个分支. 所以,干脆用爬虫爬过所有的网页,主动探测程序的异常. ...
分类:
Web程序 时间:
2014-12-03 12:40:44
阅读次数:
240
单位的项目是IBatis做的,每个查询的SQL里面都有很多判断 上次优化SQL之后,其中的一个分支报错,但是作为dba,不可能排查每一个分支. 所以,干脆用爬虫爬过所有的网页,主动探测程序的异常. 这样有两个好处 1.可以主动查看网页是否异常 (500错误,404错误) 2....
分类:
Web程序 时间:
2014-12-03 11:54:14
阅读次数:
138