在理解了LNMPA框架,读懂了LNMPA一键安装的shell脚本后,在虚拟机安装好LNMPA环境,包括phpmyadmin。因为自己搭建的环境比较简单,首先利用phpmyadmin来模拟爬虫登陆。直接上代码。#!/usr/bin/envpython
#-*-coding:utf-8-*-
__author__="PS"
"""
pythonversion:2.7.9
"""
impo..
分类:
Web程序 时间:
2016-02-19 17:27:12
阅读次数:
566
爬虫基础及正则表达式:http://blog.csdn.net/gzh0222/article/details/12647723 爬虫实战及进阶:http://www.cnblogs.com/xin-xin/p/4297852.html 其他网络资料:http://www.crifan.com/fi
分类:
数据库 时间:
2016-02-17 12:52:46
阅读次数:
458
上网简单看了几篇博客自己试了试简单的爬虫哎呦喂很有感觉蛮好玩的 之前写博客 有点感觉是在写教程啊什么的写的很别扭 各种复制粘贴写得很不舒服 以后还是怎么舒服怎么写把每天的练习所得写上来就好了本来就是个菜鸟不断学习 不断debug就好 直接上程序: 1 # -*- coding: utf-8 -*-
分类:
编程语言 时间:
2016-01-29 19:38:36
阅读次数:
145
本篇主要讲述验证码的验证流程,包括如何验证码的实现、如何获取验证码、识别验证码(这篇是人来识别,机器识别放在下篇)、发送验证码。同样以一个例子来说明。目标网址 http://icp.alexa.cn/index.php(查询域名备案信息) 1.验证码的实现: 简单的说,验证码就是一张图片,图片上有字
分类:
编程语言 时间:
2016-01-29 12:06:48
阅读次数:
246
一点碎碎念 话说周围还在用人人网的人真是越来越少了,有一天闲来无事打开人人,发现最新的状态还是2013年12月的,好多好友也已经不怎么联系了,真是物是人非啊。翻了翻自己的状态,都是大学本科时发的,感觉挺有纪念意义的,就想着有空写个爬虫把自己的状态抓下来做个备份,万一哪天人人挂了,还能给自己的大学生活
分类:
编程语言 时间:
2016-01-29 00:02:25
阅读次数:
248
主要涉及的库 requests 处理网络请求 logging 日志记录 threading 多线程 Queue 用于线程池的实现 argparse shell参数解析 sqlite3 sqlite数据库 BeautifulSoup html页面解析 urlparse 对链接的处理 关于request
分类:
编程语言 时间:
2016-01-28 21:09:44
阅读次数:
354
有必要写下来。 2015 汇编->win32汇编->C语言->python python[爬虫,网络编程] C [基础] OS:win7 | kali2.0 | Tools:wireshark sqlmap
分类:
其他好文 时间:
2016-01-28 00:51:23
阅读次数:
113
写爬虫之前,首先要明确爬取的数据。然后,思考从哪些地方可以获取这些数据。下面以一个实际案例来说明,怎么寻找一个好的爬虫策略。(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 目标网址:http://chanyouji.com/ 注意:这个网站会拦截IP,访问次数过多...
分类:
编程语言 时间:
2016-01-27 12:21:31
阅读次数:
214
上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制。比如,IP、JS、验证码等。这节主要讲利用IP代理突破。 1.关于代理 简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是4...
分类:
编程语言 时间:
2016-01-25 13:02:43
阅读次数:
425
学过python的帅哥都知道,爬虫是python的非常好玩的东西,而且python自带urllib、urllib2、requests等的库,为爬虫的开发提供大大的方便。这次我要用urllib2,爬一堆风景图片。先上重点代码1 response = urllib2.urlopen(url).r...
分类:
编程语言 时间:
2016-01-24 14:18:25
阅读次数:
186