最近一段时间不知怎得像是中了什么魔怔,特别的想用python写一个网络爬虫,也许是看了知乎上的某位大牛的分享,深感能自己写一个程序在浩瀚的互联网数据海洋中发现有意思的数据的酷炫,抑或就是想单纯的体验一把程序猿的人生价值。在当我信誓旦旦的决定用一到两周准备实现这个宏伟的理想的时候,我马上就遇到了瓶颈,...
分类:
其他好文 时间:
2015-05-03 23:33:18
阅读次数:
201
总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:-------------------------------------------------------------------------------------------#cod..
分类:
编程语言 时间:
2015-05-01 20:05:16
阅读次数:
153
/*网络爬虫--爬邮件*/
import java.io.*;
import java.util.regex.*;class Main { public static void main(String[] args) throws Exception {
getMails();
} public static void getMails() throws Exce...
分类:
其他好文 时间:
2015-04-30 08:59:12
阅读次数:
174
前言: 本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。 需要阅读者对html语言及python语言有基本的了解。 (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)爬虫简介: 网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 ...
分类:
其他好文 时间:
2015-04-29 09:45:43
阅读次数:
160
程序大概内容如下:
程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。
ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_queue队列中。
DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。
这只是一个基本的框架,可以根据需求继续扩展...
分类:
编程语言 时间:
2015-04-28 09:49:14
阅读次数:
164
好久没写技术博客了,leetcode在刷,从开题后一直研究用Java和htmlparser开源库实现一个网络爬虫从而实现对某CSDN博客进行备份,直接对博客文章标题、文本和图片进行备份。
经过近一个月的研究,现在已经初步完成了对CSDN博客的备份,现在已可以基本做到对某个人的CSDN博客文章进行全站备份、对某人CSDN博客的某一个类别进行备份、对某个CSDN专栏进行备份三个功能。下一步就是想练练JSP、Servlet和Struts,顺便用一用自己积累的爬虫技术,所以我想到了一个主意,做一个天...
分类:
Web程序 时间:
2015-04-27 11:23:13
阅读次数:
122
通过BeautifulSoup来登陆人人网。可以通过info = {'email':'','password':''}进行账号密码的初始化,一个BeautifulSoup的简单应用,过一阶段会写一个关于BeautifulSoup框架使用的小手册,欢迎大家关注啊,求各路读者大大多加指导。
#-*- coding:utf-8 -*-
import urllib
import urllib2
impo...
分类:
编程语言 时间:
2015-04-27 09:51:13
阅读次数:
133
python模拟浏览器登陆淘宝,其中有输入验证码和打开浏览器,设置代理IP等等。...
分类:
编程语言 时间:
2015-04-27 09:48:30
阅读次数:
188
http://blog.csdn.net/column/details/why-bug.html代码具体讲解见(51CTO):http://edu.51cto.com/course/course_id-581.html韩寒博客:http://blog.sina.com.cn/s/articlelis...
分类:
编程语言 时间:
2015-04-25 19:37:53
阅读次数:
127
想要实现网站的登陆,post方法就是提交数据到网站,所以要post数据来用python实现登陆。当你想要登陆人人时,首先要知道网站的登陆细节(先发送账号和密码,返回cookie值,发送cookie到服务器,返回页面,再使用正则提取你想要的数据),我是通过HTTPfox来抓取http数据包来分析这个网站的登陆流程。同时,我们还要分析抓到的post包的数据结构和header,要根据提交的数据结构和he...
分类:
编程语言 时间:
2015-04-25 18:23:06
阅读次数:
149