静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 ...
分类:
编程语言 时间:
2016-06-06 12:13:40
阅读次数:
246
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*-from lxml import etreefrom multiprocessing.du ...
分类:
编程语言 时间:
2016-05-19 14:45:09
阅读次数:
218
新手写的一个简单的爬虫,能爬糗事百科的笑话,存储在文件中。由于是第一次写,所以只考虑了能不能爬的问题,效率、查重精确度都不在思考范围内。...
分类:
其他好文 时间:
2016-05-07 10:06:06
阅读次数:
195
使用HttpGet协议与正则表达实现桌面版的糗事百科 写在前面 最近在重温asp.net,找了一本相关的书籍。本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容。于是在网上搜索关于Http请求相关的资料,发现了很多资料都是讲述基于HttpGet和HttpPost请求服 ...
分类:
Web程序 时间:
2016-05-03 12:43:05
阅读次数:
292
安装scrapy conda install scrapy 创建scrapy项目 scrapy startproject qiubai 启动pycharm,发现新增加了qiubai这个目录 在spider目录下创建indexpage.py文件 编写糗百爬虫,获取首页的所有作者信息 #导入scrapy... ...
分类:
其他好文 时间:
2016-04-06 23:19:50
阅读次数:
449
本文主要是记录一下学习过程,相当于做一次笔记吧 主要参考崔庆才的Python爬虫学习系列教程(http://cuiqingcai.com/1052.html) 这里主要是一些Python的基础知识和爬糗事百科的一个实例: 一:基础知识 1.爬虫:趴在网络上的蜘蛛,遇见想要的资源,就会抓取下来。 2. ...
分类:
编程语言 时间:
2016-03-31 23:23:36
阅读次数:
229
Python实现半自动发微博【用COOKIES代替模拟登录;用WAP版微博代替网页版微博;每次还要改post数据的URL。。。半半自动的感觉】微博的内容是从糗事百科抓取的最热段子以及某网站的每日晚安。#!/usr/bin/python
#coding=utf-8
importurllib
importurllib2
importtime
importrequ..
分类:
编程语言 时间:
2016-03-19 06:26:36
阅读次数:
235
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) 1 #-*-coding:utf-8-*- 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url ='http://www.qiushibaike.com/hot/p...
分类:
编程语言 时间:
2016-01-02 16:23:20
阅读次数:
173
这几年互联网的发展:出现了很多的社区、聊天软件(QQ、微信、易信、快手、糗事百科)、经济共享软件很多的领域企业合并:快的和滴滴,土豆和优酷然后被阿里收购,爱奇艺和PPS教育平台发展的有很多:如网易、百度、腾讯O2O发展很迅速:各种各样的电商(阿里、京东收购拍拍、考拉(网易的)),各种推广在旅游、饭店...
分类:
其他好文 时间:
2015-12-28 06:08:10
阅读次数:
149
代码:# _*_ coding:utf-8 _*_import urllib2import refrom datetime import datetimeclass QSBK: def __init__(self): self.pageIndex = 1 self....
分类:
编程语言 时间:
2015-11-26 12:39:47
阅读次数:
137