第一节 正则表达式的一些介绍1)掌握正则表达式的案例2)写一个小爬虫3)正则表达式(或RE)是一个小型的、高度专业化的编程语言,(在python中)它内嵌在python中,并通过re模块实现。 - 可以为想要匹配的相应字符串集指定规则 - 该字符串集可能包含英文语句、e-mail地址、命令或任何你想...
分类:
编程语言 时间:
2015-05-12 20:36:13
阅读次数:
153
最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。# -*- coding: utf-8 -*-
import urllib2...
分类:
编程语言 时间:
2015-04-29 21:47:24
阅读次数:
154
网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改。
请诸位大牛指点。# -*- coding:utf8 -*-
"""
程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取。
"""
import string
import urllib2
import r...
分类:
编程语言 时间:
2015-04-24 09:06:46
阅读次数:
177
最近右胳膊受伤,打了石膏在家休息。为了实现之前的想法,就用左手打字、写代码,查资料完成了这个资源小爬虫。网页爬虫,最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储。这是一个在线歌曲网站的爬虫,网站名字就不说了,此贴目的是技术交流,请不用做其他用途!相关技术点:h.....
分类:
编程语言 时间:
2015-04-23 23:12:17
阅读次数:
577
"""
文本处理是当下计算机处理的主要任务,从文本中找到某些有用的信息,
挖掘出某些信息是现在计算机程序大部分所做的工作。而python这中轻量型、小巧的语言包含了很多处理的函数库,
这些库的跨平台性能很好,可移植性能很强。
在Python中re模块提供了很多高级文本模式匹配的功能,以及相应的搜索替换对应字符串的功能。
"""
"""
正则表达式符号和特殊字符
re1|re...
分类:
编程语言 时间:
2015-04-09 23:52:08
阅读次数:
316
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下。 以下是网上很容易搜到的一种方法: 1 #coding=utf-8 2 import urllib 3 import re 4 5 def getHtml(url): 6 pag...
分类:
编程语言 时间:
2015-03-01 14:21:50
阅读次数:
164
http://cuiqingcai.com/1052.html大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大...
分类:
编程语言 时间:
2015-02-23 06:28:08
阅读次数:
224
import re
import urllib
import os
def rename(name):
name = name + '.jpg'
return name
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(ht...
分类:
编程语言 时间:
2015-01-30 09:08:37
阅读次数:
211
原文:经典算法题每日演练——第九题 优先队列 前端时间玩小爬虫的时候,我把url都是放在内存队列里面的,有时我们在抓取url的时候,通过LCS之类的相似度比较,发现某些url是很重要的,
需要后端解析服务器优先处理,针对这种优先级比较大的url,普通的队列还是苦逼的在做FIFO操作,现在我们的需求就...
分类:
编程语言 时间:
2015-01-16 12:49:24
阅读次数:
293
要想做网络抓取方面的工作必须对HTTP协议里面的一些基础知识有个大概了解,最好能有些HTML的底子。首先来介绍下HTTP Header。我们在网页上点击一个按钮,或者请求一个网页都会向服务器发送一个请求头,然后服务器会发送一个响应头。这个Header对我们是不可见的,查看Header的方法有...
分类:
编程语言 时间:
2014-12-03 01:39:16
阅读次数:
263