爬虫总体性能不错,能完成基本的网络数据爬取,没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。大部分信息是正确的,但也有一些错误。比如下图,小渝馆家常菜和渝码头川菜位置爬取错了。再比如鑫蜀轩酒楼和久久丫的顺序错了。quantity_sold这一项,有的没有数据,是网站标签的问题,不是爬...
分类:
其他好文 时间:
2014-11-19 20:18:35
阅读次数:
161
代码如下package Game;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStrea...
分类:
编程语言 时间:
2014-11-19 12:17:39
阅读次数:
229
# -*- coding:utf-8 -*-
import re,urllib,sys,os,time
def getAllUrl():
entry=sys.argv[1]
#try:
getPage=urllib.urlopen(entry).read()
#except:
# print "Error"
pattern=re.compile(r'')
web_site_p...
分类:
编程语言 时间:
2014-11-17 17:55:13
阅读次数:
304
Mysql中文乱码以及导出为sql语句和Excel问题解决这几天基于Heritrix写了一个爬虫,用到mysql,在导入导出数据时,遇到一些乱码问题,好不容易解决了,记录一下,以备查看。一、导出数据。先说明一下自己的环境:Mac OS X 10.8.3, MySQL Community Server...
分类:
数据库 时间:
2014-11-17 17:21:00
阅读次数:
157
到目前为止各方面工作已经基本完成,爬虫程序也调整完毕,正在等待全部整合。成员已完成待完成彭林江完成爬虫结构调整新爬虫与服务器连接郝倩完成爬虫结构调整新爬虫与服务器连接高雅智重定位人力资源和计划更新,管理任务进度牛强爬虫性能测试等待测试服务器与爬虫的连接性能王卓完成了UI进一步改善UI友好度和用户体验...
分类:
其他好文 时间:
2014-11-17 10:32:17
阅读次数:
195
网站选择桌面壁纸网站的汽车主题:
下面的两个print在调试时打开
#print tag
#print attrs
#!/usr/bin/env python
import re
import urllib2
import HTMLParser
base = "http://desk.zol.com.cn"
path = '/home/mk/cars/'
star = ''
def get_...
分类:
编程语言 时间:
2014-11-16 23:07:13
阅读次数:
387
11.6:到目前为止基本已完成相关知识的学习,各方面工作都开始进行,一开始进行比较慢。11.7:项目遇到困难,需要补充相关知识,进度慢了下来。11.11:各方面工作进展比较顺利,没有什么大问题。11.12:爬虫程序出现问题,没有考虑到网站信息更新导致的爬虫程序可变性,下一步要更换爬虫结构。同时进行U...
分类:
其他好文 时间:
2014-11-16 07:01:44
阅读次数:
164
经过最近一段时间的努力,我们调整了爬虫结构,并在继续进行爬虫开发,马上可以进行新爬虫与服务器连接的测试。成员已完成待完成彭林江基本完成爬虫结构调整新爬虫与服务器连接郝倩基本完成爬虫结构调整新爬虫与服务器连接高雅智重定位人力资源和计划更新,就爬虫部分与同学讨论并尝试更换爬虫结构管理任务进度,按计划重定...
分类:
其他好文 时间:
2014-11-15 21:45:40
阅读次数:
193
根据最近项目出现的问题,我们明确了需要补充的工作,添加了几项任务。成员已完成待完成彭林江由于网站信息更新,正在调整爬虫程序结构更换爬虫结构郝倩由于网站信息更新,正在调整爬虫程序结构更换爬虫结构高雅智重定位人力资源和计划更新,就爬虫部分与同学讨论并尝试更换爬虫结构管理任务进度,按计划重定位任务牛强因爬...
分类:
其他好文 时间:
2014-11-15 01:23:21
阅读次数:
281
本文提供了一种准确判断请求是否是搜索引擎发出请求的方法,非通过UserAgent判断,提供了Python实现判断的核心代码,和一个web工具!提供了常见搜索引擎蜘蛛的IP段,快速判断可以通过IP段判断
分类:
其他好文 时间:
2014-11-15 00:01:19
阅读次数:
196