#coding:utf-8import sys,urllib2,re,Queuesys.path.append("..")from lib.Http_Class import Http_Classfrom BeautifulSoup import BeautifulSoup#############...
分类:
编程语言 时间:
2014-07-07 20:49:39
阅读次数:
350
package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;impor...
分类:
Web程序 时间:
2014-07-05 18:52:01
阅读次数:
266
近期在用caffe玩一些数据集,这些数据集是从淘宝爬下来的图片。主要是想研究一下对女性衣服的分类。以下是一些详细的操作流程,这里总结一下。1 爬取数据。写爬虫从淘宝爬取自己须要的数据。2 数据预处理。将图片从jpg,png格式转为leveldb格式。由于caffe的输入层datalayer是从lev...
分类:
其他好文 时间:
2014-07-03 19:23:59
阅读次数:
195
进行抓取页面,我看了一下人家的教程,一般要用到htmlparser用来解析html得到一个网页的相关链接,用httpclient抓取网页数据,下面是一我写的spider类package com.openzone.search.spider;import java.io.BufferedReader;...
分类:
编程语言 时间:
2014-07-01 21:43:29
阅读次数:
261
发现科大网页的源码中还有文章的点击率,何不做一个文章点击率的降序排行。简单,前面入门(1)基本已经完成我们所要的功能了,本篇我们仅仅需要添加:一个通过正则获取文章点击率的数字;再加一个根据该数字的插入排序。ok,大功告成!简单说一下本文插入排序的第一个循环,找到列表中最大的数,放到列表 0 的位置做...
分类:
编程语言 时间:
2014-07-01 14:01:14
阅读次数:
245
有人说大部分python程序员都是通过爬虫入门的或者都是由爬虫喜欢上python的。还有大部分人学爬虫都喜欢拿自己学校的网站练手。我就是基于以上两点开始的。。。ok,开始,首先你需要一点python基础,一点点基础就可以,找一本薄薄的书过一遍,可以上这来找找http://wiki.woodpecke...
分类:
编程语言 时间:
2014-07-01 11:47:07
阅读次数:
316
随着现在互联网的发展,越来越多的注册用户的地方都用到了身份证,那么对于输入的身份证如何验证呢?看下面的代码,其实很简单。主要注意的是,目前的身份证分为16和18位,然后分别验证校验位,省份,生日即可。主要类:///
/// 验证身份证号码类
///
public class IDCardValidation
{
///
/// ...
分类:
其他好文 时间:
2014-07-01 08:40:08
阅读次数:
202
近日我的两个宝贝相继过生日,给我很多感触,被生命和生活所感动,被各种爱和各种细节所激动,我是一个可怕可恨的工科男,有时敏感,有时性情,有时忧郁,有时愤青,有时假装文艺,有时也很装,这些五花八门乱七八糟的怪里怪气注定了我无法达到常人所想象的高度和境界,我只能在那个小小的圈子世界里偶尔闹腾一下,这是悲情的,但依然未放弃做大做强的梦想,梦想这个东西,有时就是人的一口气,没气也就挂掉了,因此一定保持这口气...
分类:
其他好文 时间:
2014-06-30 18:33:57
阅读次数:
175
[目录]扯淡吹逼之开发前奏Django 开发环境搭建及配置web 页面开发Django app开发Django 站点管理Python 简易爬虫开发Nginx&uWSGI 服务器配置...三、web页面开发 好吧,本来想单独写一章bootstrap的,但是前端确实没什么好写的,这里我们直接结合实际直....
分类:
Web程序 时间:
2014-06-30 11:58:55
阅读次数:
383