多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是n ...
分类:
编程语言 时间:
2017-03-06 01:24:21
阅读次数:
348
Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端 ...
分类:
系统相关 时间:
2017-03-06 01:04:52
阅读次数:
269
可能 网站中会用到一些漂亮的文字,又不想用图片, 这样可以用自定义字体, 用的工具是 字蛛http://font-spider.org/ 字蛛工具 依赖 nodeJs, 先安装好 NodeJS,然后执行安装字蛛: 第二步要使用指定的字体 ...
分类:
其他好文 时间:
2017-03-03 18:50:19
阅读次数:
165
[TOC]###2017-02-08 01:19:09 Scrapy: pk5_mylist.md> Save the records with MongoDB#### settings.py```# -*- coding: utf-8 -*-BOT_NAME = 'bengbeng'SPIDER_... ...
分类:
其他好文 时间:
2017-02-25 13:52:40
阅读次数:
193
今天看别人的SQL时看这里面还有decode()函数,以前从来没接触到,上网查了一下,还挺好用的一个函数,写下来希望对朋友们有帮助哈! 今天看别人的SQL时看这里面还有decode()函数,以前从来没接触到,上网查了一下,还挺好用的一个函数,写下来希望对朋友们有帮助哈! decode()函数简介: ...
分类:
数据库 时间:
2017-02-16 10:46:34
阅读次数:
176
1.du -h 用来查看各个分区的大小 2.du -h --max-depth=0 /data2/xijun.gong/tt_data 用来查看文件夹的大小,并指定递归的深度. 3. chmod u+wr,g+r,o=r data.txt 对文件进行权限修改,用户增加读写权限,群组增加读权限,其他指 ...
分类:
系统相关 时间:
2017-02-14 20:28:09
阅读次数:
194
log4j.logger.io.netty=INFO, stdout, spiderlog4j.logger.com.ld.net.spider=INFO, stdout, spider log4j.appender.spider=org.apache.log4j.RollingFileAppend ...
分类:
其他好文 时间:
2017-02-07 10:48:26
阅读次数:
144
Python通过Twitter的API爬取好友信息,并保存到数据库。 ...
分类:
数据库 时间:
2017-02-05 16:59:01
阅读次数:
324
#_*_coding:utf_8_ from sgmllib import SGMLParserimport sys, urllib2, urllib, cookielibimport datetime, time class spider(SGMLParser): def __init__(sel ...
分类:
编程语言 时间:
2017-02-02 23:36:57
阅读次数:
237
此文档主要涉及到页面解析,goquery的使用方法,我觉得可以专门写篇文档。package pholcus_lib // 基础包 import ( "github.com/henrylee2cn/pholcus/common/goquery" //DOM解析 "github.com/henrylee ...
分类:
其他好文 时间:
2017-01-23 20:29:48
阅读次数:
780