参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
SymmetricDS是一个开源的同步软件,该软件是基于java环境编写的,在运行的时候需要安装JDK。SymmetricDS可以同步文件和数据库,本文的重点是数据库方面的同步。SymmetricDS支持多种数据库的同步,支持的数据库如下:Oracle,
MySQL, MariaDB, Postgr...
分类:
数据库 时间:
2014-04-28 04:38:51
阅读次数:
959
http://www.pythonclub.org/mysql/optimize-20-tips今天,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显。关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情。当我们去设计数据库表结构,对操作数据库时...
分类:
数据库 时间:
2014-04-28 04:09:34
阅读次数:
1013
(1)隔离列如果在查询中没有隔离索引的列,mysql通常不会使用索引。”隔离“列意味着它不是表达式的一部分,也没有位于函数中。如以下的查询将不会使用actor_id上的索引1
mysql>select * from actor where actor_id +1 = 5我们虽然很容易的看出actor...
分类:
其他好文 时间:
2014-04-28 03:59:46
阅读次数:
491
1.
负载均衡概述负载均衡的基本思路是:在一个服务器集群中尽可能的平衡负载量。通常的做法是在服务器前端设置一个负载均衡器(一般是专门的硬件设备)。然后负载均衡器将请求的连接路由到最空闲的可用服务器。下图显示了一个典型的大型网站负载均衡设置,其中一个负载均衡器用于HTTP流量,另一个用于MySQL访问...
分类:
其他好文 时间:
2014-04-28 02:42:43
阅读次数:
648
1.创建数据库:create database database_name;2.选择数据库:use
database_name;3.创建表:create table tablename(column1 data_type1, column2
data_type2,...,columnn dataty...
分类:
数据库 时间:
2014-04-28 02:34:53
阅读次数:
560
DataVeryLite 是基于.net
4.0的数据库持久化ORM框架.目前支持的数据库有Sqlserver,Mysql,Oracle,Db2,PostgreSql,Sqlite和Access.DataVeryLite的配置系统非常简单,稍微有点c#基础的程序猿,半小时都能上手;不仅学习简单,编码...
分类:
其他好文 时间:
2014-04-28 02:29:00
阅读次数:
546
为了方便自己测试和监控,写了三个监控的脚本。 分别监控:
主机【cpu,mem,disk,fs,net】 oracle mysql 脚本如下:hmon.py: monitor Linux os system
including cpu,memory,disk,net,file s...
分类:
数据库 时间:
2014-04-28 01:27:52
阅读次数:
765
我的MYSQL学习心得(一)使用MYSQL有一段时间了,由于公司使用SQLSERVER和MYSQL,而且服务器数量和数据库数量都比较多管理起来比较吃力,在学习MYSQL期间我一直跟SQLSERVER进行对比第一期主要是学习MYSQL的基本语法,陆续还有第二、第三、第四期,大家敬请期待o(∩_∩)o语...
分类:
数据库 时间:
2014-04-27 21:40:40
阅读次数:
704