主要用到了多进程和多线程的知识,最后结果保存成csv文件格式,如有需要可改成数据库版本。 对用到的库做下简要介绍,具体请参考官方文档: xpinyin.Pinyin:将输入的中文转成拼音 concurrent.futures.ProcessPoolExecutor:多进程 concurrent.fu ...
分类:
编程语言 时间:
2017-06-11 22:13:41
阅读次数:
316
web-ui是什么?即网页用户界面,包括用户研究、交互设计、界面设计,实现人机交互 web的基本分类 ?门户网站:新浪、网页、腾讯等 ?分类信息网站:赶集网、 ?交易类网站:天猫、淘宝等B2B/C2C网站 ?娱乐性网站:视频、游戏等 ?博客类网站:个人对外部发布信息的平台 ?论坛社区类网站:交流平台 ...
分类:
Web程序 时间:
2017-05-07 18:38:13
阅读次数:
261
写在前面的话: 总是在灾难发生后,才想起容灾的重要性; 总是在吃过亏后,才记得曾经有人提醒过。 (一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层; (2)控制单表数据量 int型不超过1000w,含char则不超过500w; 合理分表; 限制单库表数量在300以内; (3)控制列数量 ...
分类:
数据库 时间:
2017-03-17 23:22:55
阅读次数:
326
备注:请将答案写在答题纸上 一、选择题 1.下面标签嵌套正确的是(D) A. <ul><p>赶集网</p></ul> B. <a href="#"><a href="#">赶集网</a></a> C. <dl><li>赶集网</li></dl> D.<ol><li>赶集网</li></ol> 2. ...
分类:
其他好文 时间:
2016-11-19 10:07:25
阅读次数:
1021
571亿背后:DRC助阿里实现异地双活赶集网SQL自动上线 ...
分类:
其他好文 时间:
2016-11-18 11:55:13
阅读次数:
190
一、电源生产中一般核心业务用双电源,如果是集群的情况可以例外。二、CPU计算机的大脑,负责运算和控制,是服务器性能最核心部件。如果生产场景:一般的企业,CPU个数2-4个,每个CPU一般双核到四核。如果虚拟化主机:CPU个数4-8个,内存一般48-128G。三、内存CPU和磁盘之间的..
分类:
系统相关 时间:
2016-10-06 23:15:56
阅读次数:
332
IP(独立IP):指独立IP数,不同的IP地址的计算机访问网站的总次数,这个是网站流量分析的一个重要指标。00:00-24:00内相同的IP地址只被计算一次 假如说:赶集网的日独立IP300W,则至少有300w人来访问 所以说,独立IP数度量网站的访问量,不是很精确,因为国内的多数上网采用的都是na ...
分类:
其他好文 时间:
2016-09-06 13:48:09
阅读次数:
113
强强合并当下似乎已经成为国内互联网行业的风潮,滴滴和快的、美团和大众点评、58同城和赶集网、携程和去哪儿,乃至此前的优酷和土豆等,都是经典的案例。原本在细分互联网行业鼎力竞争的局面瞬间被打破,形成垄断趋势。为压缩成本、抢夺市场而结合的巨头,在坐上“联盟小船”..
分类:
其他好文 时间:
2016-05-10 23:47:16
阅读次数:
209
目的: 应该有不少人需要去某些网站不停爬取数据,有时会使用HTTPRequest一直请求某个网站的某个网址。有的网站比如 QQ空间,赶集网(这是我测试的网站),不停刷新会提醒你的账号异常,可能会查封你几天禁止访问该网站。我想为了网站的安全,大多大型网站都会有这样一个措施。 但是,有些工作的确需要抓取 ...