前言:通常体质被分散存储在不同的设备上面,在庞大的服务器集群中,我们需要集中化的管理,日志的统计和检索,一般我们使用grep和awk,wc等linux命令虽然能够实现检索和统计,但是呢,对于要求更高的查询,排序等环境会有很大的压力和瓶颈;于是我们需要对于日志进行集中化的管理,将所有机器上面的日志信息 ...
分类:
其他好文 时间:
2018-06-23 13:21:53
阅读次数:
317
【简易采集】美团数据抓取方法 最近学习了 一下 如何爬取数据 然后就接触了 八爪鱼 数据分析 这个软件 详细信息访问这个:http://www.bazhuayu.com/tutorial/hottutorial/shfw/xfdp 对于某些用户来说,直接自定义规则可能有难度,所以在这种情况下,我们提 ...
分类:
其他好文 时间:
2018-06-19 13:57:52
阅读次数:
317
数据量:3,289,329 人。 数据采集工具:分布式 python 爬虫 分析工具:ElasticSearch + Kibana 分析角度:地理位置、男女比例、各类排名、所在高校、活跃程度等。 请各位注意: 以下所有分析结果都基于我抓取到的这300万用户的个人信息,非权威分析,仅供参考。 数据抓取 ...
分类:
编程语言 时间:
2018-06-10 00:31:16
阅读次数:
575
# -*- coding: utf-8 -*- import scrapy import re import json import time class WphSpiderSpider(scrapy.Spider): name = 'wph_spider' allowed_domains = [' ...
分类:
其他好文 时间:
2018-05-25 19:38:30
阅读次数:
1879
import requests from lxml import etree import re import time import json import multiprocessing class MyProcess(multiprocessing.Process): def __init__... ...
分类:
其他好文 时间:
2018-05-25 19:24:44
阅读次数:
2867
大多数情况下,图片获取并不是很困难的事情,获取图片的url,然后模拟浏览器请求即可。但是,有的时候这种方法往往无法生效,常见的情形有: 这些情况下,使用puppeteer驱动chrome浏览器能看到图片,但获取url后单独请求时,要么获取到的图片无效,要么获取不到图片。本文这里就简单的介绍下一些十分 ...
分类:
其他好文 时间:
2018-05-20 20:39:22
阅读次数:
2037
“微信运动”能够向朋友分享一个包含有运动数据的网页,网页中就有我们需要的数据。url类似于:http://hw.weixin.qq.com/steprank/step/personal?openid=用户的openid,其中有用于对于微信运动的唯一openid,打开fiddler进行抓包,首先打开f ...
分类:
微信 时间:
2018-05-20 18:07:19
阅读次数:
2692
本文以一个示例简单的介绍一下puppeteer的用法,我们的目的是:获取我博客上的文章的前十页的所有随笔的标题和链接。由于puppeteer本身是自动化chorme,因此这里我们的步骤和手动操作浏览器差不多: 获取信息 采集过程中比较麻烦的一步就是信息的采集,和传统采集html后解析的方式不同的时, ...
分类:
其他好文 时间:
2018-05-19 15:48:15
阅读次数:
1825
page对象是puppeteer最常用的对象,它可以认为是chrome的一个tab页,主要的页面操作都是通过它进行的。Google的官方文档详细介绍了page对象的使用,这里我只是简单的小结一下。 客户端模拟 页面模拟设置相关函数有如下几个, page.setViewport: 设置视图大小 pag... ...
分类:
其他好文 时间:
2018-05-19 13:59:28
阅读次数:
7563
一、迟到的下期预告 自从上一篇文章发布到现在,大约差不多有3个月的样子,其实一直想把这个实战入门系列的教程写完,一个是为了支持DotnetSpider,二个是为了.Net 社区发展献出一份绵薄之力,这个开源项目作者一直都在更新,相对来说还是很不错的,上次教程的版本还是2.4.4,今天浏览了一下这个项 ...
分类:
Web程序 时间:
2018-05-13 15:08:14
阅读次数:
544