码迷,mamicode.com
首页 > 编程语言 > 详细

Python第七周 学习笔记(1)

时间:2018-05-06 18:48:51      阅读:235      评论:0      收藏:0      [点我收藏+]

标签:学习笔记

日志分析
  • 业务中会生成大量的系统日志、应用程序日志、安全日志等,通过对日志的分析可以了解服务器的负载、健康状况,可以分析客户的分布情况、客户的行为,甚至基于这些分析可以做出预测

  • 一般采集流程

    • 日志产出 -> 采集(Logstash、Flume、Scribe)-> 存储 -> 分析 -> 存储(数据库、NoSQL)-> 可视化

    • 开源实时日志分析ELK平台
    • Logstash收集日志,并存放到ElasticSearch集群中,Kibana则从ES集群中查询数据生成图表,返回浏览器端

分析的前提

半结构化数据

  • 日志是半结构化数据,是有组织的,有格式的数据。可以分割成行和列,就可以当作表理解和处理,分析里面的数据

文本分析

  • 日志是文本文件,需要依赖文件IO、字符串操作、正则表达式等技术
  • 通过这些技术就能够把日志中需要的数据提取出来

  • 目标数据形如:

    
    123.125.71.36 - - [06/Apr/2017:18:09:25 +0800] "GET / HTTP/1.1" 200 8642 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    124.```
  • nginx、tomcat等WEB Server都会产生这样的日志

提取数据

一、分割


import datetime

line = ‘‘‘
123.125.71.36 - - [06/Apr/2017:18:09:25 +0800] "GET / HTTP/1.1" 200 8642 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
‘‘‘

CHARS = set(" \t")

def makekey(line: str):
    start = 0
    skip = False
    for i, c in enumerate(line):
        if not skip and c in ‘"[‘:
            start = i + 1
            skip = True
        elif skip and c in ‘"]‘:
            skip = False
            yield line[start:i]
            start = i + 1
            continue

        if skip:
            continue

        if c in CHARS:
            if start == i:
                start = i + 1
                continue
            yield line[start:i]
            start = i + 1

    else:
        if start < len(line):
            yield line[start:]

names = (‘remote‘, ‘‘, ‘‘, ‘datetime‘, ‘request‘, ‘status‘, ‘length‘, ‘‘, ‘useragent‘)

ops = (None, None, None, lambda timestr: datetime.datetime.strptime(timestr, ‘%d/%b/%Y:%H:%M:%S %z‘),
       lambda request: dict(zip([‘method‘, ‘url‘, ‘protocol‘], request.split())),
       int, int, None, None)

def extract(line: str):
    return dict(map(lambda item: (item[0], item[2](item[1]) if item[2] is not None else item[1]),
                    zip(names, makekey(line), ops)))

print(extract(line))

二、正则表达式分割

PATTERN = r‘‘‘(?P<ip>[\d.]{7,})\s-\s-\s\[(?P<datetime>[^\[\]]+)\]\s"(?P<method>[^"\s]+)\s(?P<url>[^"\s]+)\s(?P<protocol>[^"\s]+)"\s(?P<status>\d{3})\s(?P<size>\d+)\s"(?:.+)"\s"(?P<useragent>[^"]+)"‘‘‘
pattern = re.compile(PATTERN)
ops = {‘datetime‘: (lambda x: datetime.datetime.strptime(x, ‘%d/%b/%Y:%H:%M:%S %z‘)), ‘status‘: int, ‘size‘: int}

def extract(text):

    mat = pattern.match(text)

    return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}

异常处理

  • 日志中不免会出现一些不匹配的行,需要处理
  • 这里使用re.match方法,有可能匹配不上。所以要增加一个判断
  • 采用抛出异常的方式,让调用者获得异常并自行处理

PATTERN = r‘‘‘(?P<ip>[\d.]{7,})\s-\s-\s\[(?P<datetime>[^\[\]]+)\]\s"(?P<method>[^"\s]+)\s(?P<url>[^"\s]+)\s(?P<protocol>[^"\s]+)"\s(?P<status>\d{3})\s(?P<size>\d+)\s"(?:.+)"\s"(?P<useragent>[^"]+)"‘‘‘
pattern = re.compile(PATTERN)

ops = {‘datetime‘: (lambda x: datetime.datetime.strptime(x, ‘%d/%b/%Y:%H:%M:%S %z‘)), ‘status‘: int, ‘size‘: int}

def extract(text) -> dict:

    mat = pattern.match(text)

    if mat:
        return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}
    else:
        raise Exception(‘No match‘)
  • 或者返回一个特殊值

def extract(text) -> dict:

    mat = pattern.match(text)

    if mat:
        return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}
    else:
        return None

滑动窗口

数据载入

def load(path):
    with open(path) as f:
        for line in f:
            fields = extract(line)
            if fields:
                yield fields
            else:
                continue

时间窗口分析

概念

  • 很多数据,例如日志,都是和时间相关的,都是按照时间顺序产生的
  • 产生的数据分析的时候,要按照时间求值

  • interval表示每一次求值的时间间隔
  • width时间窗接口宽度,指一次求值的时间窗口宽度

当width > interval

技术分享图片

  • 数据求值时会有重叠

当width = interval

技术分享图片

  • 数据求值没有重叠

时序数据

  • 运维环境中,日志、监控等产生的数据都是与时间相关的数据,按照时间先后产生并记录下来的数据,所以一般按照时间对数据进行分析

数据分析基本程序结构

  • 无限的生成随机数函数,产生时间相关的数据,返回时间和随机数字典

import random
import datetime
import time

def source():
    while True:
        yield {‘value‘: random.randint(1, 100), ‘datetime‘: datetime.datetime.now()}
        time.sleep(1)

s = source()
items = [next(s) for _ in range(3)]

def handler(iterable):
    return sum(map(lambda item: item[‘value‘], iterable)) / len(iterable)

print(items)
print("{:.2f}".format(handler(items)))

窗口函数实现

  • 将上面的程序扩展为window函数

import random
import datetime
import time

def source(second=1):
    while True:
        yield {‘value‘: random.randint(1, 100),
               ‘datetime‘: datetime.datetime.now(datetime.timezone(datetime.timedelta(hours=8)))}
        time.sleep(second)

def window(iterator, handler, width: int, interval: int):
    start = datetime.datetime.strptime(‘20170101 000000 +0800‘, ‘%Y%m%d %H%M%S %z‘)
    current = datetime.datetime.strptime(‘20170101 010000 +0800‘, ‘%Y%m%d %H%M%S %z‘)

    buffer = []
    delta = datetime.timedelta(seconds=width - interval)

    while True:
        data = next(iterator)
        if data:
            buffer.append(data)
            current = data[‘datetime‘]

        if (current - start).total_seconds() >= interval:
            ret = handler(buffer)
            print(‘{:.2f}‘.format(ret))
            start = current
            buffer = [x for x in buffer if x[‘datetime‘] > current - delta]

def handler(iterable):
    return sum(map(lambda item: item[‘value‘], iterable)) / len(iterable)

window(source(), handler, 10, 5)

技术分享图片

分发

生产者消费者模型

  • 对于一个监控系统,需要处理很多数据,包括日志。对其中已有数据的采集、分析。
  • 被监控对象就是数据的生产者producer,数据的处理程序就是数据的消费者consumer
  • 生产者消费者传统模型
    技术分享图片
  • 传统的生产者消费者模型,生产者生产,消费者消费。但这种模型有问题
  • 开发的代码耦合高,如果生成规模扩大,不易扩展,生产和消费的速度很难匹配等。

  • 解决办法:队列
  • 作用:解耦、缓冲
    技术分享图片
  • 日志生产者往往会部署好几个程序,日志产生的也很多,而消费者也会有很多个程序,去提取日志分析处理
  • 数据生产是不稳定的。会造成段时间数据的潮涌,需要缓冲
  • 消费者消费能力不一样,有快有慢,消费者可以自己决定消费缓冲区中的数据
  • 单机可以使用queue内建的模块构建进程内的队列,满足多个线程间的生产消费需要
  • 大型系统可以使用第三方消息中间件:RabbitMQ、RocketMQ、Kafka

queue模块——队列

  • queue.Queue(maxsize=0)

    • 创建FIFO队列,返回Queue对象
    • maxsize小于等于0,队列长度没有限制
  • Queue.get(block=True,timeout=None)

    • 从队列中移除元素并返回这个元素
    • block 阻塞,timeout 超时
    • 如果block为True,是阻塞,timeout为None就是一直阻塞
    • 如果block为True但是timeout有值,就阻塞到一定秒数抛出异常
    • block为False,是非阻塞,timeout将被忽略,要么成功返回一个元素,要么抛出empty异常
  • Queue.get_nowait()

    • 等价于get(False)
  • Queue.put(item,block=True,timeout=None)

    • 把一个元素加入到队列中去
    • block=True,timeout=None,一直阻塞直至有空位放元素
    • block=True,timeout=5,阻塞5秒就抛出Full异常
    • block=True,timeout失效,立刻返回,,一直阻塞直至有空位放元素
  • Queue.put_nowait(item)
    • 等价于put(item,False)

分发器实现

  • 生产者(数据源)生产数据,缓冲到消息队列中

  • 数据处理流程:

    数据加载 -> 提取 -> 分析(滑动窗口函数)

  • 处理大量数据的时候,可能需要多个消费者处理
  • 需要一个分发器(调度器),把数据分发给不同的消费者处理
  • 每一个消费者拿到数据后,有自己的处理函数。所以要有一种注册机制

数据加载 -> 提取 -> 分发 -> 分析函数1&分析函数2

  • 分析1和分析2可以是不同的handler、窗口宽度、间隔时间

  • 暂时采用轮询策略,一对多的副本发送,一个数据通过分发器、发送到多个消费者

  • 消息队列

    • 在生产者和消费者之间使用消息队列,那么所有消费者可以共有一个消息队列,或各自拥有一个消息队列
    • 公用一个消息队列需要解决争抢问题。每个消费者拥有一个队列较易实现
  • 注册

    • 在调度器内部记录消费者,每一个消费者拥有自己的队列
  • 线程
    • 由于一条数据会被多个不同的注册过的handler处理,所以最好的方式就是多线程

分发器代码实现


def dispatcher(src):
    reg_handler = []
    queues = []

    def reg(handler, width, interval):
        q = Queue()
        queues.append(q)

        thrd = threading.Thread(target=window, args=(q, handler, width, interval))

        reg_handler.append(thrd)

    def run():

        for i in reg_handler:
            i.start()

        for item in src:
            for q in queues:
                q.put(item)

    return reg, run

reg, run = dispatcher(load(‘test.log‘))

reg(handler, 10, 5)
run()

整合代码

  • load函数就是从日志中提取合格的数据生成函数
  • 它可以作为dispatcher函数的数据源
import re
from pathlib import Path
import datetime
import time
import threading
from queue import Queue
from user_agents import parse

PATTERN = r‘‘‘(?P<ip>[\d.]{7,})\s-\s-\s\[(?P<datetime>[^\[\]]+)\]\s"(?P<method>[^"\s]+)\s(?P<url>[^"\s]+)\s(?P<protocol>[^"\s]+)"\s(?P<status>\d{3})\s(?P<size>\d+)\s"(?:.+)"\s"(?P<useragent>[^"]+)"‘‘‘
pattern = re.compile(PATTERN)

def extract(text):
    ops = {‘datetime‘: (lambda x: datetime.datetime.strptime(x, ‘%d/%b/%Y:%H:%M:%S %z‘)), ‘status‘: int, ‘size‘: int,
           ‘useragent‘: lambda x: parse(x)}

    mat = pattern.match(text)

    return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}

def openfile(filename):
    with open(filename) as f:
        for text in f:
            fields = extract(text)
            time.sleep(2)
            if fields:
                yield fields
            else:
                continue

# producer
def load(*pathnames):
    for path in pathnames:
        pathname = Path(path)
        if not pathname.exists():
            continue

        if pathname.is_file():
            yield from openfile(pathname)

        elif pathname.is_dir():
            for filename in pathname.iterdir():
                if filename.is_file():
                    yield from openfile(filename)

def sum_size_handler(iterable):
    return sum(map(lambda x: x[‘size‘], iterable))

def status_handler(iterable):
    status = {}
    for dic in iterable:
        key = dic[‘status‘]
        status[key] = status.get(key, 0) + 1

    return {k: v / len(iterable) for k, v in status.items()}

d = {}

def ua_handler(iterable):
    ua_family = {}
    for item in iterable:
        val = item[‘useragent‘]
        key = (val.browser.family, val.browser.version_string)
        ua_family[key] = ua_family.get(key, 0) + 1
        d[key] = d.get(key, 0) + 1
    return ua_family, d

# consumer
def window(q: Queue, handler, width, interval):
    st_time = datetime.datetime.strptime(‘19700101 000000 +0800‘, ‘%Y%m%d %H%M%S %z‘)
    cur_time = datetime.datetime.strptime(‘19700101 010000 +0800‘, ‘%Y%m%d %H%M%S %z‘)

    buffer = []

    while True:
        # src = next(iterable)
        src = q.get()
        print(src)
        buffer.append(src)

        cur_time = src[‘datetime‘]

        if (cur_time - st_time).total_seconds() > interval:
            val = handler(buffer)
            st_time = cur_time
            b, d = val
            d = sorted(d.items(), key=lambda x: x[1], reverse=True)
            print(val)
            print(d)
        buffer = [x for x in buffer if x[‘datetime‘] > (cur_time - datetime.timedelta(seconds=width - interval))]

def dispatcher(src):
    reg_handler = []
    queues = []

    def reg(handler, width, interval):
        q = Queue()
        queues.append(q)

        thrd = threading.Thread(target=window, args=(q, handler, width, interval))

        reg_handler.append(thrd)

    def run():

        for i in reg_handler:
            i.start()

        for item in src:
            for q in queues:
                q.put(item)

    return reg, run

if __name__ == ‘__main__‘:
    import sys

    # path=sys.argv[1]
    path = ‘test.log‘

reg, run = dispatcher(load(‘test.log‘))

# reg(sum_size_handler, 20, 5)
# reg(status_handler, 20, 5)
reg(ua_handler, 20, 5)
run()

完成分析功能

  • 分析日志很重要,通过海量数据分析就能够知道是否遭受了攻击,是否被爬取及爬取高峰期,是否有盗链等

状态码分析

  • 状态码中包含了很多信息。例如
    • 304,服务器收到客户端提交的请求参数,发现资源未变化,要求浏览器使用静态资源的缓存
    • 404,服务器找不到大请求的资源
    • 304占比大,说明静态缓存效果明显。404占比大,说明网站出现了错误链接,或者尝试嗅探网站资源
    • 如果400、500占比突然增大,网站一定出了问题。
def status_handler(iterable):
    status = {}
    for dic in iterable:
        key = dic[‘status‘]
        status[key] = status.get(key, 0) + 1

    return {k: v / len(iterable) for k, v in status.items()}

浏览器分析

useragent

  • 这里指的是,软件按照一定的格式向远端的服务器提供一个表示自己的字符串
  • 在HTTP协议中,使用useragent字段传送这个字符串

浏览器选项中可以修改此设置

信息提取

安装

pip install pyyaml ua-parser user-agents

数据分析

d = {}

def ua_handler(iterable):
    ua_family = {}
    for item in iterable:
        val = item[‘useragent‘]
        key = (val.browser.family, val.browser.version_string)
        ua_family[key] = ua_family.get(key, 0) + 1
        d[key] = d.get(key, 0) + 1
    return ua_family, d

Python第七周 学习笔记(1)

标签:学习笔记

原文地址:http://blog.51cto.com/11281400/2113294

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!