一 布隆过滤器简介 bloomfilter:是一个通过多哈希函数映射到一张表的数据结构,能够快速的判断一个元素在一个集合内是否存在,具有很好的空间和时间效率。(典型例子,爬虫url去重) 原理: BloomFilter 会开辟一个m位的bitArray(位数组),开始所有数据全部置 0 。当一个元素 ...
分类:
其他好文 时间:
2021-03-01 13:19:00
阅读次数:
0
一、背景 因为经常有爬虫数据处理的需求,之前一直用的多线程+requests方式爬虫,但是这种方式有两个问题: 1、当请求很多,并发稍微多一点的时候电脑特别卡 2、每次变更请求包,比如post换get,需要用不同的方式解析出header等数据不是很方便 主要基于这两个原因,搞了一个基于socket+ ...
分类:
其他好文 时间:
2021-02-27 13:13:04
阅读次数:
0
也不知道为什么喜欢叫爬虫 搞明白原理之后原来就是解析网页代码获取关键字符串 现在的网页有很多解析出来就是JS了,根本不暴露资源地址 依赖一个JSOUP,其他靠百度CV实现 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dep ...
分类:
编程语言 时间:
2021-02-26 13:24:45
阅读次数:
0
为了通过爬虫快速获取网站中的信息,我们通常将第一次爬取的网页中的url形成一个待爬取的列表 为了访问网站以及对网站源代码进行分析,这里使用urllib的request库获取网页源代码,使用lxml库对网页进行结构分析。 首先引用需要的库 import urllib.request import lx ...
分类:
编程语言 时间:
2021-02-26 13:00:47
阅读次数:
0
读取节点文本值和,属性值 # -*- coding: UTF-8 -*- from xml.dom import minidom dom=minidom.parse('F:\\python_project\\爬虫\\双色球\\shuangseqiu.xml') root=dom.documentEl ...
分类:
编程语言 时间:
2021-02-24 13:10:12
阅读次数:
0
Markdown学习 标题 三级标题 四级标题 字体 Hello, World! Hello, World! Hello, World! Hello, World! 引用 此处文字输入 分割线 图片 超链接 点击跳转到bilibili首页 列表 A B C A B C 表格 名字 性别 生日 张三 ...
分类:
其他好文 时间:
2021-02-20 12:21:25
阅读次数:
0
arr = ["http://music.163.com/song/media/outer/url?id=1820550501.mp3", "http://music.163.com/song/media/outer/url?id=1820550501.mp3", "http://music.163 ...
分类:
编程语言 时间:
2021-02-20 11:52:43
阅读次数:
0
Markdown学习 标题 三级标题 四级标题 字体 Hello,World! Hello,World! Hello,World! Hello,World! 引用 引用 分割线 图片 ) 超链接 点击跳转到KuangSyudy 列表 A b c a b c 表格 名字 性别 生日 张三 男 1997 ...
分类:
其他好文 时间:
2021-02-16 12:09:20
阅读次数:
0
import requests import re import os import json import time as t class QQmusic(): """代码仅供学习""" def __init__(self): """初始化""" self.headers = { 'Accept- ...
分类:
其他好文 时间:
2021-02-15 12:44:00
阅读次数:
0
# markdow学习 ## 标题 标题:##(空格)+标题 **world** *world* ***world*** ~~world~~ ## 引用 > 选择markdown走向人生巅峰 ## 分割线 *** ## 图片 ![截图](https://ss1.bdstatic.com/70cFuX ...
分类:
其他好文 时间:
2021-02-15 12:16:48
阅读次数:
0