1. 初见网络爬虫 1.1 网络连接 输出某个网页的全部 HTML 代码。 urllib 是 Python 的标准库(就是说你不用额外安装就可以运行这个例子),包含了从网络请求数据,处理 cookie,甚至改变像请求头和用户代理这些元数据的函数。 from urllib.request import ...
分类:
编程语言 时间:
2020-05-05 18:04:02
阅读次数:
131
怎么隐藏自己电脑上的IP地址,对于这个问题,其他常见的有几个方法,当然还有不常见的高级方法。 方法一: 用代理是可以查出源ip的。隐藏ip这种说法其实很不实际,网络运营商总会知道你的ip。因为你的信息要发出去你必须有在这个网络的ip,一个网络数据包是包含你自己的ip的,因为类似tcp这样的协议是有一 ...
分类:
其他好文 时间:
2020-05-01 16:59:13
阅读次数:
190
概述 数据传输方式(data transmission mode),是数据在信道上传送所采取的方式。 按数据传输的顺序:并行传输和串行传输; 并行传输: 将数据以成组的方式在两条以上的并行信道上同时传输。 例如采用8单位代码字符可以用8条信道并行传输,一条信道一次传送一个字符。 因此不需另外措施就实 ...
分类:
其他好文 时间:
2020-04-26 02:00:06
阅读次数:
100
什么是负载均衡 负载均衡建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。 负载均衡,英文名称为 Load Balance,其意思就是分摊到多个操作单元上进行执行,例如 Web 服务器、FTP 服务器、企业关 ...
分类:
其他好文 时间:
2020-04-23 12:29:17
阅读次数:
66
requests.get import requests url = 'https://www.python.org/dev/peps/pep-0020/' res = requests.get(url) text = res.text text api 所谓的采集网络数据,并不一定必须从网页中抓取 ...
分类:
其他好文 时间:
2020-04-21 21:14:50
阅读次数:
89
一、Jute序列化工具 1、Jute概述 Zookeeper的客户端与服务端之间会进行一系列的网络通信来实现数据传输,Zookeeper使用Jute组件来完成数据的序列化和反序列化操作,其用于Zookeeper进行网络数据传输和本地磁盘数据存储的序列化和反序列化工作。 实体类要使用Jute进行序列化 ...
分类:
其他好文 时间:
2020-04-20 13:29:03
阅读次数:
61
2年经验java后端程序员的必备技术点总结(脑图), 脑图编辑工具:https://www.processon.com。必备技术点涉及操作系统、计算机网络、数据结构、数据库、 设计模式、java容器、java并发、JVM、spring、springspringcloud、redis、rabbitmq ...
分类:
编程语言 时间:
2020-04-18 22:47:30
阅读次数:
85
Python给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是urllib、requests这两个模块。网络数据采集之urlliburllib库官方文档地址:https://docs.python.org/3/library/urllib.htmlurllib库是python的内置HTTP请求库,包含以下各个模块内容:(1)urllib.request:请求模块(2)urllib.er
分类:
编程语言 时间:
2020-04-14 09:11:08
阅读次数:
132
正则表达式实际上爬虫一共就四个主要步骤:明确目标(要知道你准备在哪个范围或者网站去搜索)爬(将所有的网站的内容全部爬下来)取(去掉对我们没用处的数据)处理数据(按照我们想要的方式存储和使用)正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式匹配规则re模块一般使用步骤使用compile()函数将正则表达式的字符串形式编译为一个Pattern对象注意:re对特
分类:
编程语言 时间:
2020-04-13 23:12:52
阅读次数:
83