1.Python 爬虫介绍 一、什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 二、Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU ...
分类:
编程语言 时间:
2018-11-11 18:00:02
阅读次数:
159
1 classpath指WEB-INF下面的classes目录 2 配置成classpath*的话,spring会去所有的classpath中去找,包括lib下面的jar包 对于web app而言,classpath就是WEB-INF/classes和WEB-INF/lib。 对于jar包而言,根目 ...
分类:
编程语言 时间:
2018-11-11 17:59:49
阅读次数:
157
参数新数据对象是用来定义常量的,它可以提升verilog hdl代码的可读性和维护性。 verilog hdl支持参数有两种,普通参数和局部参数。普通参数在模块例化时可以从新赋值,局部参数在模块例化时不能从新赋值。参数值更改可以通过defparam语句实现。 Verilog中可以用关键字parame ...
分类:
其他好文 时间:
2018-11-11 17:59:32
阅读次数:
217
Kafka + zookeeper 的搭建部署,以及 kafka-manager 部署管理、监控 kafka 集群。
分类:
其他好文 时间:
2018-11-11 17:59:23
阅读次数:
176
参考博客: https://www.cnblogs.com/gaoruixin/p/6070502.html 简介 $location服务解析在浏览器地址栏中的URL(基于window.location)并且让URL在你的应用中可用。改变在地址栏中的URL会作用到$location服务,同样的,改变 ...
分类:
Web程序 时间:
2018-11-11 17:59:16
阅读次数:
262
http://www.ityouknow.com/spring-cloud.html Eureka是Netflix开源的一款提供服务注册和发现的产品,它提供了完整的Service Registry和Service Discovery实现。也是springcloud体系中最重要最核心的组件之一。 背景 ...
分类:
编程语言 时间:
2018-11-11 17:58:58
阅读次数:
239
系统自带服务/lib/systemd/system/rc-local.service 软连接为 /lib/systemd/system/rc.local.service -> rc-local.service 可以看到此文件缺少[install]部分,为他加上。 输入systemctl enable ...
分类:
系统相关 时间:
2018-11-11 17:58:52
阅读次数:
202
Linux哲學思想: 1, 一切皆文件 : 在Linux系統裡面所有資料訊息,都是保存在文件裡面,這樣可以有效地保存訊資料。 2, 由從多功能單一的程序組(小程序) : 使用小功能來完成一個小程序,是容易及簡潔,和有明確的目標。 3, 組合小程序完成覆雜任務 : 可以把高效率,可以簡潔地完成覆雜任務 ...
分类:
系统相关 时间:
2018-11-11 17:58:43
阅读次数:
128
/ Monokai Sublime style. Derived from Monokai by noformnocontent http://nn.mit license.org/ / .cnblogs markdown .hljs { display: block; overflow x: au ...
分类:
其他好文 时间:
2018-11-11 17:58:34
阅读次数:
486
Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.9.4。 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳入 apache 旗下,cloudera Flume 改名为 Apache Flume。
分类:
Web程序 时间:
2018-11-11 17:58:27
阅读次数:
283
官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources。Flume Sources 描述。
分类:
Web程序 时间:
2018-11-11 17:58:18
阅读次数:
181
大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,当你采集数据最起劲儿的时候,突然网页跳出403Forbidden的提示。所以在爬取数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题,太阳HTTP服务应运而生。让我们先来看一下你所遭遇的
分类:
其他好文 时间:
2018-11-11 17:58:08
阅读次数:
202
为了更好的做负载均衡,Kafka尽量将所有的Partition均匀分配到整个集群上。一个典型的部署方式是一个Topic的Partition数量大于Broker的数量。同时为了提高Kafka的容错能力,也需要将同一个Partition的Replica尽量分散到不同的机器。实际上,如果所有的Replica都在同一个Broker上,那一旦该Broker宕机,该Partition的所有Replica都无法工作,也就达不到HA的效果。同时,如果某个Broker宕机了,需要保证它上面的负载可以被均匀的分配到其它幸存的所有Broker上。
分类:
其他好文 时间:
2018-11-11 17:58:00
阅读次数:
229
1、简述osi七层模型和TCP/IP五层模型网络协议通常分不同层次进行开发,每一层分别负责不同的通行功能。1.1OSI七层模型OSI:OpenSystemInternetconnection(开放系统互联),由ISO国际标准化组织定义;目的是规范网络环境,实现软硬件兼容;自上而下共分为七层,分别为:应用层,表示层,会话层,传输层,网络层,数据链路层,物理层。应用层:各种应用程序及接口表示层:对数据
分类:
其他好文 时间:
2018-11-11 17:57:51
阅读次数:
213
能过jenkins的插件ThinBackup插件做完整备份,并在故障时,通过完整备份来还原jenkins,也可以新升级jenkins时用备份文件还原;平滑升级或做冷备~!
分类:
其他好文 时间:
2018-11-11 17:57:42
阅读次数:
1420
布局芯片产业是阿里巴巴多年坚持的“雄心”,其还投资了寒武纪、深鉴等5家芯片企业。阿里巴巴去年10月份成立了达摩院,宣布投入1000亿元人民币进入到技术研发方面。
分类:
其他好文 时间:
2018-11-11 17:57:35
阅读次数:
183