个人记录 let http = require("http"); let fs = require("fs"); let cheerio = require("cheerio");//服务端的DOM解析模块 http.get("http://www.mobiletrain.org/teacher/" ...
分类:
其他好文 时间:
2021-02-02 11:15:44
阅读次数:
0
爬虫其实就是对网页内特定id、class、标签内容的提取,多是循环出来的,对我们爬取非常便利。 1.安装node node官网下载安装包安装,后在命令行工具中输入node -v查看node安装的版本。 2.实现项目 创建项目并进入 mkdir node-worm && cd node-worm 初始 ...
分类:
Web程序 时间:
2020-06-28 15:12:30
阅读次数:
69
最近写一个小爬虫,需要拿到邮箱信息,发现拿不到,也不是ajax接口。最后查资料发现是被Cloudflare加密起来了,有加密肯定有解密。 通过大佬https://blog.shiniv.com/2016/09/decode-encode-cloudflare-address-obfuscation/ ...
分类:
编程语言 时间:
2020-06-21 15:47:23
阅读次数:
77
需求: 获取一个展位号和公司名称,具体链接如下 http://www.cr expo.com/cn/zhanshang.aspx?id=2020 实现 ...
分类:
其他好文 时间:
2020-04-12 14:47:04
阅读次数:
63
request.Files.get;cache缓存;redis缓存;中间件;频率控制;验证码实现 ...
分类:
其他好文 时间:
2020-03-28 17:55:04
阅读次数:
87
1、导入相应的包 2、设置请求的网站、写入的文件以及内容。 3、运行结果 ...
分类:
编程语言 时间:
2020-03-21 23:14:58
阅读次数:
95
最近在研究kafka,看了一堆理论的东西,想动手实践一些东西,奈何手上的数据比较少,突发奇想就打算写个爬虫去抓一些数据来玩,顺便把深入一下爬虫技术。 之前写过一些小爬虫,一般就是用python的requests+lxml来爬取数据。这次打算学一下python的scrapy框架来爬取数据。解析网页内容 ...
分类:
其他好文 时间:
2020-03-05 13:19:59
阅读次数:
76
51zxw发布了一个新课程,是今年二月份的,现在总算是辞职空下来时间了,想着学习下爬虫吧,反正学了也不亏。爬虫算是最简单的东西了,爬虫背靠数据挖掘、数据分析和机器学习,与大数据和AI相比显得没那么高大上,随便一个程序员都能写一个的小爬虫。可是,在数据封锁隐藏,反爬机制不断深入的今天,如何设计爬虫分布 ...
分类:
编程语言 时间:
2019-12-13 23:43:12
阅读次数:
138
今天我们来盘一下csdn,做一个小程序,为什么做这个呢?今天小编看着我的博客的阅读数,唉,惨不忍睹,没办法,只能想一些........呃呃呃呃,你懂的。 话不多说,分析一波csdn的阅读数,计数原理是每次进入页面记作一次,所以我们很简单的构建一个访问的小爬虫就好了,那么开始操作。 根据上面的代码,你 ...
分类:
其他好文 时间:
2019-10-26 22:46:54
阅读次数:
83
这里以一个很简单的小爬虫为例,爬取 壹心理 网站的阅读页面第一页的所有文章及其对应的图片,文章页面如下: 创建项目 首先新建一个 scrapy 项目,安装好相关依赖(步骤可参考:scrapy 安装及新建爬虫项目并运行)。 新建一个爬虫: 此时项目工程目录与新建的爬虫如下: 爬取信息并编写图片自动下载 ...
分类:
其他好文 时间:
2019-09-21 14:57:23
阅读次数:
113