主要介绍大数据获取的应用和场景,组件和技术不做详述,之后介绍。 1. 网络爬虫 根据URL,并按照一定规则爬取网页内容,存储进库。 相关概念: https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB 推荐技术: PYTHON ...
分类:
其他好文 时间:
2018-08-13 00:42:27
阅读次数:
208
1. 正则表达式规则 -- 爬取网页的url ...
分类:
编程语言 时间:
2018-08-07 20:41:59
阅读次数:
147
最近偷空研究了一下python,准备用python写一个爬虫。 在使用scrapy,爬取网页信息时,我需要去定位节点,所以也就有了下面这篇文章。 例子代码: 从例子代码中可以看到xpath()方法中的参数为xpath路径表达式。我要去写我所需要信息的xpath,才能抓取到我需要的信息,所以书写xpa ...
分类:
其他好文 时间:
2018-07-12 20:15:15
阅读次数:
197
一、什么是爬虫? 爬虫:就是爬取网页数据的程序。 二、爬虫怎么抓取网页数据: 网页三大特征: -1. 网页都有自己唯一的URL(统一资源定位符)来进行定位-2. 网页都使用HTML (超文本标记语言)来描述页面信息。-3. 网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。 爬 ...
分类:
编程语言 时间:
2018-07-11 21:20:40
阅读次数:
156
译者按: 本文通过简单的例子介绍如何使用Puppeteer来爬取网页数据,特别是用谷歌开发者工具获取元素选择器值得学习。 原文: A Guide to Automating & Scraping the Web with JavaScript (Chrome + Puppeteer + Node J ...
分类:
其他好文 时间:
2018-06-29 19:57:05
阅读次数:
168
import java.io.BufferedReader;import java.io.FileReader;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java ...
分类:
编程语言 时间:
2018-06-27 22:31:07
阅读次数:
548
有的时候爬取网页,可以利用网站额结构特点爬取网页 在百度搜索框中输入搜索内容,单击搜索,浏览器会发送一个带有参数的url请求。尝试删除其中的一些参数,只剩下wd这个参数。发现wd是搜索内容。这样程序可以根据不同的wd值,请求不同的网页。 浏览器中发送请求的url中包含汉字是不能请求成功的,需要将汉字 ...
分类:
Web程序 时间:
2018-06-24 16:54:42
阅读次数:
178
爬取网页: 用requeusts获取整个网页的HTML信息; 使用Beautiful Soup解析HTML信息 ...
分类:
编程语言 时间:
2018-06-20 21:36:19
阅读次数:
431
我们首先打开IDLE选择File new window命令(或者可以直接按键Ctrl+N键,在很多地方这个按键是新建文件的意思) 在这里还是要推荐下我自己建的Python开发学习群:725479218,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不 ...
分类:
Web程序 时间:
2018-06-14 11:40:34
阅读次数:
189
刚刚入坑Pycharm,试了个简单爬取网页: 结果控制台输出中文变成了unicode编码。 最后read()改成read().decode()解决 ...
分类:
其他好文 时间:
2018-06-13 15:17:19
阅读次数:
1760