(1)实战背景 小说网站-笔趣看: URL:http://www.biqukan.com/ 笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度。并且该网站只支持在线浏览,不支持小说打包下载。因此,本次实战就是从该网站爬取并保存一本名为《一念 ...
分类:
编程语言 时间:
2020-06-14 13:03:15
阅读次数:
66
目标:使用Python编写爬虫,获取链家青岛站的房产信息,然后对爬取的房产信息进行分析。 环境:win10+python3.8+pycharm Python库: 1 import requests 2 import bs4 3 from bs4 import BeautifulSoup 4 impo ...
分类:
编程语言 时间:
2020-06-13 23:25:03
阅读次数:
68
1、什么是scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。Scrapy 使用了Twisted['tw?st?d]异步网络框架 文档地址:https://scrapy-chs.readthedocs.io/zh_CN/1.0 ...
分类:
其他好文 时间:
2020-06-13 21:00:14
阅读次数:
48
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 仅学习参考 说明:先将待提取的url提取出来,然后交给urllib.request.urlretrieve函数去下载, 自动调用schedule函数,显示当前下载的进 ...
分类:
其他好文 时间:
2020-06-13 19:13:36
阅读次数:
98
package main import ( "net/http" "fmt" "io/ioutil" "strings" ) func downloadJpg(url string,file_name string) { client := &http.Client{} req,err := htt ...
分类:
其他好文 时间:
2020-06-12 01:14:26
阅读次数:
70
爬虫的具备条件 jdbc:操作数据库。 ehcache(redis):重复url判断。 log4j:日志记录。 httpclient:发送http请求。 jsoup:解析返回的网页内容。 Maven的使用: (1)log4j 的使用; 1. 使用 Maven 下载 log4j 的 Jar 包 2. ...
分类:
其他好文 时间:
2020-06-11 16:23:52
阅读次数:
63
在爬取一些网页的时候,会发现网页的有些内容是通过JS动态加载的,也就是说是ajax数据,如下图。整个如果需要查看更多的文章,就需要【阅读更多】按钮,这时页面就会加载更多的文章,但是此时网页的网址是不会改变的,没有类似page这种表示页数的参数。这种加载方式就是ajax数据。这种数据通过普通的爬虫是获 ...
分类:
Web程序 时间:
2020-06-11 13:32:15
阅读次数:
67
今天终于实现了爬虫,爬取到了一定的信息 代码: # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import bs4 from selenium import webdriver from time impor ...
分类:
其他好文 时间:
2020-06-11 01:05:51
阅读次数:
116
今天还是学习python爬取,今天电脑的sdk环境还有python环境出了点问题,在查找资料仍无法解决之后,删除重新配置了一遍,利用hello world测试了python。然后上网找了爬虫的代码进行尝试,但是结果不尽如人意,爬出来很多垃圾数据。明天准备找点视频资料,认认真真的学一学爬虫,不在是找现 ...
分类:
其他好文 时间:
2020-06-11 00:43:25
阅读次数:
56
爬取诗词总量为二十九万两千六百零二条数据 一、爬虫编写 目标网站:诗词名句网 环境 window10; python3.7; scrapy框架; mysql数据库; 数据库设计 根据要爬取的字段定义,爬取内容为诗词链接,简介,标题,作者,朝代,内容,注释,作者发表的文章数量,图片url 如图 1.创 ...
分类:
其他好文 时间:
2020-06-10 23:07:58
阅读次数:
123