import requests from bs4 import BeautifulSoup import time import os import urllib #需要爬取的目标网页 link='https://www.zhihu.com/hot' #对网页进行解析 soup=BeautifulS ...
分类:
其他好文 时间:
2020-03-20 11:10:29
阅读次数:
75
从网页源代码中找到我们需要爬取的标签且是html结构,爬取目标为class=’job_titile'和class='job_content' import requests from bs4 import BeautifulSoup import bs4 import pandas as pd #引 ...
分类:
其他好文 时间:
2020-03-17 21:06:01
阅读次数:
64
1.导入相应的库 2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513 3.找到爬去的内容: 4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十 import requests f ...
分类:
其他好文 时间:
2020-03-16 16:23:23
阅读次数:
77
1、遍历文档树 使用示例: html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class=" ...
分类:
编程语言 时间:
2020-03-11 15:41:18
阅读次数:
67
from bs4 import BeautifulSoup import requests url = 'https://python123.io/ws/demo.html' r = requests.get(url) getHTML = r.text soup = BeautifulSoup(ge ...
分类:
其他好文 时间:
2020-02-26 01:09:13
阅读次数:
77
这篇文章主要介绍了Pythont特殊语法filter,map,reduce,apply使用方法,需要的朋友可以参考下(1)lambda lambda是Python中一个很有用的语法,它允许你快速定义单行最小函数。类似于C语言中的宏,可以用在任何需要函数的地方。 基本语法如下: 函数名 = lambd ...
分类:
编程语言 时间:
2020-02-21 16:09:19
阅读次数:
131
Python爬虫 2019大学排名数据抓取 准备工作 1. 输入:大学排名URL连接 2. 输出:大学排名信息屏幕输出 3. 所需要用到的库:requests,bs4 思路 1. 获取网页信息 2. 提取网页中的内容并放到数据结构中 3. 利用数据结构展示并输出结果 程序设计 1. 定义函数getH ...
分类:
编程语言 时间:
2020-02-20 10:11:36
阅读次数:
92
Python3正则去掉HTML标签 1.引用一段代码 import re html = '<pre class="line mt-10 q-content" accuse="qContent">\ 目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a ...
分类:
编程语言 时间:
2020-02-14 18:58:56
阅读次数:
116
.find_all(name,attrs,recursive,string,**kwargs) name:对标签名称的检索字符串attrs:对标签属性值的检索字符串,可标注属性检索recursive:是否对子孙全部检索,默认为Truestring <>....</>中字符串区域的检索字符串 soup ...
分类:
其他好文 时间:
2020-02-12 00:36:59
阅读次数:
68
今天继续学习webmagic爬虫技术,组件包含: 1.Downloader Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用了Apache HttpClient作为下载工具。 2.PageProcessor PageProcessor负责解析页面,抽取有用信息,以及 ...
分类:
其他好文 时间:
2020-02-11 00:30:29
阅读次数:
76