标签:代码 gre 下载 一般来说 x86_64 策略 日志 返回 进制
1.常用的python第三方库:通俗一点说就是: bs4库把html源代码重新进行了格式化,
从而方便我们对其中的节点、标签、属性等进行操作。
4.urllib
urllib是python提供的一个用于操作URL的模块,
Urllib是python内置的HTTP请求库
包括以下模块
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块
**mongodb源码安装***
1.下载地址:https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz
2.上传位置:/usr/local/src
软件安装位置:/usr/local/mongodb
数据存放位置:/usr/local/mongodb/data
日志存放位置:/usr/local/mongodb/logs
解压: tar -zxv -f mongodb-linux-x86_64-rhel70-3.2.5.tgz
改变数据存放数据: mv mongodb-linux-x86_64-rhel70-3.2.5 /usr/local/mongodb
创建数据库目录和日志目录:mkdir -p /usr/local/mongodb/data
mkdir -p /usr/local/mongodb/logs
启动mongodb
cd /usr/local/mongodb
./bin/mongod --dbpath=/usr/local/mongodb/data --logpath /usr/local/mongodb/logs/log.txt --logappend --fork
5.爬虫分析
直接上脚本???
encoding=utf-8
%这是脚本中存在脚本使用的,没有中文用#注释就行了
from future import print_function
%为了区分python版本,版本不同是有区别的
import requests
%调用requssts库
from bs4 import BeautifulSoup
%调用bs4中BeautifulSoup库来解析html
import pymongo
%调用pymongo
import json
%调用json库
db = pymongo.MongoClient().iaaf
%定义数据库名字
def spider_iaaf():
%定义一个def函数名
for i in range(4):
res = requests.get(url.format(i),headers=headers)
%根据for循环,定义四个url,get请求这四个url,headers防止反扒策略
html = res.text
%请求页面的html代码原
db.athletes.×××ert_one(j_data)
%把字典j_data保存到数据库
if name == ‘main‘:
%固定写法,被调用不会重复执行
2.。。。。。。。。。。。
from future import print_function
从future模块导入,兼容
import requests
dia调用第三方库request
def long_jump(url):
定义一个函数明为long_jump的函数
res = requests.get(url, headers=headers)
get请求url
html = res.text
get请求页面源码
soup = bs(html,‘html.parser‘)
解析请求页面
div = soup.find(‘div‘, id=‘progression‘)
在页面找到所有div标签,id为progression,拿到跳远数据
h2_l = []
定义h2_l为一个列表
if div != None:
div不为空
h2_l = div.find_all(‘h2‘)
找出div中所有h2_l
tr_l = tbody_out.find_all(‘tr‘)
在所有室外找到tr标签,定义为tr_l
td_l = i.find_all(‘td‘)
找到td标签,拿到数据
td_dict = {}
定义为一个字典
outdoor.append(td_dict)
把字典插入到outdoor列表中
td_l = i.find_all(‘td‘)
找到所有室内tr标签
td_dict = {}
定义为一个字典
最后把脚本二定义到脚本三里面运行脚本,最后拿到想要的数据。
标签:代码 gre 下载 一般来说 x86_64 策略 日志 返回 进制
原文地址:https://blog.51cto.com/14239200/2409350