爬虫基础知识

时间：2017-11-04 00:19:34 阅读：211 评论：0 收藏：0 [点我收藏+]

标签：字母 virt blog 一个 .com rtu 动态号码机器学习

1.安装 requests scrapy 豆瓣源 pip install -i 豆瓣源包名

2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX

3.网页分类

　　静态网页

　　动态网页

　　webservice

4.爬虫的应用

　　搜索引擎

　　推荐引擎

　　机器学习的数据样本

　　金融等数据分析

　　等。。。

5.正则表达式

　　^：（限定开头）

　　.：（一个字符）

　　* + {n}：(限定词)

　　|：(或)

　　()：括号用于提取子字符串

　　[ a-z ]：指定字符为中括号中任意一个 1[58347][0-9]{9}: 电话号码验证 1开头第二位只能是58347中的一位最后剩下九位只能再0-9之间选择

　　&：（限定结尾）

　　^a : 以字母a开头

　　^a.: 以字母a开头后面任意一个字符

　　^a.*: 以字母a开头并且后面任意字符

　　^a.*3$: 以字母a开头并且后面任意字符3$以3结尾 *限定词 0-多次

　　^a.+3$: 加号用于限定前面的字符至少出现一次 aX3 aXX3 ... +限定词 1-多次

　　^a.{2}3$: 加号用于限定前面的字符出现两次 aXX3 {1},{1,3},{1,}限定词指定n-m次

import re
str = ‘wlc123‘
zhengze = ‘^w.*‘
if re.match(zhengze, str):
    print(True)

import re
#用于解释贪婪匹配此案例输出结果为cc 而不是clllllllllc
#因此需要添加问号？使得匹配从左往右进行就可以得到clllllllllc了
#只在左边添加？结果会变成cllllllllcc后边还是会贪婪匹配 因此在后边的c之前也要加上？
str = ‘wwlcllllllllllcc123‘
zhengze = ‘.*(c.*c).*‘
#zhengze = ‘.*?(c.*?c).*‘
result = re.match(zhengze, str)
print (result.group(1))

6.深度广度优先遍历算法

7.url去重的常见策略

　待续　

爬虫基础知识

标签：字母 virt blog 一个 .com rtu 动态号码机器学习

原文地址：http://www.cnblogs.com/wlc297984368/p/7780479.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行