码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫基础知识

时间:2017-11-04 00:19:34      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:字母   virt   blog   一个   .com   rtu   动态   号码   机器学习   

1.安装 requests scrapy 豆瓣源         pip install -i 豆瓣源 包名 

2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX

3.网页分类

  静态网页

  动态网页

  webservice

4.爬虫的应用

  搜索引擎

  推荐引擎

  机器学习的数据样本

  金融等数据分析

  等。。。

5.正则表达式

  ^限定开头)       

  .一个字符)     

  * + {n}(限定词)           

  |()       

  ()括号用于提取子字符串   

  [ a-z ]指定字符为中括号中任意一个       1[58347][0-9]{9}: 电话号码验证 1开头 第二位只能是58347中的一位 最后剩下九位只能再0-9之间选择                                                         

  &限定结尾) 

  ^a : 以字母a开头

  ^a.: 以字母a开头后面任意一个字符

  ^a.*: 以字母a开头并且后面任意字符

  ^a.*3$: 以字母a开头并且后面任意字符3$以3结尾 *限定词 0-多次

  ^a.+3$: 加号用于限定前面的字符至少出现一次 aX3 aXX3 ...  +限定词 1-多次

  ^a.{2}3$: 加号用于限定前面的字符出现两次 aXX3   {1},{1,3},{1,}限定词 指定n-m次

import re
str = wlc123
zhengze = ^w.*
if re.match(zhengze, str):
    print(True) 
import re
#用于解释贪婪匹配此案例输出结果为cc 而不是clllllllllc
#因此需要添加问号?使得匹配从左往右进行就可以得到clllllllllc了
#只在左边添加?结果会变成cllllllllcc后边还是会贪婪匹配 因此在后边的c之前也要加上?
str = wwlcllllllllllcc123
zhengze = .*(c.*c).*
#zhengze = ‘.*?(c.*?c).*‘
result = re.match(zhengze, str)
print (result.group(1))

  

6.深度广度优先遍历算法

 

7.url去重的常见策略

 待续 

爬虫基础知识

标签:字母   virt   blog   一个   .com   rtu   动态   号码   机器学习   

原文地址:http://www.cnblogs.com/wlc297984368/p/7780479.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!