码迷,mamicode.com
首页 > 其他好文 > 详细

正则表达式

时间:2020-02-04 20:39:38      阅读:79      评论:0      收藏:0      [点我收藏+]

标签:pil   use   str   processor   alt   pat   nis   dmi   基础   

正则表达式

正则表达式的基础知识

  • 原子
    • 普通字符 “yue”即为三个原子y u e
    • 非打印字符
    • 原子表
      • [xyz]中xyz可以匹配
      • [^xyz]除了xzy都可以匹配
    • 通用字符
      • \w \W \d \D \s \S
      • 技术图片
  • 元字符
    • 常见的元字符技术图片
    • 任意匹配元字符
    • 边界限制元字符
    • 限定符
    • 模式选择符
    • 模式单元
  • 模式修正
    • 技术图片
  • 贪婪模式与懒惰模式

正则表达式常见函数

  • re.match()函数
    • 从源字符开头开始检索
  • re.search()
    • 从全文检索
  • 全局匹配函数
    • re.compile()对正则表达式预编译
    • 编译后,使用findall()全部找出
  • re.sub()函数
    • re.sub(pattern,rep,string,max)
    • pattern 正则表达式
    • rep要替换成的字符
    • string 源字符
    • max 代表最多可替换的次数

Cookie

  • Cookie常用于保存会话信息

Cookiejar

Cookiejar是Python3中用于处理Cookie的库。

进行Cookie处理的常用思路:

  1. 导入Cookie处理模块http.cookiejar
  2. 使用http.cookiejar.CookieJar()创建CookieJar对象
  3. 使用HTTPCookieProcessor创建cookie处理器,并以其为参数构建opener对象
  4. 创建全局默认的opener对象

多线程爬虫

?

Trackback解读

? Trackback

正则表达式

标签:pil   use   str   processor   alt   pat   nis   dmi   基础   

原文地址:https://www.cnblogs.com/sitr/p/12260736.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!