Python爬虫——网页上的字符按照我的想法输出

时间：2020-03-27 10:38:53 阅读：80 评论：0 收藏：0 [点我收藏+]

最近学习Python爬虫，"明明是按照步骤做，怎么我会出现好多的问题？"

引言：在网页之中，将爬取的内容输出展示出来，但是往往会出现很多的格式的问题，

如 s = “\n\n\n\n\n\n\n\n 正经的内容\n\n\n\ 又是内容 \n 不要的 \n”

如何将上面不要的字符删除或者提取出需要的呢？

1、提取出需要正经的内容\n\n\n\ 又是内容 \n 不要的：

s.text[8:-2]; 就是取出第8个字符，到倒数第二个字符。

2、删除左边的 \n

s.rstrip(‘\n‘);

3、删除右边的字符

s.lstrip(‘\n‘)

4、删除两边的字符

s.strip(‘\n‘).strip(‘ ‘); 删除两边的换行以及空格

5、删除特定的字符

s.replace(‘不要的‘, ‘a‘)；将“不要的”部分内容，用a代替

import re

# 去除\r\n不要的字符

re.sub(‘[\r\n不要的字符]‘, ‘‘, s)

原文地址：https://www.cnblogs.com/sherlocksweet/p/12579486.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行