码迷,mamicode.com
首页 > 其他好文 > 详细

[py]一些搜集到的问题

时间:2018-01-17 00:51:09      阅读:101      评论:0      收藏:0      [点我收藏+]

标签:int   gpo   简化   key   计数   remove   break   gui   filter   

过滤爬虫爬取下来的关键字

v1,来不及了,先上车

技术分享图片

content = ['哈士奇', '二哈', '哈士奇图片','哈士奇图片', '哈士奇美丽价格', '哈士奇是个大傻逼', '猫咪图片', '猫咪价格', '波斯猫', '折耳猫', '折耳猫动漫', '狗狗漫展', '狗狗色情']
print(content)
filter_word = ['色情', '漫展', '图片', '傻逼']

# 找出content违规词
weigui_word=[]
for i in content:
    for j in filter_word:
        if j in i:
            # print(i)
            weigui_word.append(i)
# 净化conent
for i in weigui_word:
    content.remove(i)
print(content)

v2: 改进循环

content = ['哈士奇', '二哈', '哈士奇图片', '哈士奇图片', '哈士奇美丽价格', '哈士奇是个大傻逼', '猫咪图片', '猫咪价格', '波斯猫', '折耳猫', '折耳猫动漫', '狗狗漫展', '狗狗色情']
print(content)
filter_word = ['色情', '漫展', '图片', '傻逼']

# 合规填充天空到这个列表
hegui_word = []

for i in content:
    # 如果 关键字不在 content某项,则计数
    count = 0
    for j in filter_word:
        if j not in i:
            count += 1
    if count == len(filter_word):
        hegui_word.append(i)

print(hegui_word)

v3: 简化代码,for else

for else:   顺利循环完说明not in 才执行else,  一旦in 即break,不执行else


keywords = ['哈士奇', '二哈', '哈士奇图片', '哈士奇图片', '哈士奇美丽价格', '哈士奇是个大傻逼', '猫咪图片', '猫咪价格', '波斯猫', '折耳猫', '折耳猫动漫', '狗狗漫展', '狗狗色情']
bad_keys = ['色情', '漫展', '图片', '傻逼']

res=[]
for key in keywords:
    for bkey in bad_keys:
        if bkey in key:
            break
    else:
        res.append(key)
print(res)

[py]一些搜集到的问题

标签:int   gpo   简化   key   计数   remove   break   gui   filter   

原文地址:https://www.cnblogs.com/iiiiiher/p/8297367.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!