码迷,mamicode.com
首页 > 编程语言 > 详细

python正则表达式统计字符串的个数

时间:2020-02-12 18:41:58      阅读:113      评论:0      收藏:0      [点我收藏+]

标签:str   out   http   com   imp   blog   空格   htm   txt   

目的:通过python将pubmed下载的摘要txt文档,统计出其中的PMID数目,是否和文献总篇数一致,一致的话,就可以利用PMID的regex pattern进行分割字符串为单篇摘要文献。

import re

fname = '2020-01-14_endometriosis_2020-01-01_UTF8.txt'
with open(fname, "r", encoding = 'utf-8') as f:
    abstracts = f.read()

str = abstracts
iList= re.findall(r"PMID: \d+ ",str)
print(len(iList)) # output: 6049,符合文档中文献的总篇数

iList= re.findall(r"PMID: \d+",str) # regex pattern中少一个空格
print(len(iList)) # output: 6050,结果比文档中文献总篇数多了一篇

致谢:
python2-正则表达式统计字符串中数字的个数

python正则表达式统计字符串的个数

标签:str   out   http   com   imp   blog   空格   htm   txt   

原文地址:https://www.cnblogs.com/songbiao/p/12299991.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!