如何读取小说中的七字绝句？

时间：2020-06-14 17:04:59 阅读：76 评论：0 收藏：0 [点我收藏+]

有些小说作者，写小说的时候喜欢引用一些古诗词。当时看着挺爽的，回头想仔细看看那些诗。但是没有那么多闲心去重新看一遍。
因此用python写个脚本统计一下文中的七字绝句。

#!/usr/bin/python
import re

f = open("msj.txt") 
line = f.readline()  
while line:
    matchObj = re.search( u"[\u201c\u2018]([\u4e00-\u9fa5]{7}[\uff01\uff1f][\u4e00-\u9fa5]{7}[\u3002\uff01\uff1f])", line.decode("utf8"), re.M|re.I)
    if matchObj:
        print matchObj.group(1).encode("utf8")
    line = f.readline()
f.close()

把小说保存成utf-8的格式，然后执行脚本

python msj.py >> result.txt

然后自己编辑一下result，就可以得到结果了。
文中的\u是为了匹配和转译中文。print的encode("utf8")，保证输出的文件是用utf8编码的。

参考网址：
https://blog.csdn.net/tianranhe/article/details/8811481
https://blog.csdn.net/IAlexanderI/article/details/79525946
https://blog.csdn.net/weixin_44521703/article/details/100187377

如何读取小说中的七字绝句？

标签：https 文件小说格式 ref adl 编辑古诗词 obj

原文地址：https://www.cnblogs.com/bugutian/p/13125264.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行