唐诗生成器

时间：2017-05-14 01:03:58 阅读：3019 评论：0 收藏：0 [点我收藏+]

标签：add height 设计 action mtd 6.2 max get 库存

使用唐诗语料库，经过去噪预处理、分词、生成搭配、生成主题等过程，生成唐诗。

github上repository地址：https://github.com/lijiancheng0614/poem_generator

环境

Python 2.7
Flask
jieba

运行方法

如果是第一次运行，则需要安装相关的库及生成初始数据：

pip install flask
pip install jieba
python preprocess.py
python get_collocations.py
python get_topic.py
python get_start_words.py

以后只需要输入以下代码即可运行网站：

python index.py

实现

预处理

观察到给定的唐诗语料库存在以下噪声：

诗句中出现类似<img height=32 width=32 border=0 src=/bzk/QLXQ.bmp >的HTML标签。
出现空格、“.”等字符。
诗句中出现注释，用“（”、“）”标出来。
诗句不完整，出现方框字符。

对于前三种情况的噪声，直接去掉即可。对于最后一种噪声，直接把这行诗句忽略考虑。（此外，对于第三种噪声，“（”、“）”不在同一行时未处理。）

由于暂时只需要用到唐诗标题和诗句，故只提取这两部分内容。

分词

对于中文分词，这里采用在工业界上较广泛应用的“结巴”中文分词组件1。该分词组件主要采用以下算法：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）；采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

由于唐诗中的每一个字基本都是有用的，故停用词（Stop Words）主要为标点符号，这里直接使用默认的停用词。

生成搭配

搭配包括横向搭配和纵向搭配。横向搭配指每句诗中每个词与下一个词的搭配关系，纵向搭配指每两句诗中，第一句诗中的词与下一句诗中对应相等长度的词的搭配关系。

分词之后把唐诗（不含标题）按句子切割，对句子总数为偶数的唐诗，遍历每两句诗，第一句诗中的词与第二句诗中对应相等长度的词形成一个纵向搭配。对每一句诗，每两个词形成一个横向搭配。

易知，使用似然比、频率、t检验等搭配发现方法都能得到较好结果，这里为了方便，直接使用频率来发现搭配。

相关代码实现在get_collocations.py。

输入：

.\data\poem.txt

输出：

横向搭配.\data\collocations_h
纵向搭配.\data\collocations_v

生成主题

对每首诗，提取TF-IDF2特征并构建矩阵3，然后使用非负矩阵分解（Non-negative matrix factorization, NMF）4 5提取唐诗主题类别。考虑到唐诗分类数量有限，这里只生成10个类，每个类用频率最高的20个词来表示。

生成起始词

对每首诗，分词后取第一句诗的第一个词作为起始词。统计所有起始词，并输出出现超过两次的词。

相关代码实现在get_start_words.py。

输入：

.\data\poem.txt

输出：

起始词.\data\start_words.txt

生成唐诗

由于前期并没有平仄处理，也没有对唐诗语料库作过多的要求，因此，生成的唐诗可能对仗不太工整。

输入的参数除了上述生成的部分文件（如搭配、主题等）外，还需要指定诗句数量、诗句长度、主题和起始词（若不指定则随机产生）。

对于给定诗句长度 $l$ , 起始词 $start\_word$ 和主题 $topic\_id$ ，设 $a[i]$ 为第 $i$ 个词的id，我们可以把产生第一句诗抽象成一个子问题：

max s.t. \prod i = 2 n c o l l o c a t i o n s_h_s c o r e [a [i ? 1]] [a [i]] + λ \sum i = 1 n t o p i c_w o r d [t o p i c_i d] [a [i]] \sum i = 1 n l e n (w o r d [a [i]]) = l a [1] = s t a r t_w o r d

$\begin{array}{cl} \max & \prod_{i = 2}^n collocations\_h\_score[a[i - 1]][a[i]] \ & + \lambda \sum_{i = 1}^n topic\_word[topic\_id][a[i]] \\text{s.t.} & \sum_{i = 1}^n len(word[a[i]]) = l \ & a[1] = start\_word \end{array}$

其中 $collocations\_h\_score[a[i - 1]][a[i]]$ 表示第 $i - 1$ 个词与第 $i$ 个词的横向搭配分数， $\lambda$ 为平衡参数。若以上问题的最优解为 $a[i]$ ，那么所生成的较为合理的第一句诗即 $word[1], word[2], \cdots, word[n]$ 。

显然，对于该问题，可以把目标函数中的乘积部分用 $\log$ 来使其变成求和。于是该问题可以用动态规划来求解：

设 $f[i][j]$ 表示长度为 $i$ ，最后一个单词id为 $j$ 的最大目标函数值，则

f[i][j]=max{f[i?len(word[j])][k]+log_collocations_h_score[k][j]}+λtopic_word[j]

$f[i][j] = \max \{ f[i - len(word[j])][k] + log\_collocations\_h\_score[k][j] \} + \lambda topic\_word[j]$

其中 $(k, j)$ 为一个横向搭配。

初始时 $f[len(start\_word\_id)][start\_word\_id] = \lambda topic\_word[start\_word\_id]$ 。

最后最优值为 $f[l][j], \forall j$ ，路径可通过与 $f$ 同大小的矩阵 $pre$ 来记录前一个单词的id。

而产生下一句诗，则需要考虑纵向搭配。同理我们也可以把产生下一句诗抽象成一个子问题：

max s.t. \prod i = 2 n c o l l o c a t i o n s_h_s c o r e [a [i ? 1]] [a [i]] + λ 1 \prod i = 1 n c o l l o c a t i o n s_v_s c o r e [p r e_a [i]] [a [i]] + λ 2 \sum i = 1 n t o p i c_w o r d [t o p i c_i d] [a [i]] l e n (w o r d [a [i]]) = l e n (w o r d [p r e_a [i]]), i = 1, ?, n

$\begin{array}{cl} \max & \prod_{i = 2}^n collocations\_h\_score[a[i - 1]][a[i]] \ & + \lambda_1 \prod_{i = 1}^n collocations\_v\_score[pre\_a[i]][a[i]] \ & + \lambda_2 \sum_{i = 1}^n topic\_word[topic\_id][a[i]] \\text{s.t.} & len(word[a[i]]) = len(word[pre\_a[i]]), i = 1, \cdots, n \end{array}$

其中 $pre\_a[i]$ 表示上一句诗的第 $i$ 个词的id， $collocations\_v\_score[pre\_a[i]][a[i]]$ 表示上一句诗第 $i$ 个词与这一句诗第 $i$ 个词的纵向搭配分数， $\lambda_1, \lambda_2$ 均为平衡参数。同理也用动态规划来求解：

设 $f[i][j]$ 表示第 $i$ 个词，最后一个单词id为 $j$ 的最大目标函数值，则

f[i][j]=max{f[i?1][k]+log_collocations_h_score[k][j]+λ1log_collocations_v_score[pre_a[i]][j]}+λ2topic_word[j]

$\begin{array}{cl} f[i][j] & = \max \{ f[i - 1][k] + log\_collocations\_h\_score[k][j] \ & + \lambda_1 log\_collocations\_v\_score[pre\_a[i]][j] \} \ & + \lambda_2 topic\_word[j] \end{array}$

其中 $(k, j)$ 为一个横向搭配， $(pre\_a[i], j)$ 为一个纵向搭配。