【Python图像特征的音乐序列生成】深度卷积网络，以及网络核心

时间：2017-07-10 20:46:06 阅读：242 评论：0 收藏：0 [点我收藏+]

这个项目主要涉及到两个网络，其中卷积神经网络用来提取图片表达的情绪，提取出一个二维向量。

网络结构如图：

技术分享

词向量采用预训练的glove模型，d=50，其他信息包括了图片的“空旷程度”、亮度、对比度等信息，用来更好地描述图片特征。

对于图中的卷积神经网络，需要讲解的地方是：卷积核是一个一维卷积核，每一层卷积层之后都连接了池化层，做的是最大值池化，每一层之间有固定的dropout层，最后输出的向量与我们预先设定的label进行计算，损失函数定义为

\[J(\theta)=-\sum_iy‘_i\log(y_i)+\frac{\lambda}{2}\|\theta\|^2_F\]

式中使用了交叉熵和L2范数避免可能出现的过拟合，在实际训练中我们将会增减神经网络的层数，调整相应的超参数。

最后得到的向量我们在LSTM里进行输入。

原文地址：http://www.cnblogs.com/ldzhangyx/p/7147555.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行