文本算法-Ctpn(用于进行文本框的提取)

时间：2020-05-05 23:34:31 阅读：104 评论：0 收藏：0 [点我收藏+]

CTPN是CNN+RNN的结合，CNN主要是用于文本框的提取，RNN将中间层的输入结果进行改变，保证文本框的上下文具有联系

网络结构

技术图片

网络结构说明: 首先使用VGG，将原来图片的大小，缩小为1/16，因此每一个点输出结果是2*10概率和2*10的位置信息

技术图片

标签制作: 构造16个像素，从上到下构造anchor，根据真实标签来构造reg和cls的标签

技术图片

损失值构造:

技术图片

损失值说明: 第一个损失值使用的是预测框的概率损失值，第二个损失值用于计算与中心点的差距以及选框的高度reg，第三个损失值用于表示选框左右的位置

技术图片

Ctpn的predict步骤

第一步: 通过上述的网络，获得输出的cls和reg结果，根据结果进行阈值的筛选，保留可能存在物体的选框，根据cls得分排序，使用nms去除重复框,作为最终每个字的选框

技术图片

第二步: 这里将每个字的选框进行连接，最终获得每一行的大选框

技术图片

代码说明:将在明天进行展示

原文地址：https://www.cnblogs.com/my-love-is-python/p/12833437.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行