首页 > 其他好文 > 详细

AI-数据标注

时间：2019-11-05 01:19:29 阅读：699 评论：0 收藏：0 [点我收藏+]

标签：错误深度学习包含工具通用 block 不同比较文章

? ? 算力和数据是影响深度学习的两个关键因素。在算力满足的情况下，为了达到更好的效果，我们就需要提供海量优质素材数据给神经网络，以求训练出来高精度的网络模型。在平时的测试过程中，也发现基于深度学习的算法，素材的数量、素材的均衡度和标注的质量对训练出来的模型精度影响非常大。
? ? 常见的算法模型训练所需要的素材格式主要为：

二维图像文件
对应二维图像中人工标注出来的目标信息，包括目标坐标[(xmin,ymin)(xmax、ymax)]/大小、目标类型(class)

? ? 模型训练的过程就是将上述素材输入到神经网络，经过反复迭代优化，以求得到效果最好的通用模型。在实际应用模型的时候，会根据检测到目标对象输出坐标/大小、目标类型、置信度。用一种数据类型表示如下：

(xmin,ymin,xmax,ymax,class,score)
可设置一个门限值，通过与score进行比较，过滤掉部分结果

素材标注工具

? ? 通过对深度学习的基础知识学习，我们可以理解深度学习就是通过输入海量标注素材，不断调整模型参数去拟合，最终输出效果较好的模型，再通过输入非素材中的数据来预测结果，以求达较高的预测准确率和通用性。以下为目前常用的图像素材标注工具labelImg，标注完成后会生成相应的xml文件，用以标识坐标和类型，如下图所示：

标注框
xml文件

标注可能存在的问题

? ? 图像标注时，需要人工标出目标的位置和大小，并给出或选择目标类型。所以对人工标注是有一定要求的。常见的标注问题如下所示：

标注框过大或过小
标注框位置不正确
标注类型错误
存在漏标注情况
存在过标注情况
模糊的目标也进行标注
标注分割错误问题
标注框不完整，存在缺失

因此一个合格的标注应该具备以下因素：

标注框大小和位置合适
标注框能将目标对象围住
标注框的对象类型准确无误
一个标注框中仅包含一种目标对象类型

标注注意事项

标注框大小合适

? ? 标注框大小合适意味着所画的标注矩形框刚好将目标对象包围住，对象与标注框间的间隙合适，不能过大也不能过滤。过大会传递给网络不必要的信息，太小传递给网络的信息会存在缺失。

技术图片

标注框位置合适

? ? 位置一般是标注框大小合适，但存在与目标对象存在偏移的情况，如下所示：

技术图片

目标遮挡时处理

? ? 在标注时，不能仅标注完整可见的目标对象，对于人眼可见能分辨的对象也要进行标注，为提高模型通用性，很多遮挡目标也是需要能被模型检测识别出来的。针对这种情况需要根据具体业务规则进行处理，一般需要遵循的原则如下所示：

对象的遮挡面积小于20%~40%，即人眼可视面积为60%~80%需要进行标注
对于遮挡的对象，标注时只需要标注可见部分
对于遮挡的对象，人眼可以识别出对象类型

技术图片

标注不能遗漏目标对象

? ? 虽然各个算法对小目标的检测效果有所差异，但对于小目标的目标对象仍然需要进行标注。遵循的原则跟目标遮挡时的处理一样，只要人眼可以进行分辨，仍然需要进行标注。

技术图片

标注不能存在过标注情况

? ? 不同的业务，对于目标的识别也是不一样的，如对于Logo侵权这种问题，如国际一些公开通用的Logo则不需要进行标注，如下所示：

技术图片

针对Logo侵权的目标对象，一般打印体字无需要进行标注，但对于艺术字或单独设计的字体也是需要进行标注的。

对于非常模糊的目标对象的处理

? ? 这种情况一般是被遮挡面积过大、距离太远或图像和视频分辨率很低，导致人眼无法进行分辨，针对这种情况则无需进行标注。

技术图片

对象分开标注问题

? ? 这种情况需要根据业务场景进行区分处理。在平时测试，我所遵循的原则如下所示：

背景为纯色
图像中的对象可以被分割为一个独立可识别的对象个体
同时满足以上两个条件，则进行单独标注，否则则当作一个整体进行标注。

技术图片

标注框不完整

? ? 这种情况一般为标注软件Bug或人工标注出现越界，导致标注框看起来存在部分框缺失。如下所示：

技术图片

如何提高素材标注质量

从素材的三大关键要素（素材数量、素材的均衡度、标注质量）来看，我们可以采用以下方式来保证素材质量

素材数量

? ? 在收集数据时，需要尽可能多的从各个渠道多收集素材数据，如合法爬虫、公开数据集等

素材的均衡度

? ? 素材的均衡度通常是指素材的多样性分布。如视频里面，由于拍摄的角度不同，出来的素材角度也是不同，如前方、后方、左侧、右侧等。图像也是取决于拍摄素材的摆放角度，例如拍摄一件衣服，如正前方，正后方、左侧、右侧，斜面拍摄，距离远近等，只有在选择的素材尽可能的多样，训练出来的模型也才有更好的通用性。

标注质量

? ? 数据标注和检查是非常重要的一个环节，需要注意以下几个方面：

1、不要单纯追求速度而忽视质量

? ? 虽然对于数据的标注，有时间和进度要求，但要结合实际情况找到平衡点，不要单纯追求速度，导致标注质量下降，导致日后大量返工

2、定期专人对标注素材进行审核

? ? 指定专人定期对标注的素材进行审核，可以很大避免在标注过程出现的问题，如标注质量较差，每个人对标注的理解存在差异等。

参考文章：https://www.cnblogs.com/xiaozhi_5638/p/11288118.html

AI-数据标注

标签：错误深度学习包含工具通用 block 不同比较文章

原文地址：https://www.cnblogs.com/surpassme/p/11795732.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！