常见的几种数据标注类型
2018-09-13
电脑报 2018年27期
1. 分类标注:就是常见的打标签。一般是从既定的標签中选择数据对应的标签,一张图就可以有很多分类 / 标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。
适用:文本、图像、语音、视频
应用:脸龄识别,情绪识别,性别识别
2. 标框标注:就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。
适用:图像
应用:人脸识别,物品识别
3. 区域标注:区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。
应用:自动驾驶
4. 描点标注:一些对于特征要求细致的应用中常常需要描点标注。
应用:人脸识别、骨骼识别
5. 其他标注:标注的类型除了上面几种常见的,还有很多个性化的。根据不同的需求则需要不同的标注。
数据标注的过程
1. 标注标准的确定
确定好标准是保证数据质量的关键一步,要保证有个可以参照的标准。一般可以:
设置标注样例、模板。例如颜色的标准比色卡。
对于模棱两可的数据,设置统一处理方式,如可以弃用,或者统一标注。
参照的标准有时候还要考虑行业。以文本情感分析为例,“疤痕” 一词,在心理学行业中,可能是个负面词,而在医疗行业则是一个中性词。
2. 标注形式的确定
标注形式一般由算法人员制定,例如某些文本标注,问句识别,只需要对句子进行 0 或 1 的标注。是问句就标 1,不是问句就标 0。
3. 标注工具的选择
标注的形式确定后,就是对标注工具的选择了。一般也是由算法人员提供。大公司可能会内部开发一个专门用于数据标注的可视化工具。