文本检测任务是找出图像或视频中的文字位置。不同于目标检测任务,目标检测不仅要解决定位问题,还要
解决目标分类问题。
文本在图像中的表现形式可以视为一种‘目标‘,通用的目标检测的方法也适用于文本检测,从任务本身上来
看:
• 目标检测:给定图像或者视频,找出目标的位置(box),并给出目标的类别;
• 文本检测:给定输入图像或者视频,找出文本的区域,可以是单字符位置或者整个文本行位置;
图1 目标检测示意图
图2 文本检测示意图
目标检测和文本检测同属于“定位”问题。但是文本检测无需对目标分类,并且文本形状复杂多样。
当前所说的文本检测一般是自然场景文本检测,其难点在于:
1. 自然场景中文本具有多样性:文本检测受到文字颜色、大小、字体、形状、方向、语言、以及文本长度
的影响;
2. 复杂的背景和干扰;文本检测受到图像失真,模糊,低分辨率,阴影,亮度等因素的影响;
3. 文本密集甚至重叠会影响文字的检测;
4. 文字存在局部一致性,文本行的一小部分,也可视