论文部分内容阅读
在自然场景中对中英文文本的检测与识别受限于图像本身包含的噪声数据,为提高检测识别效率,提出基于YOLOv3与CRNN的自然场景文本识别方法。进行文本角度预测,根据角度预测值旋转图像;采用YOLOv3文本区域检测算法计算若干组固定宽度的文本框;使用聚类算法将这些固定宽度的文本框连接成一个包含完整语义的文本框;采用CRNN算法识别文本检测框中的文本。实验结果表明,YOLOv3与CRNN模型识别100幅图像用时0.4258s,在同等实验环境中CTPN与DenseNet模型用时0.8250s,验证了YOLOv3与CRNN模型比CTPN与DenseNet模型具有更高的识别效率。