技术详细介绍
智能移动终端的广泛应用催生了人们利用移动终端感知周围场景视觉信息的迫切需求,赋予移动终端文本感知能力是其中重要组成部分。为了提高移动终端文本感知能力和技术实用性,本项目在国家自然科学基金委的资助下在文档图像压缩、文本检测与抽取以及文字识别等方面开展了研究工作,并取得了一系列研究成果。其中,所提出的面向应用的ROI图像压缩方法,创新性地将应用相关的学习机制纳入图像压缩方法框架中,能显著改善特定应用下跨图像压缩质量的稳定性,降低移动应用数据传输量,对于提高移动云计算模式下的图像应用的实际性能具有现实意义。所提出的基于子结构学习的文本识别方法,通过引入子结构识别信息,增强了字符分割片段识别可靠性,显著提高了中文文本识别的性能,表现出优异的性能和对不同应用场景的技术可推广性,是一条改善中文文本识别性能的新途径。所提出的基于多阶段特征的卷积神经网络字符识别方法,结合Lp-pooling参数优化,有效改善了场景文字的识别精度。这些研究成果,对于移动终端文字识别技术水平的整体改善具有积极意义。项目执行期间项目组成员共完成8篇论文的发表,其中SCI期刊论文4篇,EI会议论文3篇,中文核心期刊论文1篇,并申请2项发明专利,其中1项获得授权。
智能移动终端的广泛应用催生了人们利用移动终端感知周围场景视觉信息的迫切需求,赋予移动终端文本感知能力是其中重要组成部分。为了提高移动终端文本感知能力和技术实用性,本项目在国家自然科学基金委的资助下在文档图像压缩、文本检测与抽取以及文字识别等方面开展了研究工作,并取得了一系列研究成果。其中,所提出的面向应用的ROI图像压缩方法,创新性地将应用相关的学习机制纳入图像压缩方法框架中,能显著改善特定应用下跨图像压缩质量的稳定性,降低移动应用数据传输量,对于提高移动云计算模式下的图像应用的实际性能具有现实意义。所提出的基于子结构学习的文本识别方法,通过引入子结构识别信息,增强了字符分割片段识别可靠性,显著提高了中文文本识别的性能,表现出优异的性能和对不同应用场景的技术可推广性,是一条改善中文文本识别性能的新途径。所提出的基于多阶段特征的卷积神经网络字符识别方法,结合Lp-pooling参数优化,有效改善了场景文字的识别精度。这些研究成果,对于移动终端文字识别技术水平的整体改善具有积极意义。项目执行期间项目组成员共完成8篇论文的发表,其中SCI期刊论文4篇,EI会议论文3篇,中文核心期刊论文1篇,并申请2项发明专利,其中1项获得授权。