X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到国家技术转移西南中心---区域技术转移公共服务平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[00911915]蒙古文文本校对系统

交易价格: 面议

所属行业: 软件

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

※:“蒙古文文本校对系统”是针对蒙古文网络、出版印刷和办公自动化的应用系统,是蒙古语语言学研究和计算机技术相结合的软件系统,系统涉及到蒙古语语法研究(主要有正字法研究、构词规则研究)以及计算机算法研究和软件设计等领域。主要研究内容及结果:构建了针对蒙古语文本校对的树形词典,包含4.5万条单词、3.1万条固定短语、18万条搭配词语;研制了一套基于不确定有限状态自动机的蒙古语词法分析器,包含词语识别算法、读音纠错算法、同形词读音识别算法等;研制了蒙古文编码转换(国际标准编码、蒙科立编码和方正编码之间的双向转换)、拉丁转写(蒙古文、拉丁转写内大方案、拉丁转写国际方案之间的双向转换)和排序算法;研制了具有文本校对、编码转换、拉丁转写、词条排序和词数统计功能的蒙古文文本校对软件系统。该软件核心功能:查错、纠错、编码转换准确率分别达到了97.5%、99.5%和99.9%以上。科学发现及技术创新:深入研究蒙古语构形和构词规则后,根据其拼音文字的特点研制出了基于不确定有限状态自动机的词语识别算法。该算法与原先的基于字符串比较的词典匹配算法相比,速度提高了近三个数量级。词均识别用时在0.1毫秒以内,完全满足实时校对任务。这是蒙古文文本校对系统的最主要的创新点。另外,蒙古语文本校对中,同形词的识别是提高准确率的关键所在。根据统计,蒙古语真实文本中同形词约占7%左右,课题组在算法中通过词语搭配解决了同形词读音识别问题。对同形词的识别率已达到87%左右。并且,在校对软件中提供了人机交互方式的同形词处理模块,用户通过该接口在使用过程中不断地扩充搭配词库来提高识别率。这是该软件系统的另一个创新点。作用意义:受到用户录入习惯、受教育程度和方言等方面的影响,蒙古语电子文档中普遍存在词形正确读音错误的单词。据统计,这种读音非词平均占文本总词数的60%以上,如果不做校对和纠正将无法实现信息检索。为了解决这一问题,课题组设计实现了蒙古文文本校对系统。通过该软件进行自动纠错后,读音非词控制在1%以内,这将有力推动蒙古语资源的数字化和网络化进程。另外,作为一种辅助工具,用在出版印刷行业可以大大减轻编辑和校对人员的劳动强度。应用推广及取得经济效益:课题组推出的蒙古文文本校对系统有两个版本,第一版本是2007年推出的SuperPad1.0。该版本在出版印刷、教学科研单位和新闻媒体中广泛被使用。虽然没有直接经济效益,但具有良好的间接经济效益。2014年9月推出了另一版本,Mongolian Editor 4.0。与SuperPad1.0相比,Mongolian Editor具有增强的同形词处理能力和友好的用户界面,并且有单机版和网络版两种版本,也可以作为插件集成到网站和其他软件中。Mongolian Editor 4.0已集成到方正飞翔出版系统和自治区政务网站群平台软件中。单机版在内蒙古人民出版社、内蒙古教育出版社、内蒙古社科院、内蒙古师范大学、内蒙古大学、内蒙古日报社、中国民族语文翻译中心等单位试用中,具有良好的推广前景和间接经济效益。
※:“蒙古文文本校对系统”是针对蒙古文网络、出版印刷和办公自动化的应用系统,是蒙古语语言学研究和计算机技术相结合的软件系统,系统涉及到蒙古语语法研究(主要有正字法研究、构词规则研究)以及计算机算法研究和软件设计等领域。主要研究内容及结果:构建了针对蒙古语文本校对的树形词典,包含4.5万条单词、3.1万条固定短语、18万条搭配词语;研制了一套基于不确定有限状态自动机的蒙古语词法分析器,包含词语识别算法、读音纠错算法、同形词读音识别算法等;研制了蒙古文编码转换(国际标准编码、蒙科立编码和方正编码之间的双向转换)、拉丁转写(蒙古文、拉丁转写内大方案、拉丁转写国际方案之间的双向转换)和排序算法;研制了具有文本校对、编码转换、拉丁转写、词条排序和词数统计功能的蒙古文文本校对软件系统。该软件核心功能:查错、纠错、编码转换准确率分别达到了97.5%、99.5%和99.9%以上。科学发现及技术创新:深入研究蒙古语构形和构词规则后,根据其拼音文字的特点研制出了基于不确定有限状态自动机的词语识别算法。该算法与原先的基于字符串比较的词典匹配算法相比,速度提高了近三个数量级。词均识别用时在0.1毫秒以内,完全满足实时校对任务。这是蒙古文文本校对系统的最主要的创新点。另外,蒙古语文本校对中,同形词的识别是提高准确率的关键所在。根据统计,蒙古语真实文本中同形词约占7%左右,课题组在算法中通过词语搭配解决了同形词读音识别问题。对同形词的识别率已达到87%左右。并且,在校对软件中提供了人机交互方式的同形词处理模块,用户通过该接口在使用过程中不断地扩充搭配词库来提高识别率。这是该软件系统的另一个创新点。作用意义:受到用户录入习惯、受教育程度和方言等方面的影响,蒙古语电子文档中普遍存在词形正确读音错误的单词。据统计,这种读音非词平均占文本总词数的60%以上,如果不做校对和纠正将无法实现信息检索。为了解决这一问题,课题组设计实现了蒙古文文本校对系统。通过该软件进行自动纠错后,读音非词控制在1%以内,这将有力推动蒙古语资源的数字化和网络化进程。另外,作为一种辅助工具,用在出版印刷行业可以大大减轻编辑和校对人员的劳动强度。应用推广及取得经济效益:课题组推出的蒙古文文本校对系统有两个版本,第一版本是2007年推出的SuperPad1.0。该版本在出版印刷、教学科研单位和新闻媒体中广泛被使用。虽然没有直接经济效益,但具有良好的间接经济效益。2014年9月推出了另一版本,Mongolian Editor 4.0。与SuperPad1.0相比,Mongolian Editor具有增强的同形词处理能力和友好的用户界面,并且有单机版和网络版两种版本,也可以作为插件集成到网站和其他软件中。Mongolian Editor 4.0已集成到方正飞翔出版系统和自治区政务网站群平台软件中。单机版在内蒙古人民出版社、内蒙古教育出版社、内蒙古社科院、内蒙古师范大学、内蒙古大学、内蒙古日报社、中国民族语文翻译中心等单位试用中,具有良好的推广前景和间接经济效益。

推荐服务:

Copyright © 2016    国家技术转移西南中心-区域技术转移公共服务平台     All Rights Reserved     蜀ICP备12030382号-1

主办单位:四川省科技厅、四川省科学技术信息研究所、四川省技术转移中心科易网