[00891642]蒙古语语音识别技术的研究
交易价格:
面议
所属行业:
软件
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
该成果来源于国家高技术研究发展计划(国家863计划)资助的课题,课题名称为“蒙古语语音识别技术的研究”,课题编号为2003AA5520,由内蒙古大学和中国科学院自动化所共同完成。课题组的研究以中国正蓝旗蒙古语为代表的察哈尔土语为依据,并适当参照书面语和其他地区发音特点。(1)建立了200人、8.93GB的蒙古语语音库,语音库的数据项包括录音人员姓名、性别、年龄、籍贯、语音数据和所读语音数据所对应的文本,可以以句子为单位对语音库进行操作。(2)建立了蒙古语语言文本资料库,包括约120万词的蒙古语全文语料,语料主要来源于蒙古语新闻报刊、中小学课文、酒店、旅游专用语句和一些日常用语,反映了蒙古语言的实际使用情况。对所收集的全文语料进行了统计分析,挑选出了8900句、200000词、容量为1.53MB的精选语料。(3)建立了10240个词的蒙古语常用词语发音字典,并对词典进行了蒙古文形码、拉丁转写、读音及词性的标注。(4)利用HTK工具包训练蒙古语声学模型,研制了一个基于隐马尔可夫模型HMM的蒙古语连续语音识别系统。针对蒙文书写的特殊性开发了语音识别系统的集成环境和语音识别结果的蒙文显示,实现了用蒙古语与计算机的言语交互。国际上还没有有关蒙古语语音识别技术的研究报告,该课题研究和开发一个大词汇连续语音蒙古语语音识别实验系统。该技术和实验系统经过进一步改进可以用于建立蒙古语语音输入法、可以在旅游点、机场、海关等建设蒙古语语音应答系统、建立蒙古语语音检索系统,有非常广阔的应用前景。
该成果来源于国家高技术研究发展计划(国家863计划)资助的课题,课题名称为“蒙古语语音识别技术的研究”,课题编号为2003AA5520,由内蒙古大学和中国科学院自动化所共同完成。课题组的研究以中国正蓝旗蒙古语为代表的察哈尔土语为依据,并适当参照书面语和其他地区发音特点。(1)建立了200人、8.93GB的蒙古语语音库,语音库的数据项包括录音人员姓名、性别、年龄、籍贯、语音数据和所读语音数据所对应的文本,可以以句子为单位对语音库进行操作。(2)建立了蒙古语语言文本资料库,包括约120万词的蒙古语全文语料,语料主要来源于蒙古语新闻报刊、中小学课文、酒店、旅游专用语句和一些日常用语,反映了蒙古语言的实际使用情况。对所收集的全文语料进行了统计分析,挑选出了8900句、200000词、容量为1.53MB的精选语料。(3)建立了10240个词的蒙古语常用词语发音字典,并对词典进行了蒙古文形码、拉丁转写、读音及词性的标注。(4)利用HTK工具包训练蒙古语声学模型,研制了一个基于隐马尔可夫模型HMM的蒙古语连续语音识别系统。针对蒙文书写的特殊性开发了语音识别系统的集成环境和语音识别结果的蒙文显示,实现了用蒙古语与计算机的言语交互。国际上还没有有关蒙古语语音识别技术的研究报告,该课题研究和开发一个大词汇连续语音蒙古语语音识别实验系统。该技术和实验系统经过进一步改进可以用于建立蒙古语语音输入法、可以在旅游点、机场、海关等建设蒙古语语音应答系统、建立蒙古语语音检索系统,有非常广阔的应用前景。