X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到国家技术转移西南中心---区域技术转移公共服务平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[01349471]支持舆情服务的藏汉机器翻译关键技术及应用

交易价格: 面议

所属行业: 软件

类型: 非专利

交易方式: 资料待完善

联系人:

所在地:

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

该成果实施过程中解决了藏汉(汉藏)机器翻的如下几个关键技术问题:1.多种藏文编码自动识别与转换技术目前,各种软件厂商采取自己的编码标准,使得各种藏文资料、网站之间不能兼容,信息不能共享,从而严重影响了藏文信息处理工作的发展。因此,课题组采用编码对照表技术开发了《多种藏文编自动码识别与转换系统》,所有藏文字符编码统一到国际藏文字符编码,为藏汉机器翻译的研发打下了基础。2.藏文自动分词技术由于藏文和汉文文本都是按句连成篇,词问无问隔标记,使得涮的界定缺乏自然标准,因而在藏文信息处理中首先要解决词的切分问题。课题组设计了“最大匹配”、“格分块”、“还原”的算法的基础上实现藏文自动分词系统,为藏汉机器翻译的研发打下了基础。4.藏语语料库词对齐技术所谓对齐,就是从互译的不同语言文本中找出其互译片断的过程。由于文本的组成单位可以是篇章(Section)、段落(Paragraph)、句子(Sentence)、短语(Phrase)、单词(Word)、字节(Byte),所以对齐的单位也分篇章、段落、句子、短语、单词、字节等不同级别。课题组采用GIZA++技术开发了《藏语语料库词对齐可视化工具》,实现了藏汉词语自动对齐。为藏汉机器翻译的研发打下了基础。5.信息处理处理用藏语短语分类与标记规范随着自然语言信息处理的不断发展和完善,从原来的词为单位的语法分析方法转换成短语为处理单位的语法分析的思想。因此,课题组提出了信息处理处理用藏语短语分类及标记规范语短语的分类,并向中华人民共和国国家标准委会提交研究成果,于2018年6月份批准并发布,2018年9月1日起实施,正式成为中华人民共和国国家标准,编号为GB/36472-2018。5.信息处理用藏文文献文本信息标记规范通过与传统藏语语法规则对比、分析和归纳,深层次的研究藏语词语的分布特点、语法功能和词性类别,修订了项目组已完成的《藏语语料库分词标注规范—词语分类体系及标记集》。6.汉藏句子自动对齐技术汉藏句子对齐是机器翻译的关键技术,课题组设计了句子长度和锚点信息相结合的算法,实现了汉藏句子自动对齐系统,为藏汉机器翻译系统的实现提供了技术保障。7.支持网络舆情服务的藏汉机器翻译技术利用以上技术和资源的基础上,课题组采用统计机器翻译技术,开发了支持网络舆情服务的藏汉机器翻译技术。2019年3月15日,青海省科技厅组织有关专家,对该项目进行了成果评价。专家委员会听取了汇报、审阅了相关资料、观看了系统演示,经质询和讨论后得到“同意通过成果评价,认为该成果达到国际领先水平。”的结论。
该成果实施过程中解决了藏汉(汉藏)机器翻的如下几个关键技术问题:1.多种藏文编码自动识别与转换技术目前,各种软件厂商采取自己的编码标准,使得各种藏文资料、网站之间不能兼容,信息不能共享,从而严重影响了藏文信息处理工作的发展。因此,课题组采用编码对照表技术开发了《多种藏文编自动码识别与转换系统》,所有藏文字符编码统一到国际藏文字符编码,为藏汉机器翻译的研发打下了基础。2.藏文自动分词技术由于藏文和汉文文本都是按句连成篇,词问无问隔标记,使得涮的界定缺乏自然标准,因而在藏文信息处理中首先要解决词的切分问题。课题组设计了“最大匹配”、“格分块”、“还原”的算法的基础上实现藏文自动分词系统,为藏汉机器翻译的研发打下了基础。4.藏语语料库词对齐技术所谓对齐,就是从互译的不同语言文本中找出其互译片断的过程。由于文本的组成单位可以是篇章(Section)、段落(Paragraph)、句子(Sentence)、短语(Phrase)、单词(Word)、字节(Byte),所以对齐的单位也分篇章、段落、句子、短语、单词、字节等不同级别。课题组采用GIZA++技术开发了《藏语语料库词对齐可视化工具》,实现了藏汉词语自动对齐。为藏汉机器翻译的研发打下了基础。5.信息处理处理用藏语短语分类与标记规范随着自然语言信息处理的不断发展和完善,从原来的词为单位的语法分析方法转换成短语为处理单位的语法分析的思想。因此,课题组提出了信息处理处理用藏语短语分类及标记规范语短语的分类,并向中华人民共和国国家标准委会提交研究成果,于2018年6月份批准并发布,2018年9月1日起实施,正式成为中华人民共和国国家标准,编号为GB/36472-2018。5.信息处理用藏文文献文本信息标记规范通过与传统藏语语法规则对比、分析和归纳,深层次的研究藏语词语的分布特点、语法功能和词性类别,修订了项目组已完成的《藏语语料库分词标注规范—词语分类体系及标记集》。6.汉藏句子自动对齐技术汉藏句子对齐是机器翻译的关键技术,课题组设计了句子长度和锚点信息相结合的算法,实现了汉藏句子自动对齐系统,为藏汉机器翻译系统的实现提供了技术保障。7.支持网络舆情服务的藏汉机器翻译技术利用以上技术和资源的基础上,课题组采用统计机器翻译技术,开发了支持网络舆情服务的藏汉机器翻译技术。2019年3月15日,青海省科技厅组织有关专家,对该项目进行了成果评价。专家委员会听取了汇报、审阅了相关资料、观看了系统演示,经质询和讨论后得到“同意通过成果评价,认为该成果达到国际领先水平。”的结论。

推荐服务:

Copyright © 2016    国家技术转移西南中心-区域技术转移公共服务平台     All Rights Reserved     蜀ICP备12030382号-1

主办单位:四川省科技厅、四川省科学技术信息研究所、四川省技术转移中心科易网