技术详细介绍
项目隶属于人工智能领域中自然语言处理和机器翻译子领域。人工智能已成为人类社会发展的重要支撑技术,自然语言处理和机器翻译是人工智能核心领域之一,其关键技术的突破具有重要的科学意义和产业价值。在当今全球化和互联网时代,机器翻译作为解决跨语言障碍最重要的技术手段,具有万亿级市场,不仅服务于科技、文化、商贸等行业,而且能够为“一带一路”、信息安全等国家重大战略提供关键技术支撑。在此背景下,项目团队在国家和产业界支持下,针对机器翻译所面临的“知识建模、跨领域、低资源”等技术难题,开展创新性研究。主要研究内容和创新点如下: (1)提出语言学结构化知识驱动的神经网络机器翻译模型。如何融合符号主义和连接主义方法构建统一的数据和知识并行驱动的翻译模型是机器翻译技术和产业化面临的技术难题。为此,提出了数据和知识联合驱动的、多粒度、多层次稠密网络翻译模型,在翻译模型中融入句法、语义、篇章等多层次结构化语言学知识,有效解决了机器翻译中知识建模和深层神经网络建模及其融合的难题。超出基线模型2.4~5.2个BLEU值,节约2/3训练时间,显著提升了模型语义表达能力和翻译性能。 (2)提出领域自适应和用户可定制的多语言统一机器翻译建模方法。如何利用用户数据和先验知识进行翻译建模并实现定制化输出,是机器翻译产业化面临的技术难题。为此,提出了基于数据变换和语义共享的“黑盒”方法和基于注意力机制的“白盒”方法,实现了自适应多语言统一建模方法。超出基线模型4个BLEU值,在实际场景中,可快速实现模型领域化、定制化,显著提升了翻译准确率和用户满意度。 (3)提出面向低资源语言的机器翻译建模方法。翻译模型严重依赖训练数据的规模和质量,然而世界上绝大多数语言间都缺少甚至没有平行语料。针对此问题,提出基于枢轴语言和多语联合优化建模技术,以资源丰富语言为枢轴,利用资源丰富平行语料构建统一的多语言共性语义空间,有效解决了低资源翻译建模难题,实现了“全栈式”机器翻译,支持全世界最多的语言对。 发表论文59篇,专利10项,软著12项,Springer Nature出版专著和论文集5本(下载30万次,其中2本被评为计算机领域中国作者高影响力图书)。数据和平台被全球2500余家单位下载使用,多项国际评测排名第一,被MIT选为2018年度全球“十大突破性技术”的代表性团队之一。2人次获得国家杰青资助,1人次获得国家优青资助。项目通过阿里巴巴电商平台为近千万商家及分布在100多个国家的亿级全球消费者提供跨境电商服务。成果还在包括联通、SYSTRAN等国内外和江苏省内共100余家各类企业以及国家专利局、网信办、安全及军方等政府部门得到应用,涵盖20多个行业。年调用量3500余亿次,近两年产生直接经济效益32.2亿元,利润7.8亿元。总之,项目专注于科技创新和产业落地,直接服务于国计民生和国家发展战略,取得了显著的经济与社会效益。
项目隶属于人工智能领域中自然语言处理和机器翻译子领域。人工智能已成为人类社会发展的重要支撑技术,自然语言处理和机器翻译是人工智能核心领域之一,其关键技术的突破具有重要的科学意义和产业价值。在当今全球化和互联网时代,机器翻译作为解决跨语言障碍最重要的技术手段,具有万亿级市场,不仅服务于科技、文化、商贸等行业,而且能够为“一带一路”、信息安全等国家重大战略提供关键技术支撑。在此背景下,项目团队在国家和产业界支持下,针对机器翻译所面临的“知识建模、跨领域、低资源”等技术难题,开展创新性研究。主要研究内容和创新点如下: (1)提出语言学结构化知识驱动的神经网络机器翻译模型。如何融合符号主义和连接主义方法构建统一的数据和知识并行驱动的翻译模型是机器翻译技术和产业化面临的技术难题。为此,提出了数据和知识联合驱动的、多粒度、多层次稠密网络翻译模型,在翻译模型中融入句法、语义、篇章等多层次结构化语言学知识,有效解决了机器翻译中知识建模和深层神经网络建模及其融合的难题。超出基线模型2.4~5.2个BLEU值,节约2/3训练时间,显著提升了模型语义表达能力和翻译性能。 (2)提出领域自适应和用户可定制的多语言统一机器翻译建模方法。如何利用用户数据和先验知识进行翻译建模并实现定制化输出,是机器翻译产业化面临的技术难题。为此,提出了基于数据变换和语义共享的“黑盒”方法和基于注意力机制的“白盒”方法,实现了自适应多语言统一建模方法。超出基线模型4个BLEU值,在实际场景中,可快速实现模型领域化、定制化,显著提升了翻译准确率和用户满意度。 (3)提出面向低资源语言的机器翻译建模方法。翻译模型严重依赖训练数据的规模和质量,然而世界上绝大多数语言间都缺少甚至没有平行语料。针对此问题,提出基于枢轴语言和多语联合优化建模技术,以资源丰富语言为枢轴,利用资源丰富平行语料构建统一的多语言共性语义空间,有效解决了低资源翻译建模难题,实现了“全栈式”机器翻译,支持全世界最多的语言对。 发表论文59篇,专利10项,软著12项,Springer Nature出版专著和论文集5本(下载30万次,其中2本被评为计算机领域中国作者高影响力图书)。数据和平台被全球2500余家单位下载使用,多项国际评测排名第一,被MIT选为2018年度全球“十大突破性技术”的代表性团队之一。2人次获得国家杰青资助,1人次获得国家优青资助。项目通过阿里巴巴电商平台为近千万商家及分布在100多个国家的亿级全球消费者提供跨境电商服务。成果还在包括联通、SYSTRAN等国内外和江苏省内共100余家各类企业以及国家专利局、网信办、安全及军方等政府部门得到应用,涵盖20多个行业。年调用量3500余亿次,近两年产生直接经济效益32.2亿元,利润7.8亿元。总之,项目专注于科技创新和产业落地,直接服务于国计民生和国家发展战略,取得了显著的经济与社会效益。