[00973783]信息提取技术与系统实现
交易价格:
面议
所属行业:
软件
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
项目简介:作为一门应用性的语言处理技术,信息提取(InformationExtraction, IE)近年来正受到越来越多的重视。信息提取研究的是指定信息的查找、理解和提取,并以适当的方式输出所指定的信息。它是多种自然语言处理技术的综合应用,具有广泛的应用领域。北大计算语言所在原有《现代汉语语法信息词典》和“大规模标注语料库”等成果的基础上,于1997年开展了这方面的研究。探索了通用的信息提取模型,开发了一个中文信息提取原型系统,并从2000年起获得了国家自然科学基金的支持,并在2001年获得IBM-北大创新研究院的支持。该研究阶段的主要任务是制定中文信息提取系统各主要方面的规格说明,搭建一个构架,确定语法、语义分析方法,并用两年的时间开发一个通用的信息提取系统,并具有初步的实用性和产品形态。技术指标:信息提取技术需要以信息理解的理论和方法作为基础,即需要自然语言理解的各种理论和方法。因此,该项目主要涉及两方面的内容,即中文信息提取所需要的语言处理技术的研究(语言分析方法,知识库的建造等);高性能、多任务中文信息提取系统的设计与实现(系统结构、设计、编码、维护等)。整个系统采用两阶段处理策略:依靠通用的综合属性词典(句法和语义属性)、句法语义规则库,对文本进行切分、标注、命名实体识别和浅层分析,过滤掉不相干的文本;然后再对选中的句子进行比较细致的分析,将结果(句法关系、格关系等)记录到一个全局符号表中(即获取与指定信息相关的篇章/段落表示),并解决句间成分共指等关系。在全局符号表(篇章/段落表示)中进行信息匹配、提取、合并等,生成指定格式的输出。应用说明:该研究的最终目标是:实现一种基于语法、语义知识的通用信息提取系统,它具有高度的可移植性,只要更换相应的专业知识库,即可方便地在不同领域之间进行移植,适用于多种类别的信息提取任务。
项目简介:作为一门应用性的语言处理技术,信息提取(InformationExtraction, IE)近年来正受到越来越多的重视。信息提取研究的是指定信息的查找、理解和提取,并以适当的方式输出所指定的信息。它是多种自然语言处理技术的综合应用,具有广泛的应用领域。北大计算语言所在原有《现代汉语语法信息词典》和“大规模标注语料库”等成果的基础上,于1997年开展了这方面的研究。探索了通用的信息提取模型,开发了一个中文信息提取原型系统,并从2000年起获得了国家自然科学基金的支持,并在2001年获得IBM-北大创新研究院的支持。该研究阶段的主要任务是制定中文信息提取系统各主要方面的规格说明,搭建一个构架,确定语法、语义分析方法,并用两年的时间开发一个通用的信息提取系统,并具有初步的实用性和产品形态。技术指标:信息提取技术需要以信息理解的理论和方法作为基础,即需要自然语言理解的各种理论和方法。因此,该项目主要涉及两方面的内容,即中文信息提取所需要的语言处理技术的研究(语言分析方法,知识库的建造等);高性能、多任务中文信息提取系统的设计与实现(系统结构、设计、编码、维护等)。整个系统采用两阶段处理策略:依靠通用的综合属性词典(句法和语义属性)、句法语义规则库,对文本进行切分、标注、命名实体识别和浅层分析,过滤掉不相干的文本;然后再对选中的句子进行比较细致的分析,将结果(句法关系、格关系等)记录到一个全局符号表中(即获取与指定信息相关的篇章/段落表示),并解决句间成分共指等关系。在全局符号表(篇章/段落表示)中进行信息匹配、提取、合并等,生成指定格式的输出。应用说明:该研究的最终目标是:实现一种基于语法、语义知识的通用信息提取系统,它具有高度的可移植性,只要更换相应的专业知识库,即可方便地在不同领域之间进行移植,适用于多种类别的信息提取任务。