[00768426]Web文档清洗系统中HTML解析器的开发
交易价格:
面议
所属行业:
其他电子信息
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
对于组建一个面向Web的信息系统来说,去除掉脚本,广告链接以及导航链接等无用数据,将提高信息存储和检索的效率;同时,基于语义对Web文档进行合并和分割也会有助于信息的管理,这些都是Web文档清洗系统的任务。在Web文档清洗中,无论是脱机的规则学习还是联机的文档清洗,都需要建立在对Web文档的结构和内容进行分析的基础之上,从HTML解析的一般概念入手,结合Web文档清洗系统的需求,描述了一个自主开发的HTML解析器的结构,并其组成部分:词典、词法分析器和语法分析器的设计作了详细的讨论。
对于组建一个面向Web的信息系统来说,去除掉脚本,广告链接以及导航链接等无用数据,将提高信息存储和检索的效率;同时,基于语义对Web文档进行合并和分割也会有助于信息的管理,这些都是Web文档清洗系统的任务。在Web文档清洗中,无论是脱机的规则学习还是联机的文档清洗,都需要建立在对Web文档的结构和内容进行分析的基础之上,从HTML解析的一般概念入手,结合Web文档清洗系统的需求,描述了一个自主开发的HTML解析器的结构,并其组成部分:词典、词法分析器和语法分析器的设计作了详细的讨论。