技术详细介绍
1.课题来源与背景 随着Internet的迅猛发展,网络上的信息呈现爆发式的增长,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。通用搜索引擎大多提供基于关键字的检索,已经不能满足人们对于个性化信息的需求,此时,面向特定领域的个性化网络爬虫应运而生。个性化网络爬虫可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。个性化网络爬虫是垂直搜索引擎中的重要组成部分。个性化网络爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。基于个性化服务的网络爬虫可以为学习者定制个性化学习资源,进而可以方便的构建个性化虚拟学习社区,满足个人多样化的学习和发展需要。 2.课题目的与意义 个性化网络爬虫可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。个性化网络爬虫是垂直搜索引擎中的重要组成部分。个性化网络爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。项目可以应用于各类用户利用因特网获取能够实现个性化服务的网络服务,也可以为学习者定制个性化学习资源,进而可以方便的构建个性化虚拟学习社区,满足个人多样化的学习和发展需要,对建设全民学习、终身学习的学习型社会具有重要作用和积极意义。 3.主要论点与论据 (1)构建一种基于关键词动态扩充的主题表达方法 主题爬虫中的“主题”描述对于爬虫的性能影响非常大,主题引导着爬虫的爬行方向。本研究针对主题关键词集合对主题表达的不全面等缺点,提出了一种主基于关键词动态扩充的主题表达方法。在主题爬虫爬行的过程中,关键词动态扩充技术可以记忆、学习用户输入习惯,可以动态来更新主题关键词集合,能够更全面、更准确的描述“主题”。 (2)构建了基于行分布函数的正文提取系统,很好的进行了网页消噪 由于网页数据是半结构化、分散的、异构的、没有统一管理的而且布局风格和内容变化迅速。 所以要想提高搜索的质量与效果,必须首先对网页数据进行网页去噪。 构建基于行块分布函数的正文提取系统,该系统具有如下优点: 不用建立Dom树,与HTML标签无关;只需求出行块的分布函数即可抽取出正文;只需对消除标签的文本扫描一次,处理效率高;去链接群、广告信息容易;扩展性好,通用抽取采用统计方法,个别网站辅以规则,做到统计与规则相结合。 (3)动态网页的抓取 本项目采用JavaScript引擎技术分析提取态页面中的URL,实现动态网页抓取。本研究可针对指定地址,分析检索任何动态网页、论坛、博客、留言等,并且能够获取其后台数据库的数据。 (4)搜索结果的定制与应用 支持全文检索和精确检索,并根据用户需求提供个性化的结果排序方式,并且提供信息整合和数据挖掘等功能。 4.创见与创新 在抓取动态网页,获取后台数据库数据方面具有一定的创新性;运用动态组词技术,在没有匹配的候选词时,自动构造新词方面具有应用创新性;运用关键词动态扩充技术记忆用户输入习惯,动态来更新主题关键词集合,描述主题表达方面与国内同类研究相比具有一定的先进性;在如下方面具有创新性:采用JavaScript引擎技术分析提取动态页面中的URL;提供用户需求的结果排序方式并实时推送个性化网络最新资源;并应用于构建个性化虚拟学习社区,满足学习型社会个性化学习的需要。 5.社会经济效益,存在的问题 社会经济效益:项目可以应用于各类用户利用因特网获取能够实现个性化服务的网络服务,也可以为学习者定制个性化学习资源,进而可以方便的构建个性化虚拟学习社区,满足个人多样化的学习和发展需要,对建设全民学习、终身学习的学习型社会具有重要作用和积极意义进而带来很大的经济和社会效益。 存在的问题:项目说明性文档不够丰富,培训力度不够,项目宣传推广力度不够,今后要在这些方面进一步完善、提高。 6.历年获奖情况 2011年度河南省教育厅自然科学研究计划项目——基于虚拟现实技术的远程教育平台设计与实现(2011C520009),2012年12月通过鉴定结项。
1.课题来源与背景 随着Internet的迅猛发展,网络上的信息呈现爆发式的增长,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。通用搜索引擎大多提供基于关键字的检索,已经不能满足人们对于个性化信息的需求,此时,面向特定领域的个性化网络爬虫应运而生。个性化网络爬虫可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。个性化网络爬虫是垂直搜索引擎中的重要组成部分。个性化网络爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。基于个性化服务的网络爬虫可以为学习者定制个性化学习资源,进而可以方便的构建个性化虚拟学习社区,满足个人多样化的学习和发展需要。 2.课题目的与意义 个性化网络爬虫可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。个性化网络爬虫是垂直搜索引擎中的重要组成部分。个性化网络爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。项目可以应用于各类用户利用因特网获取能够实现个性化服务的网络服务,也可以为学习者定制个性化学习资源,进而可以方便的构建个性化虚拟学习社区,满足个人多样化的学习和发展需要,对建设全民学习、终身学习的学习型社会具有重要作用和积极意义。 3.主要论点与论据 (1)构建一种基于关键词动态扩充的主题表达方法 主题爬虫中的“主题”描述对于爬虫的性能影响非常大,主题引导着爬虫的爬行方向。本研究针对主题关键词集合对主题表达的不全面等缺点,提出了一种主基于关键词动态扩充的主题表达方法。在主题爬虫爬行的过程中,关键词动态扩充技术可以记忆、学习用户输入习惯,可以动态来更新主题关键词集合,能够更全面、更准确的描述“主题”。 (2)构建了基于行分布函数的正文提取系统,很好的进行了网页消噪 由于网页数据是半结构化、分散的、异构的、没有统一管理的而且布局风格和内容变化迅速。 所以要想提高搜索的质量与效果,必须首先对网页数据进行网页去噪。 构建基于行块分布函数的正文提取系统,该系统具有如下优点: 不用建立Dom树,与HTML标签无关;只需求出行块的分布函数即可抽取出正文;只需对消除标签的文本扫描一次,处理效率高;去链接群、广告信息容易;扩展性好,通用抽取采用统计方法,个别网站辅以规则,做到统计与规则相结合。 (3)动态网页的抓取 本项目采用JavaScript引擎技术分析提取态页面中的URL,实现动态网页抓取。本研究可针对指定地址,分析检索任何动态网页、论坛、博客、留言等,并且能够获取其后台数据库的数据。 (4)搜索结果的定制与应用 支持全文检索和精确检索,并根据用户需求提供个性化的结果排序方式,并且提供信息整合和数据挖掘等功能。 4.创见与创新 在抓取动态网页,获取后台数据库数据方面具有一定的创新性;运用动态组词技术,在没有匹配的候选词时,自动构造新词方面具有应用创新性;运用关键词动态扩充技术记忆用户输入习惯,动态来更新主题关键词集合,描述主题表达方面与国内同类研究相比具有一定的先进性;在如下方面具有创新性:采用JavaScript引擎技术分析提取动态页面中的URL;提供用户需求的结果排序方式并实时推送个性化网络最新资源;并应用于构建个性化虚拟学习社区,满足学习型社会个性化学习的需要。 5.社会经济效益,存在的问题 社会经济效益:项目可以应用于各类用户利用因特网获取能够实现个性化服务的网络服务,也可以为学习者定制个性化学习资源,进而可以方便的构建个性化虚拟学习社区,满足个人多样化的学习和发展需要,对建设全民学习、终身学习的学习型社会具有重要作用和积极意义进而带来很大的经济和社会效益。 存在的问题:项目说明性文档不够丰富,培训力度不够,项目宣传推广力度不够,今后要在这些方面进一步完善、提高。 6.历年获奖情况 2011年度河南省教育厅自然科学研究计划项目——基于虚拟现实技术的远程教育平台设计与实现(2011C520009),2012年12月通过鉴定结项。