技术特点 推荐系统基于机器学习和数据挖掘等相关技术,根据用户上网的注册信息、历史记录,能够识别用户的喜好及浏览行为特征,预测用户未来的浏览行为或产品服务的购买行为,主动向用户推送可能感兴趣内容和服务。推荐系统不仅能够解决信息超载的问题,而且能针对每个用户的个性特征提供个性化信息,从而实现消费者和商家的双赢。目前个性化推荐技术已经广泛应用于电子商务、多媒体娱乐、信息订阅、社交网络等多个领域,但是随着应用的扩大和用户的增加,暴露出的问题也越来越多,例如推荐精度不准,数据稀疏,有用信息不足,新用户、新项目无法推荐,系统可扩展性不强,以及系统的稳定性不够鲁棒等等。为了解决这些问题,本项目主要从理论和算法上去寻求突破,需要解决以下四个关键科学问题: 用户评分数据少,而用户和项目数量庞大引起的稀疏性问题。 刚被加入到系统中的新项目没有被任何用户评过分,或者刚加入系统的新用户之前对项目没有任何行为而引起的冷启动问题。 随着系统规模的增大,计算量也随之急剧增加而引起推荐系统的实时性及扩展性问题。 鲁棒性问题:因虚假用户评分或者用户打错分而使得系统无法识别这些无效的数据而影响系统的准确性和稳定性问题。 本项目拟从上述几个关键科学问题入手,把用户和物品的对应关系看做一个矩阵X,然后将矩阵分解成表示商品的特性和表示用户特性两个矩阵。考虑到现实应用中针对上亿的用户推荐上千上万类产品,使得矩阵X非常庞大,而且由于数据中很多用户的有用信息很少或者空缺,导致矩阵非常稀疏。因此,为了更好地解决这个问题,本项目基于压缩感知和稀疏表示的前期工作基础上,在数据的低维空间进一步分析数据的低秩结构,从根本上探索数据的重要隐藏信息,提出通过求解低秩矩阵的补全问题来恢复矩阵中缺失的未知信息。针对求解矩阵补全问题过程中最小化矩阵秩算子是非凸问题以及求解最小化核范数的困难性,本项目拟提出采用核范数截断法来求解,通过两步迭代机制来优化求解,并通过一种基于带自适应惩罚项的乘子的交替方向理论的截断式核范数正则项来提高收敛速度,同时使得模型更鲁棒。为了在大数据情况下有效地利用矩阵的低秩结构信息,我们拟采用主动学习算法选取一小部分“错点”,即选取当前数据空间中最具有代表性的数据点,来对原始数据空间进行尽可能准确的近似表达。。考虑到数据空间的几何信息以及传统的主动学习方法计算复杂度太高,本项目拟提出一种局部邻近重建的主动学习方法,并在目标函数中分别将局部信息和结构化稀疏性纳入到最终的锚点选择过程中,最后采用块坐标下降法与邻近梯度理论结合求解来进行高效求解。 项目的目标是建立一个基于低秩矩阵补全的矩阵恢复模型以提高推荐系统的精准性,不仅有望解决大数据推荐系统中普遍存在的稀疏性问题和冷启动问题,而且通过设计一系列快速优化算法将大大提高收敛速度,解决推荐系统存在的实时性问题。该项目的成功有助于进一步推动电子商务的个性化推荐发展,加快深圳市的信息化发展进程,刺激个性化服务行业的发展。 技术先进性 数据中常含有噪声、冗余或错误信息,存在数据格式上的差异。需要先对数据去除噪声、剔除冗余和错误的信息,进行数据填充和数据格式的统一转换。 在推荐系统问题中,在绝大多数情况下,我们只能得到用户对所有数据集中的一小部分用户数据,但我们知道数据往往具有低秩或近似低秩的结构。因此,从矩阵分解的角度对缺失信息进行恢复,通过低秩分解,求解矩阵的补全问题得到确实的数据。 矩阵补全的优化求解:在求解矩阵的补全问题上,常用最小化核范数的优化方法,但是最小化核范数问题对其进行直接求解仍然非常困难,如何对矩阵补全问题进行优化求解是本项目的核心研究内容。 大数据下的扩展:在推荐系统中,随着系统规模的增大,用户和项目数量级往往是数以百万记,计算量也随之急剧增加,推荐系统的实时性难以得到保证。如何在满足推荐质量的前提下同时提高推荐的实时性及可扩展性成为协同过滤算法中研究的另一个重要的内容。 应用市场 电子商务、多媒体娱乐、信息订阅、社交网络等多个领域
Copyright © 2016 国家技术转移西南中心-区域技术转移公共服务平台 All Rights Reserved 蜀ICP备12030382号-1
主办单位:四川省科技厅、四川省科学技术信息研究所、四川省技术转移中心科易网