山西电子技术 2011年第6期 软件技术 文章编号:1674-4578(2011)06-0066.02 基于用户行为的网站推荐系统模型 吴俊杰,刘耀军,赵月爱 (太原师范学院计算机系,山西太原030012) 摘要:网上营销的难点是如何寻找潜在客户。识别用户行为是一个复杂的过程,建议采用二维模型来寻找 相关的项目,然后推荐给用户。但太多不相干的建议转化为用户信息过载问题。本研究的目的是在每个维度中找 出已被用户搜索的项目/对象,最受好评的每个维度中的项目可给予建议。要做到这一点,我们采用张量,它可以 有效地模拟web日志中的用户搜索数据,然后确定在每一个搜索维度上的用户模型。所有的评估均基于真实 数据集,这清晰地显示出比其他广泛使用的向量和矩阵方法的有效性。 关键词:用户行为建模;张量;矩阵分解;推荐 中图分类号:TP391 文献标识码:A 0引言 构建用户喜好模型中最关键的任务就是在每个维度上 如何识别用户的喜好,是Web个性化…的关键技术。 寻找相关特性,可以分为三个步骤是:(1)模型的构建(利用 原始数据构建张量),(2)模型分解(寻找突出特性和不同特 通过精确匹配由用户访问兴趣建立的项目/对象模型,可有 效地解决信息超载的问题。然而,用户的行为识别是一个复 性之间的潜在关系),(3)重建模型(从每个维度中寻找相关 杂的过程,它涉及到各种搜索参数之间的关系。在用户行为 特性)。 第1步,模型的构建:创建张量模型之前要进行数据预 建模方面,从服务器日志中获得的隐式数据更可靠,因为它 处理,包括删除不必要的属性或特征的数据集。要做到这一 反映了在各自网站的查询中用户的实际需求。然而,这些数 点,可进行分组、分节。对每个用户的会话数据进行分析。 据的问题是度的,如日期、时间、使用的操作系统、浏览 器和其他细节。检索它们之间的关系是一个复杂的过程。 会话中所有出现的独特功能都提取到张量模型作为代表模 传统的方法使用两个数据建模技术、欧氏距离或余弦相 式。构建好的用户访问张量如下: ∈R odytrpe SearcMype Costtype似度措施,但是,以往的研究表明 J,在高维空间中,聚类的 . (2) 属性选择不同会产生相当大的差异。在这项研究中,我们建 第2步,模型分解:在数据模型的分解过程中,能够 议使用TSM(张量空间模型),这是更高的三维数据建模工 找到最突出的部分(即张量项和模式),以及可能存在的不 具,以有效地挖掘用户的信息,包括在每个维度上的用户访 同组件之间的隐藏关系。我们使用的是PARAFAC,Tucker 问兴趣。 和HOSVD张量分解技术。 第3步:重建模型:一旦用户模型创建和分解好后(步骤 1相关的工作 1和2),取每个维度上的前n个值作为维度值。如图1所示: TSM的使用已经成为流行,其数据建模和推论的能 力已得到认可 .4 J。使用TSM Web挖掘和相关工作正处于 起步阶段。 M已广泛使用在化学计量学H J。利用点击流 数据来定位个性化网络搜索可以有效地进行Web挖掘 j。 最近,提出了ptueker(潜变量概率模型),它具有学习依赖性 结构的能力。TSM使用降维HOSVD,已用于个性化的音乐 和标签推荐体系,研究人员使用TSM创建基于标签的推荐 模型。最近的工作是 M的集群。不同于先前讨论的这些 图1 PARAFAC分解和重建过程 方法,我们将单个用户的行为模型化,组成张量,然后使用这 种模式,根据用户最受好评的兴趣提出建议。 3评价体系与结论 2提出的方法 评价实验数据集:日志数据从太原龙城热线网站中200 个用户组成的数据集的一部分,其中每一个用户有不同数量 我们遵循传统的符号 J,标量采用小写字母,向量采 且至少4次以上搜索。 用一维数组,矩阵采用两维数组。张量可以用下式n阶方阵 用于评估的各种方法采用高搜索项目(频率为基础), 表示 采用SVD、PCA、NNMF、PARAFAC、Tuaeker、HOSVD张量分 ∈尺 ‘!fl …xM.. (1) 解技术。实验结果如表1所示: 收稿日期:2011—09—22 基金项目:山西省软科学研究基金资助项目(2010041058—04),山西省科学技术发展计划基金资助项目(20110321024—02) 作者简介:吴俊杰(19r74.),男,山西寿阳人,讲师,硕士,主要研究方向为数据挖掘与人工智能处理。 第6期 吴俊杰,等:基于用户行为的网站推荐系统模型 67 表1张量模型平均F值 为每个用户建立单独的张量模型的主要缺点之一是在时间 方法 Top3 To# Topl0 Topl5 和空间的开销。时间问题可以考虑建立离线,但空间和计算 Frequency 0.40 O.31 0.22 O.2O 成本,以及建立高质量的推荐系统是一个重要的考虑因素, Association 0.47 0.34 O.25 0.16 需要继续仔细分析研究,这将是我们下一步的工作重点。 SVD 0.42 O.27 O.2l O.15 参考文献 PCA O.3l O.17 0.1l 0.10 NNMF1 O.42 0.26 O.21 0.15 NNMf2 0.47 O.29 O.22 O.17 NNMF3 0.48 O.28 O.19 O.17 PARAFAC1 O.5O 0.34 O.25 O.3O PARAFAC2 0.46 O.31 0.23 O.19 PARAFAC3 0.47 0.34 O.3l 0.31 Tuackerl 0.47 O.3O O.21 O.18 Tuack ̄r2 0.45 O.28 0.19 O.15 Tuacker3 O.5l 0.31 O.2l O.17 H0SVD1 0.47 O.29 O.21 O.18 H0SVD2 0.47 O.28 O.2O O.15 H0SVD3 O.48 0.3l O.24 0.2O (上接第65页) 实现了数据的接收、显示、处理、存储、回放等功能。联合调 京:高等教育出版社,2004. 试的结果充分说明系统可以在Windows的平台上平稳运行, [3] Using External Code in LABVIEW[z].National Instru. 数据接收与显示的实时性完全满足要求。由于系统有很强 ments Corporation,2000. 的数据回放能力,用户可以在每次试验后,反复研究本次试 [4]Using DDE in LABVIEW[z].National Instruments Cot- 验数据,这对及时发现、分析和排除故障、提高效率是非常有poration,2000. 效的。 [5] 郭四稳,古乐野.多通道大容量高速数据采集系统[J]. 参考文献 四川大学学报,2001,38(1):29—32. [1]LABVIEW User Manual[Z].National Instruments Corpo- [6] Jeffrey Travis,Jim Kring.LABVIEW大学实用教程[M]. ration,2000. 乔瑞萍,译.北京:电子工业出版社,2008. [2] 张文栋.存储测试系统的设计理论及其应用[M].北 Design of Software for Four—channel Multi・parameters Testing System Based on LABVIEW Yang Lei,Ma Tie-Hua,Cui Min,Ma Bai-zhen (研&tb ofInstrumentation Science& 砌础Measurement,Ministry foEducatoin,North University foCh/na,Ta/yuan Shami∞005l,Ch/na) Abstract:A four-channel multi-parameters testing system based on MSP430 MCU and testing software which is devdoped by LAB— VIEW are in ̄oduced and discussed in the article.The software has a friendly visual interface and structural design.After the combined debugging,the result shows that the software has good stability nad maneuverability,realizes teh four channels rea1.time display,stor- age and the programming control of circuit,and fuliflls the entire traget. Key words:LABVIEW;data acquisition;real time display