本文主要研究了如何利用Web数据挖掘技术来分析和发现用户的浏览兴趣路径。Web数据挖掘是指运用数据挖掘的原理和方法,针对Web使用信息特有的新特性,从Web日志信息的挖掘中提取有用的信息,以此来为用户提供个性化服务、提高网站的系统效率和服务质量、帮助网站设计者优化网站结构等目的。
在Web使用信息挖掘中,学者们已经尝试了多种算法来获取用户的兴趣路径。例如,肖国强等人设计了s(weAccessSequence)树来记录Web访问序列和计数,并开发递归算法以枚举所有访问路径。施建生等人提出了使用频繁遍历路径来代表用户的浏览路径,通过关联规则对浏览子序列进行挖掘以找出用户的访问兴趣路径。邢东山等人引入了支持-偏爱度的概念,强调在挖掘浏览偏爱路径时要考虑偏爱性和支持率,并结合二者进行挖掘。Chen等人提出了最大向前序列法,它依据用户折返特性形成浏览子序列。Robee Cooley等人提出了引用长度法,该算法依据用户在网页上停留的时间来形成浏览子序列。单蓉提出了将网页浏览速度和页面内容的相关程度结合起来的兴趣模型更新。褚红丹等人引入页面信息量参数,结合页面访问次数、浏览时间和页面信息量大小来定义用户兴趣度,并提出了基于兴趣度的用户访问模式挖掘算法。刘超慧则是将用户对网页的浏览时间、网页的大小以及用户对网页的浏览次数结合起来定义用户对网页的兴趣程度。
本文提出的方法通过建立以访问次数、平均到网页中字符数的访问时间和拉动滑动条次数为元素的矩阵,计算出用户的兴趣子路径,并将所有子路径合并生成用户兴趣路径集。实验结果表明,该算法是可行且有效的,尤其对于电子商务网站的优化和个性化服务的实施具有重要的意义。
在引言中提到,Web使用信息挖掘是利用数据挖掘原则和思想,针对Web使用信息的新特性,从对Web日志信息的挖掘中发现有意义的信息,实现为用户提供个性化服务、提高网站系统效率和服务质量、帮助网站设计者修改网站结构等功能。这表明了Web数据挖掘在用户行为分析、个性化推荐以及网站优化中的重要性。
文章中提到的Web使用挖掘、用户浏览行为、Web日志等关键词,揭示了当前该领域的主要研究方向和研究内容。Web日志记录了用户的访问行为和网站的使用情况,而用户浏览行为分析则需要深入理解这些日志信息,从而提炼出用户的兴趣点和浏览习惯。
在用户浏览兴趣路径的研究中,虽然目前的研究已经考虑到了Web日志信息的挖掘,但对用户行为数据的挖掘还未得到足够重视。因此,日志上的用户浏览信息在挖掘前还需进行数据预处理和分析,以准确地反映用户的兴趣和行为。
本文介绍的基于Web数据挖掘的用户浏览兴趣路径研究,不仅对于电子商务网站优化和个性化服务的实现具有指导意义,也为进一步研究用户行为数据挖掘提供了基础和启发。在未来的Web使用挖掘研究中,结合用户行为数据与日志数据进行多角度、多层次的分析将成为提升研究质量和实用价值的关键。