Web使用挖掘关键技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:anjiulo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、预测用户浏览行为,从而更好地理解和服务基于web的应用。Web使用挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等,因而对提供个性化服务与定制、改进Web系统性能和结构、改善Web站点结构、为商业组织提供商业智能和向用户推荐页面等方面都有重要的理论和实际意义。Web内容的复杂性、多样性和非结构性,Web组织结构的动态性和多变性,Web使用数据的不精确性等,均给Web使用挖掘带来很多困难,使得不能够把传统的数据挖掘技术简单地应用于Web数据,同时也为Web挖掘理论和技术的深入研究提供了更多的挑战和机遇。数据预处理的结果作为数据挖掘的数据源,其质量直接影响数据挖掘的结果。Web使用挖掘的数据可能来源于服务器端、客户端、代理服务器端、站点文件及注册信息或远程代理,并且每一种类型的数据收集不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和它的实现方面都不相同。在进行挖掘之前,需要对收集到的原始数据进行预处理,其过程由数据清洗、用户识别、会话识别和路径补充构成。数据清洗的任务是为挖掘过程去除掉不相关和冗余的日志登录项。用户识别是把页面引用同不同的用户关联起来的过程。会话识别的目标是将每个用户所访问的页面划分到一个个独立的会话中。借助于一些启发式的规则是对数据进行预处理的有效方法。Web会话是由访问站点的Web页面访问序列构成的。因此,Web页面访问的相似性是Web会话相似性的基础。为了吸引用户,网站管理人员在设计网站结构时总是把具有相似内容的Web页面放在尽可能接近的位置,因而从Web页面的URL结构可以观察其静态相似性。同时,用户对某页面的查看时间不同可能意味着该用户对该页面的兴趣度不同,据此可以计算基于查看时间的Web页面访问动态相似性。Web页面相似性由基于URL结构的静态相似性和基于用户查看时间的动态相似性共同决定。由Web页面访问序列构成的Web会话非常类似于由氨基酸序列构成的DNA。在分析生物特性时,需要找出DNA或蛋白质之间的相似性。在Web使用挖掘过程中,则需要找出不同的Web会话之间的相似性以帮助更好地了解和分析用户的浏览行为。因此,可以将生物信息学中经典的DNA或蛋白质序列比对算法加以改造应用于Web会话相似性度量。簇的个数、各簇初始点和划分数据点的规则函数的确定是Web会话聚类算法需要考虑的3个重点和难点。基于相似性增长的Web会话聚类算法WSCBSI(Web Session Clustering Based on the Increase of Similarity)根据领域知识的分析确定应当划分的簇的数目,利用聚类结果质量高但对大数据量来说时空复杂度较大的ROCK聚类算法确定各簇的初始点,根据Web会话划分到不同簇中对全局相似性增长的贡献确定规则函数,这既克服了传统聚类算法只考虑局部相似性带来聚类结果质量不佳的缺点,也降低了聚类过程的时空复杂度。
其他文献
基于无人船测深技术,对上海市松江区淀浦河部分河段进行了水下地形纵横断面测量。断面测量利用测量型无人船获取水底高程,通过数据处理完成断面绘图。实验证明,无人船断面测量具有较高的效率与精度,主测线水深与检测线水深较差合格率达到98.2%,满足了行业规范要求;同时该项较差可满足偶然误差分布规律,表明无人船测量精度已得到有效控制,因此是一种高效率可靠的水下地形测绘方法。延迟误差是无人船测量的瓶颈,因此,施
随着光纤通信的不断发展和广泛应用,光纤放大技术得到了长足进步。其中,掺稀土元素光纤放大器,如掺Yb3+光纤放大器,由于其独特的优点,在超短脉冲放大等许多领域受到人们越来
为寻求焦化汽油出路和缓解催化重整装置原料不足的矛盾,大港石化公司将加氢精制后的焦化汽油调入直馏汽油中作重整原料,较好的解决了上述矛盾。
场依存--场独立在认知方式的所有维度中,是研究最多的一个方面,也是最重要的。它几乎构成了认知方式的理论框架。场认知方式表示人们在信息加工过程中依赖于外部或内部参照物
根据贸易引力模型,利用我国与'一带一路'国家的双边贸易数据对'一带一路'国家与我国的贸易效率进行测算,并结合各国国情以及与国际外交情况,探讨推进人民币
河南周口市天阔副食公司河南周口市天阔副食公司成立于2001年,主要代理产品有四特酒、红星二锅头、青岛啤酒等,主要针对流通、餐饮终端和商超。十多年来,公司在总经理刘和平的带
期刊