论文部分内容阅读
随着互联网普及率的提升,人与人之间的社会交往模式已由传统的社会社交逐渐过渡到在线网络社交。为此,人们致力于开发内容更加丰富、功能更加强大的社交网络工具,以满足用户日益增长的在线网络社交需求。当代社会是一个开放型社会,开放型的社会需要开放的社会交往,因此在网络社交中,每个用户都希望通过社交网络工具组建自己的好友群,试图通过找到一些和自己有相同兴趣的人去分享自己的想法。而要想实现高效、准确的好友推荐功能,就必须要在用户的个人信息、发布消息中挖掘出有效的数据。本文以海量社交网络数据为研究对象,设计并实现了基于兴趣爱好的好友推荐系统。该系统基于MapReduce计算框架实现,利用分布式文件系统HDFS对数据进行存储。系统的其核心功能包括三个部分:一是社交网络数据的分布式存储管理,包括对存储在HDFS中海量社交网络数据的上传、下载、删除、新建文件夹、文件重命名等功能,方便管理员对数据的更新和维护。二是基于兴趣爱好的好友推荐,利用K-Means聚类算法对社交网络数据进行了聚类分析,利用朴素贝叶斯分类方法对社交网络数据进行了分类处理,实现了基于聚类和基于分类的好友推荐功能。三是用户兴趣标签的完善,利用上述两种数据挖掘方法,挖掘出社交网络用户可能隐藏的兴趣爱好标签,为用户完善了个人信息。本文使用大量微博数据对系统进行了测试,包括各功能单元测试和系统功能测试。测试结果表明该系统可靠性高、安全性高、响应时间合理,可以实现高效、准确的好友推荐功能,并能为用户提供直观、友好的交互界面。本文首先介绍了好友推荐方面的国内外研究现状以及相关研究内容,然后从需求和可行性两个方面对系统进行分析,明确了系统需要实现的功能以及系统的可行性。接着对系统进行了设计,给出了系统的总体框架设计和各模块的设计。然后对系统进行了详细设计与实现,给出了具体的设计和实现步骤。在系统实现后对系统进行了单元测试、集成测试与功能测试,并对测试结果进行了展示和评估。最后对系统做出了总结,并给出了不足,指出了未来的工作方向。