维数约减和半监督学习研究及在人群数量估计的应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:striving123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维数约减和半监督学习一直都是机器学习中两个热门的课题。其中维数约减希望通过寻找一个有效的投影矩阵将高维空间中的数据投影到低维空间中,同时低维数据还能保持原数据的有效信息。半监督学习主要应用于样本标签难以获得而样本却大量存在的场景,未标记样本在什么情况下能够帮助学习以及如何帮助提高学习效率是半监督学习主要讨论的问题。本文在维数约减方面研究现有两种不同类型的算法,非监督降维方法PCA(Principal component anialysis)和监督降维方法KDR(Kernenl DimensionReduction),对算法流程进行了仔细研究,并在实际数据集上比较了它们的性能。半监督学习方面,争对具有时序性的数据设计了能够利用数据时序拓扑关系将未标记样本引入学习器中帮助学习回归预测函数的半监督弹性网。因此本文的主要工作主要体现在以下三个方面:  ·研究现有人群密度算法,发现特征的有效性对数量估计有很大的影响,因此争对性的设计了一组能够有效刻画人群数量和密度的内容丰富的特征集合。在两个数据集上进行试验,验证了其有效性。  ·为了从多方面检验算法,还采集了一个新的人群数量数据集,我们称之为Fudan人群数据集。与以往数据的不同之处在于,该数据集受光照的影响,场景更加复杂,更能检验算法的鲁棒性。  ·在数据集上检验我们设计的算法,尽可能提高算法的准确度,另外为了使算法能够方便地在现实场景中应用,我们还加入半监督算法减少算法需要的人工干预。  整体而言,文章的内容不但涉及机器学习算法的基础研究,而且将算法和实际问题相结合,设计了两套能够准确和实时统计场景中人群数量的系统。从实验的结果来看,与现有最好的算法相比,我们不但准确更好,而且只需要非常少的人工干预,减少了大量的人工成本。
其他文献
学位
红外焦平面阵列(IRFPA)非均匀性的存在,极大的限制了成像系统的性能,因此实现红外焦平面阵列非均匀性自适应校正是高级红外探测系统追求的重要目标。基于场景校正方法的优越性
随着互联网技术的快速发展,数据呈现爆炸式增长,信息过载问题越来越引人注目。协同过滤推荐技术在解决信息过载问题方面已经取得了不错的效果,但在实际应用中随着用户和项目
目前,我国销售行业的步伐正在日益加快,尤其是超市销售行业在规模上更是不断的扩大。随着计算机技术的不断飞速发展与普及,超市企业在管理方面也日益趋向于科学化。超市的销售利
序列模式挖掘是在指定的序列数据集中发现满足最小支持度的所有频繁序列,目前在电子商务领域中获得了广泛的应用。传统序列模式挖掘算法存在两个缺点:第一,对所有序列和所有项
传统网络中存在资源利用率低、问题解决局部性和业务QoS无法保证等问题。随着互联网的快速发展,人们对网络的QoS提出了更高要求,认知网络的提出为以上问题的解决提供了可能。
校园网是学校重要的现代化基础设施,为学校的教学、科研、管理、服务等提供先进、可靠、安全、快捷的计算机网络环境。因此校园网的网络安全至关重要。随着网络互联领域的广
随着内容拥有者维护版权的决心以及普通用户保护个人隐私意识日益增强,一些面向多用户的应用,如数字内容分发、付费观看电视等亟需一种密码体制来防止未授权用户的非法访问并
随着社会的发展和计算机技术的提高,软件系统的规模在不断扩大,软件需求也日益复杂,对软件质量的要求也越来越高。软件测试技术就是保证软件质量最主要的手段,它可以有效地提高软
微博作为时下最热门的社交媒体和网络交流平台,越来越多的用户选择在微博平台中构建个人社交圈的同时,用户自身的博文发布以及用户间的关注互动行为,也让微博网络中蕴含着纷