论文部分内容阅读
维数约减和半监督学习一直都是机器学习中两个热门的课题。其中维数约减希望通过寻找一个有效的投影矩阵将高维空间中的数据投影到低维空间中,同时低维数据还能保持原数据的有效信息。半监督学习主要应用于样本标签难以获得而样本却大量存在的场景,未标记样本在什么情况下能够帮助学习以及如何帮助提高学习效率是半监督学习主要讨论的问题。本文在维数约减方面研究现有两种不同类型的算法,非监督降维方法PCA(Principal component anialysis)和监督降维方法KDR(Kernenl DimensionReduction),对算法流程进行了仔细研究,并在实际数据集上比较了它们的性能。半监督学习方面,争对具有时序性的数据设计了能够利用数据时序拓扑关系将未标记样本引入学习器中帮助学习回归预测函数的半监督弹性网。因此本文的主要工作主要体现在以下三个方面: ·研究现有人群密度算法,发现特征的有效性对数量估计有很大的影响,因此争对性的设计了一组能够有效刻画人群数量和密度的内容丰富的特征集合。在两个数据集上进行试验,验证了其有效性。 ·为了从多方面检验算法,还采集了一个新的人群数量数据集,我们称之为Fudan人群数据集。与以往数据的不同之处在于,该数据集受光照的影响,场景更加复杂,更能检验算法的鲁棒性。 ·在数据集上检验我们设计的算法,尽可能提高算法的准确度,另外为了使算法能够方便地在现实场景中应用,我们还加入半监督算法减少算法需要的人工干预。 整体而言,文章的内容不但涉及机器学习算法的基础研究,而且将算法和实际问题相结合,设计了两套能够准确和实时统计场景中人群数量的系统。从实验的结果来看,与现有最好的算法相比,我们不但准确更好,而且只需要非常少的人工干预,减少了大量的人工成本。