论文部分内容阅读
伴随互联网的发展和大数据时代地来临,触手可及的信息出现内容形式的多元化和数量上急剧增长化的特点。出现了长度较短、内容精炼的各种类型的短文本,如标题和微博等。同时在如今信息过载的时代,通用性的搜索引擎已经不能很好地满足用户对信息检索的针对性和准确性请求,越来越多面向主题的、垂直化的主题搜索引擎应运而生。无论是综合性的搜索引擎还是针对性的主题搜索引擎,文本挖掘都在其中扮演着重要的角色。如果在主题搜索中能很好地对这些随机性强的短文本形式的文本进行聚类分类将起到事半功倍的效果。针对上述情况,本文的主要工作和成果如下:第一,针对目前标题文本分类常用方法的一些问题,如需要完整全面的领域词表库支撑、或需要额外收集整理一些辅助的训练语料或者需要进行复杂的句子语义分析等,提出了一种基于LDA模型的无监督特征选择的分类算法。该算法克服了标题文本分类的上述问题,并且具有较好的分类效果和较强的可操作性。第二,针对文本聚类算法中K均值算法对初值的选择比较敏感,随机选择的不同初始种子能致使最终收敛聚类结果差异较大的问题,提出了一种优化初始质心的K均值聚类算法。该算法建立在第一方面提出的特征选择方法后的良好特征矩阵上。在语料库上的实验表明,算法用比较少的迭代次数最终收敛到较为准确稳定的聚类结果上。第三,设计实现了一个招标主题搜索引擎系统,把上述提出的文本分类聚类算法应用到系统的分类模块中。该系统的主要功能是从收集好的招标种子站点网站中获取发布的招标或中标网页信息,然后从这些网页中抽取所要信息,如招标时间,招标标题,招标联系人,招标正文等。最后把抽取到的信息按照一定标准如行业或地域进行分门别类。