互联网上特定信息类型识别的研究与开发

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tianwang800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的飞速发展,网络信息处理得到了很大的重视,吸引了许多国内、外学者从事该领域的研究与探讨.网页识别和网页信息挖掘技术在实际应用中日益显示出它的重要性.特别是互联网上某一特定类型信息的识别技术应用,更能体现出用户的实际需求.该课题针对互联网上歌词网页这一特定类型信息识别进行研究.该文在分析网页信息处理方法的基础上,对歌词网页识别提出了新的识别算法,同时在Linux操作系统下利用标准C++编程语言,实现了基于中文和日文两种不同语种的歌词网页识别系统.该文按照模块化的思想设计并实现了歌词网页识别系统.在系统的实现中,为了提高系统的识别准确率,并使系统易于在不同语种平台的移植,该文提出了两种新的处理机制,即分级识别机制和语种相关部分和不相关部分分开设计的处理机制.最后,该文对系统测试集的定义进行了讨论.并利用这些测试集对系统进行测试.该文给出了两上不同语种版本系统的测试结果,同时对系统的错误识别原因进行了详细的分析.该课题的研究开发,是一个具体的实用课题研究,在研发过程中得到了日本富士通北京研究与开发公司的资助,并有幸成为了富士通公司日本总部该年度产口的项目计划之一.网页识别技术是网终信息处理领域中一个新的研究课题,它的发展还需要更多学者、专家的参与和关注,不断加于完善.
其他文献
该文首先介绍了知识发现和数据挖掘的出现,发展,现状,以及相关技术的主要内容和数据挖掘中的主要算法,包括:关联规则挖掘,多层数据归纳算法,数据分类和概念聚类,以及挖掘路径
该文的主要研究工作包括:1.提出了一种基于样本的形状学习算法,以抽取出人脸图像的形状特征.该文从"相似的人脸图像蕴含着相似的人脸形状"这一直观观察出发,通过实验验证了在
该文在前人的研究成果基础上,提出利用颜色和边缘特征进行运动目标跟踪,建立颜色和边缘混合模型,综合颜色和边缘信息在图象差分中的优点,利用边缘梯度信息弥补了在运动目标跟
该文先对定性空间推理的研究方法进行了分析,提供了一种比较合适的自主开发研究方式.对其中的地理信息系统进行了详细的分析,并给出了实现过程.其次,对定性空间推理的理论进
该文首先对无分辨率下Transcoding中关键技术,即运动向量重用和细化技术,宏块编码模式的重新选择技术进行了深入的研究.然后,对变空间分辨率下实现Transcoding系统所需要的运
学位
该文的主要工作是针对计算机辅助设计(CAD)领域,解决其中涉及到的二维图形几何约束的约束满足问题.文中我们在对(1)变量几何法,(2)几何推理法,(3)图形操作法这三种方法分析的
该文所论述的平面几何图形图象的识别,不仅要识别出图象中的几何图形,还要对所识别出的平面几何图形中的对象进行分析和理解.该论文及其原型软件已经实现了外围只有一个多边
该文的第一章,首先介绍了课题的背景及其研究意义,然后对该领域的发展概况及相关工作进行了介绍,接着讨论了该文的主要研究内容及文章的具体结构.该文的第二部分,研究了基于
该文主要研究了中国工商银行信贷风险综合管理系统的设计与实现,并讨论了其中所涉及的一些理论知识和关键技术. 在该文的第一部分,我们首先介绍了信贷风险综合管理系统的课题