论文部分内容阅读
图像描述生成是计算机视觉领域中一个重要任务,该任务的具体目标是给予一张或者多张图片,令计算机生成对应的图像的文本描述。生成图像描述不仅要正确反映图像所要表达的内容,还需要保证生成的图像描述应该自然而流畅,以便人类阅读。传统的模型(基于最大似然估计训练方法)仅仅保证了图像描述的准确度,但其忽略了图像描述应该具有自然多样且具有辨识度的特点。因此,传统模型生成的图像描述虽然准确,但是往往显得单调枯燥且缺乏辨识度。本文针对传统模型存在的缺点,提出使用生成对抗网络来作为模型的主体结构,利用其在生成任务中具有随机性的特点,从而生成更加多样化的图像描述。此外,为了同时保证图像描述的准确度,本文将相同语义,不同语言的图像描述数据作为辅助,引入到判别器中提升其判别精度。因此,本文的模型模型生成的图像描述同时保证了多样性和准确度。本文的主要研究成果如下:1.提出了一个基于生成对抗网络的图像描述生成模型,并且创新地将外部文本数据引入到判别器中,从而提升了判别器的判别精度,最后同时保证了图像描述的多样性和准确度。2.本文的模型训练得到的判别器,可以作为一个新的评估指标对图像描述进行评估。3.本文的模型经过完整的对比实验,在多项指标上均优于传统的模型。