当前位置: 首页 > 范文大全 > 公文范文 >

图像检索技术研究进展

时间:2022-03-20 08:34:21  浏览次数:

zoޛ)j馐!}צ总结、分类和评估,并对未来的潜在研究方向进行讨论.

关键词图像检索;视觉表征;索引;相关性度量;空间上下文;检索重排序

中图分类号 TP391.41

文献标志码 A

1 背景介绍

随着数码设备的普及以及网络技术的飞速发展,数十亿人在网上共享和浏览照片.图像检索(CBIR)致力于从大规模图像数据库中检索出与文本查询或视觉查询相关的视觉内容.自20世纪90年代以来,图像搜索引起了多媒体等领域研究人员的广泛关注[1].传统的图像搜索引擎通常基于图像周边围绕的元数据信息,例如标题和标签,来索引多媒体视觉信息.但是由于这些文本信息可能与视觉信息不一致,其检索结果可能不可靠.为避免这种问题,基于内容的图像检索技术被引入,并在近些年取得了很大的进步.在基于内容的图像搜索中有2个基本的挑战,分别是意图鸿沟和语义鸿沟.意图鸿沟指的是用户很难通过一个查询,例如一张图像或是一个素描图,精确地表达他所期望的视觉内容;语义鸿沟是指采用一个低阶的视觉特征来描述一个高阶的语义内容是很困难的[2-4].为了缩小这种鸿沟,学术界和工业界做出了大量的研究工作,并取得了长足进展.

从20世纪90年代初到21世纪初,很多基于内容的图像搜索的相关研究被发表,已有综述性论文讨论过这些研究[5-7].在21世纪初期,随着一些新的见解和方法的提出,CBIR向另一个研究趋势发展.尤其是2项开创性的研究工作为大规模多媒体库中基于内容的视觉检索的重大进展铺平了道路.第1个是局部视觉特征SIFT的提出[8].SIFT被证明具有极好的描述性和区分性,以捕获各种多媒体数据中的视觉内容.它具有对旋转和尺度变换的不变性,同时也对光照变化具有很好的鲁棒性.第2个工作是词袋模型(Bag-of-Visual-Words,BoW)的提出[9].当用于信息检索时,BoW模型通过量化图像中包含的局部视觉特征生成图像的紧凑表达.同时,BoW模型可以适应于倒排索引结构,可以更好地应用于大规模图像检索.

基于上述开创性的工作,最近10年中涌现出大量的基于多媒体内容的图像检索研究工作[10-29].然而,在工业界,一些基于内容的图像搜索引擎各有所侧重,例如Tineye(tineye.com)、Ditto(ditto.us.com)、Snap Fashion()、Cortica()等.Tineye于2008年5月推出了10亿幅反向图像搜索引擎.到了2017年1月,Tineye数据库中索引的图像已经到达了170亿幅.不同于Tineye,Ditto 特别关注于商标图像,通过Ditto可以发掘社交媒体上共享的照片中的商标信息.

从技术上讲,基于内容的图像检索中存在3个关键问题:图像的表达、图像的组织和图像相似度度量.现有的方法可以基于这3个关键问题进行分类.

图像表达是基于内容的视觉检索的本质性基础问题.为了方便比较,一幅图像可以被转换到某种特征空间,以实现隐式的对齐,从而消除背景和潜在变形的影响,同时保持内在视觉内容的区分.事实上,如何进行图像表征是计算机视觉任务中的一个根本性问题.通常,一幅图像被表达成一个或多个视觉特征.这个表达须具有描述性和区分性,以便于区分相关与不相关的图像.更加重要的是,人们期望图像表达对各种变化(例如平移、旋转、缩放、光照变换等)具有不变性.

在多媒体检索中,视觉数据库通常非常巨大.一个非常重要的问题是如何组织数据库,以便于當给定一幅查询图像时,能够有效地识别出相关结果.受到信息检索的启发,许多现有的基于内容的视觉检索算法和系统利用经典的倒排索引结构索引大规模的视觉数据库.一些基于哈希的技术也以同样的视角被引入到索引中.为了实现这一目标,视觉码本学习和高维视觉特征的特征量化等技术被引入,嵌入空间上下文信息也可以进一步提高视觉表示的辨别能力.

理想情况下,图像间的相似度须反映语义上的相关性,然而因为语义鸿沟的存在使其变得困难.在基于内容的图像检索中,图像的相似度一般被定义为视觉特征的加权匹配结果.现存算法中图像相似度定义可以看成是不同的匹配核[30].

本文主要概述2003年至今的10多年间图像检索的研究工作.对于2003年以前的工作,建议读者阅读先前的综述论文[5-7].最近,也有一些关于CBIR的综述文章[2-3,31].文献[31]从数据库规模的角度总结了过去20年的图像搜索工作;文献[3]在社会图像标签的背景下,对最新的CBIR技术进行了回顾,重点论述了3个紧密联系的问题:图像标签分配、优化和基于标签的图像检索.本文则从不同的视角讨论了CBIR,更多地强调通用框架方法方面的进展.

在后续的章节中,本文首先简要回顾基于内容的图像检索的通用框架,然后分别讨论这个框架中的5个关键模块;之后,介绍普遍使用的测试数据集和评估标准;最后,讨论未来潜在的发展方向并做总结.

2 通用流程图概述

基于内容的图像检索是多媒体领域的一个热点研究问题.图像检索的通用流程如图1所示.图1所示的视觉检索系统由离线和在线2个阶段组成.在离线阶段,通过图像爬虫工具构建图像数据库,将数据库中的每张图像表达成特征向量并构建索引.在线阶段包含6个模块:用户意图分析、查询构成、图像表达、图像相关度评分、搜索重排序和搜索结果浏览.图像表达模块在离线和在线阶段共享.本文不包含图像数据库爬取、用户意图分析[32]和检索结果浏览[33].这些方面的研究可以参考前人的工作[6,34].本文的后续部分集中讨论其他5个模块,即:查询构成、图像表达、数据库索引、图像相关度评分和检索重排序.在后面几节,本文总结每个模块的相关工作,讨论和分析每个模块在关键问题上所采取的策略.

推荐访问: 研究进展 图像 检索 技术