“苏集创”是依托www.优德88.cpm 国家技术转移中心(www.优德88.cpm 知识产权运营中心),紧密围绕苏州产业创新集群布局,以www.优德88.cpm 等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。
本期向大家推介的是一项图像处理技术领域的专利成果:《多模态蕴含增强图像文本检索的方法和系统》
知识产权信息:
专利权人:www.优德88.cpm
专利类型:发明专利
专利号:ZL202310031393.1
发明人:曹自强;闫旭;艾春辉;曹敏;付国宏
成果简介:本发明涉及图像处理技术领域,公开一种多模态蕴含增强图像文本检索的方法和系统,方法包括:获取图像文本检索数据集得到训练集和测试集,使用多模态蕴含模型筛选图像文本检索数据集中存在蕴含关系的图像文本对并作为弱正例;将训练集中的正例和弱正例输入图像文本检索模型,使用对比学习方法训练图像文本检索模型,使用弱正例部分的学习率低于使用正例部分的学习率;将测试集输入训练完成的图像文本检索模型得到检索结果;系统包括:数据获取模块、蕴含关系判别模块、训练模块和测试模块。本发明可以降低人工标注成本、易于扩展、有效提高检索性能。
背景技术:近年来,随着互联网的快速发展,每时每刻都有不计其数的图像和文本数据产生,跨模态的图像文本检索逐渐成为多媒体计算和信息检索领域的主流研究课题之一。图像文本检索是指给定一种模态下的查询样本来检索数据库中另一种模态下与之具有高语义相似度的样本。该任务主要分为“以文搜图”和“以图搜文”两种形式,具体来说,将一个文本作为查询样本来检索其相应图像称为文本到图像的检索,反之亦然。目前的主要方法致力于使用大规模的已标注图像文本检索数据集,利用对比学习等手段,将已标注的图像文本对视为正例,强化它们之间的语义相似度,反之削弱不存在标注的图像文本对之间的相似度。然而,受限于标注成本,现有的图像文本检索数据集通常假设一个图像或文本只与它已标注的样本存在关系,忽视了海量的未标注图像文本对之间的关系,而事实上它们中的大多数都存在相似甚至很强的语义关联。上述问题一方面会导致模型会将具有高语义相似度的图像文本对错误地视为负例,误导了图像文本的表征学习过程,损害最终的图像文本检索效果;另一方面,会导致数据集的开发程度低下,无法充分开发其价值。
针对图像文本检索数据集标注不全面的问题,除了已有的利用无标签数据进行半监督或自监督训练的深度学习方法,目前的研究还集中于通过穷举或筛选相似度较高的图像文本对进行全面标注,但是这些现有技术也存在一些缺陷。
为此,本发明所要解决的技术问题在于克服现有技术中的不足,提供一种多模态蕴含增强图像文本检索的方法和系统,可以降低人工标注成本、易于扩展、有效提高检索性能。