无法在这个位置找到: head2.htm
当前位置: 建站首页 > 新闻 >

乐清企业官网建设—图片里的人在干嘛?让深度神经网络来对你说

时间:2021-03-25 14:10来源:未知 作者:乐清企业网站建设 点击:
导语:深层次次学习培训学习培训学习培训学习培训融合神经系统系统软件系统软件手机软件互联网已能适度叙述工程项目新项目相片工作人员物的实际自己本人个人行为并开展讲解,

导语:深层次学习培训学习培训结合神经系统系统软件互连网已能适当描述工程项目照片人员物的具体本人个人行为并进行解读,GoogleCVPR2016大学毕业毕业论文。
建立总体目标描述的转换成与解读

协作编译程序程序:Blake、陈圳、章敏

前言

原文中确立明确提出了一个可以转换成针对相片中独特整体总体目标或地域建立描述(代指描述)的方法,这一方法还可以掌握或描述这一代指描述,进而推理出适当的被描述的整体总体目标。
[标识:內容1]
以前的方法并没有将情景中的其他埋伏模糊不清不清整体总体目标考虑到到之内,原文中呈现了大伙儿所确立明确提出的方式比以前的转换成整体总体目标描述方法要优异。大伙儿实体线实体模型设计方案设计灵感来源于近期深层次学习培训学习培训在图像标出难点上的获得取得成功,虽然无法对比片标出进行鉴定,但是大伙儿的每天每日任务能够确保轻轻地松松进行整体总体目标鉴定。大伙儿也确立明确提出了依据MSCOCO的一个新的用于代指描述的经营规模性数据信息信息内容集。这一数据信息信息内容集和专用型专用工具集可以用于可视性性化和鉴定,大伙儿将它发布在github上,详尽:github/mjhucla/Google_Refexp_toolbox。

序言

最近,许多人对转换成相片文本描述的科学研究科学研究十分很很感兴趣。可是,这种相片标出难点既主观性性也不适定。因为有那麼多有效的方法来描述任一给定相片,因而也无法对自动式标出方法进行鉴定。十分是,大伙儿如何能分辨一幅照片的描述好过此外一个描述?

在这里里篇大学毕业毕业论文中,大伙儿集中化化讨论了一个为给定相片转换成小短文中的十分案例,其整体总体目标是转换成建立的文本描述。这一描述能被精确地应用到相片中的某一整体总体目标或地域,那般一种描述就是简言之的「代指描述」。这一方法明显好过通用性性相片标出,因为它有一个定义优质的关键主要表现指标值值:倘若不同寻常描述出文本中相关整体总体目标或地域,听者就行了解这一描述可以注重其所描述的哪一个整体总体目标,这就是一个好的代指描述。另外,由于每天每日任务特点本身是有区别的。因此,相比相片标出,代指描述趋于更加重要点化。最后,与整幅照片比较的话,它更十分非常容易搜集训练数据信息信息内容以“遮住”针对给定整体总体目标的合理代指描述房间内室内空间。

大伙儿考虑到来临到两个难点:(1)描述转换成,大伙儿尽量转换成可以不同寻常注重相片中的重要整体总体目标和地域的文本描述。(2)描述掌握,根据一个给定的描述这一整体总体目标的文本描述,寻找这一整体总体目标。参照参考文献中谈及的之前的科学研究科学研究工作中中大部分完全全身心于描述转换成,详细对比见图1:


图1

在这里里篇大学毕业毕业论文中,大伙儿运用了时下最初进的深层次学习培训学习培训方法来处理真实图像和文本难点。十分便是大家在最近开发设计设计方案出的方法上建立了大伙儿的实体线实体模型,这类方法将卷积神经系统系统软件互连网(CNN)和递归神经系统系统软件互连网(RNN)结合起来。大伙儿确定,大伙儿的实体线实体模型关键主要表现高过没有考虑到到到听者尽量掌握的情况下转换成的代指描述的规范实体线实体模型。大伙儿也确认依据自动式转换成对比片地域的描述,可让用半管控方式训练大伙儿的实体线实体模型。

在很多运用自然语言网页页面的应用中,比如控制一台机器设备人(如“Rosie,把那瓶啤酒从电电冰箱高层住宅给我拿回家。”),或者与图像撰写手机上手机软件互动交流沟通交流(如“Picasa,将防护栏后的第三辆小汽车换为一辆摩托车车车。”),能够转换成并把握整体总体目标描述太重要。另外,对于从事视觉效果实际效果和系统软件手机软件制造行业的科学研究科学研究工作中中来说,这也是一个十分好的检验台,因为它有一个合理的客观性性关键主要表现评价程度。

便于训练和鉴定这一系统软件手机软件,大伙儿搜集数据信息信息内容分布式系统布了一个新的依据流行 MS-COCO 数据信息信息内容组的大中小型代指描述数据信息信息内容组。

总结起来,大伙儿的重要无私奉献下列。最开始,大伙儿确立明确提出了一个新的用于代指描述的经营规模性数据信息信息内容组。第二,大伙儿鉴定了现阶段相片标出方法在代指描述每天每日任务上的关键主要表现情况。第三,大伙儿科学研究科学研究出了一个结合转换成和掌握的新方法,这一方法比现阶段方法更强。

2.相关工作中中

代指描述

代指描述转换成是一个典型性性的神经系统系统软件语言难点。重要重要在于掌握大伙儿一般运用哪一类词汇来描述视觉效果实际效果物品(色调或者规格)、高級关系的运用、过多描述和描述不足情况等。

当然自然环境在很多方面都扮演者一个十分重要的角色人物角色。最开始,发言者尽量将整体总体目标总体目标和一系列产品商品的替代者差别起來,另外尽量提供为什么那般差别的缘故。第二,听者的预测分析也是可预估的。

在这里里个难点上,此前的写作者大部分分都聚焦点点在如计算机转换成总体目标(微小总体目标的图像)等中小型型数据信息信息内容集上,而且没有将他们的文本转换成系统软件手机软件和真实的视觉效果实际效果系统软件手机软件结合起来。可是最近这种情况一开始有变更,早就一开始一些人注意代指描述和复杂的真实全世界图像联系的难点。Kazamzadeh等人是第一批收集经营规模性复杂具体全世界图像代指描述的人。

大伙儿也一样收集并鉴定了一个经营规模性数据信息信息内容集。可是大伙儿超越了叙述转换成,学精了转换成和掌握实体线实体模型。大伙儿的深层次学习培训学习培训实体线实体模型能够对原始图像马上转换成表面叙述,不用再把原始相片转换成公布的总体目标描述。

在此同时,参考参照参考文献[24]中R.Hu等人确立明确提出一个与大伙儿的规范实体线实体模型接近的依据CNN-RNN方法,它进行了在ReferIt数据信息信息内容集上近期迄今的最好结果。但是他们没有运用大伙儿的详尽实体线实体模型中的辨别训练方式。

图像标示

大伙儿的方法设计方案设计灵感来源于于于一系列产品商品的图像和文本实体线实体模型,重要是在视觉效果实际效果和学习培训学习培训制造行业中的。从实体线实体模型角度来看的话,大伙儿的方法是最接近将RNNs和CNNs应用到这类难点的。近期的文章内容內容重要是应用CNN的隐藏主题风格主题活动性来描述图像内容,接着这一输入到RNN中,最后转换成一系列产品商品的文字。

大多数数数有关图像标示的大学毕业毕业论文都聚焦点点在描述图像全局性性,而没有一切的房间内室内空间精确精准定位。可是,大伙儿注意到两个列外。参考参照参考文献[55]确立明确提出一个将图像中文字和房间内室内空间位置关联起来的注意力实体线实体模型,可是他们仍然关注于图像全局性性的标示每天每日任务。参考参照参考文献[26]确立明确提出一个运用语句界线来校准文字和句子的实体线实体模型。他们的实体线实体模型与大家的规范实体线实体模型相仿,在第5节里可能具体描述。可是,这种方法并没有大伙儿的详尽实体线实体模型好,大伙儿的实体线实体模型另外还考虑到来临到图像中其他的模糊不清不清地域。

视觉效果实际效果难点答复

代指描述和VQA每天每日任务相关。十分是,当发言者问一个像“图像中那辆鲜红色色的车在哪儿儿儿?”的难点时,代指描述掌握便可以够变成一个VQA每天每日任务,系统软件手机软件也要返回一个限定界限。可是,这两个每天每日任务在基本基础理论上和实践活动主题活动上还是有区别的。代指描述是相关沟通交流沟通交流的,在这里里个难点提到话者要发现与观众们沟通交流沟通交流的最好方式,而VQA重要是集中化化在答复难点而其实不是考虑到到观众们想法上。另外,因为在VQA中难点一般对外开放对外开放式结尾,因而要想鉴定她们的回应基本和转换成相片标示一样艰辛,但鉴定限定界线的精准度是比较十分非常容易的。

3.数据信息信息内容组搭建

目前己知很大的代指描述数据信息信息内容集是ReferIt数据信息信息内容集,它包含19894张自然景色图像中130525种描述以及96654中不一样总体目标。本次的数据信息信息内容集是在ImageCLEF IAPR数据信息信息内容集上的分割与标志扩展。可是这一数据信息信息内容集也存在两个缺点,一个是在这其中图像有时候候候只包含某独特种类下的总体目标,这允许说者可让用没有糊不清的精准描述,此外一个就是ImageCLEF数据信息信息内容集重要集中化化在“整体”而其实不是“自己”上。

在原文中中,大伙儿运用了和参考参照参考文献[27]相仿的方法,但是大伙儿是在MSCOCO数据信息信息内容集的基本努力行搭建的。它包含超过30000幅照片,之际时级别拥有80种分割总体目标。

针对每一个图像,大伙儿对它不是是存在2到4种的总体目标类型进行选择,对她们的限定界线不是是占图像地域的5%进行精确测量,结果在26711幅图象选定择了54822个物品。大伙儿将总体目标选择每天每日任务发布到amazon的Mechanical Turk中,接着另外发布一个每天每日任务让不一样的人来选择这一物品代指的是什么。大伙儿将这类描述转换成和验证每天每日任务在Mechanical Turk迭代更新升级实验了三次。依据这种方式,大伙儿选择了104560种叙述。每个物品平均值有1.91中叙述方式,每个图像平均值有3.91种叙述方式,结果如图所示所显示2所显示信息。大伙儿将这一可以用于可视性性化和鉴定的数据信息信息内容集和专用型专用工具集发布在github上,详尽:github/ mjhucla/Google_Refexp_toolbox


图2

当我们们们在收集数据信息信息内容时,大伙儿把握到Tamara Berg腹腔将她的ReferIt手机上手机游戏参考参照参考文献[27]应用到MSCOCO数据信息信息内容集上,从19994幅照片转站化变成针对50000种总体目标的叙述。她将她的数据信息信息内容共享资源给了大伙儿,在原文中中两个数据信息信息内容集的结果都呈现出来了。大伙儿对二种数据信息信息内容集进行了可视性性化比较,详细结果见图3。


图3

4.每天每日任务

在这里里节中,大伙儿将探讨大伙儿是如何在高級范围解决描述和转换成这两个重要难点的。大伙儿将在下节详细描述实体线实体模型重要点和训练整个过程。

4.1转换成

进行描述转换成每天每日任务时,给予了系统软件手机软件一整幅照片和一个整体总体目标总体目标(依据一个界线盒具体化),并且尽量转换成一个整体总体目标总体目标相关的描述。公布来说,每天每日任务是计算argmaxSp(SR,I),在这其中S是句子,R是地域,I是图像。

由于运用RNNs寓意着p(S|R,I),大伙儿可以一次性转换成一个S词,直到导致一个结束句子的标识。虽然计算全部最有可能的句子十分艰辛,但大伙儿可以依据束查找大概的找寻最有可能的句子(运用束的规格型号为3)。除开输入是一个地域而其实不是整幅图象之外,它和标准的图像查找每天每日任务十分的相近。很大的不一样的地区是,大伙儿将训练实体线实体模型导致,能差别输入地域和别的候选地域的描述。

4.2掌握

进行描述掌握每天每日任务时,大伙儿给予了系统软件手机软件一整幅图象和相关的描述,并且要求依据返回界线盒的方式,精确精准定位图像中谈起的总体目标。有一种方法是得到相关的描述(和图像)训练实体线实体模型,让它马上预测分析剖析界线盒的位置。但是,大伙儿在大学毕业毕业论文选中用了一个更简单,更基本的方法。其与众不同的地区在于,大伙儿最开始转换成一组地域明显强烈推荐的C,随后求系统软件手机软件按概率将其排名。接着大伙儿运用R*= argmaxRCp(R|S,I)选择地域,根据贝叶斯规律性,大伙儿得到


假设一个统一的p(R|I)2,大伙儿可以依据R*= argmaxRCp(R|S,I)选择地域。这一方法和[29,40]中的图像搜索方法十归类似,在这其中地域扮演了图像的角色人物角色。

检验时,大伙儿运用[10]中的“混和箱”方法导致总体目标明显强烈推荐。从而导致了很多类不可以分的界线盒es。然后大伙儿把每个小小盒子分类到一个80MS-COCO的种类中,并扔下这种低考试成绩的一一部分。大伙儿运用本人个人所得到的分类盒作为建议集C,有利于保证较大特点,同时大伙儿也对图像中的所有总体目标运用了真实的界线盒。在二种情况下,在排名明显强烈推荐时,大伙儿都没有对总体目标运用十分的标志。

5.规范方法

在该一一部分大伙儿详尽详细介绍了计算p(S|R,I)的规范方法。


图16.详尽详细介绍规范实体线实体模型的结构, bos 和 eos 各有寓意着句子刚开始和结尾。

5.1实体线实体模型结构

大伙儿的规范实体线实体模型相仿于别的的图像捕捉实体线实体模型,运用CNN说明图像,接着用LSTM导致文本。其重要区别在于,大伙儿依据一个兴趣爱好喜好地域的CNN,提高CNN对于所有图像(除开位置信息内容內容以外)的寓意着性。大伙儿实体线实体模型的规范结构见图16。

进一步说,大伙儿运用VGGNet作为CNN,在ImageNet数据信息信息内容集进行预训练。VGGNet最后的1000维层用以寓意着总体目标的地域。此外,大伙儿统计分析剖析所有图像的特性,作为状况。实验中,大伙儿只优调CNN最后一层的权重值值,并且固定不动没动了别的的层。便于将地域输入CNN,大伙儿保持了固定不动没动地域的纵横比,并在224x224的鉴别率中对其进行精准精确测量,接着用平均值清楚度添充边缘(这类似于[17]中的地域曲解方法)。这为大伙儿提供了一个该区域域域和图像2000维的特性室内空间空间向量。

大伙儿运用了下列的五维室内空间空间向量序号相关的位置和地域规格:


在这其中(xtl,ytl)和(xbr,ybr)各有是总体目标界线盒左上边和右正下方的坐标,H和W各有是图像的长和宽,Sbbox和simage各有是界线盒规格和图像。

结合地域,图像和位置/规格特性,大伙儿得到了一个2005维的室内空间空间向量,并将它作为LSTM编号编码序列实体线实体模型的输入,关键主要参数化式P(SR,I)。大伙儿的LSTM中,运用了一个1024维的字嵌入房间内室内空间,和一个1024维的隐藏状况室内空间空间向量。大伙儿采用了最一般普遍的LSTM结构,并且在每个时间点都将视觉效果实际效果寓意着作为LSTM的输入。

5.2很大值可能性训练

大伙儿的训练数据信息信息内容(在第三节中进行了讨论)由观察到的(I,R,S)三个因素组成,在这其中I是图像,R寓意着I中的一个地域,S寓意着R的相关说明。便于训练规范实体线实体模型,大伙儿至少化相关说明,对于寓意着地域和图像的低落伤害:


在这其中θ是RNN和CNN的关键主要参数,并总计了训练集中化化的N个例子。大伙儿运用了一般随意梯度减少,其大量量规格为16的,初始学习培训学习培训率为0.01——每50000次迭代更新升级次数下降。梯度规范被修改到很大标值10的范围。便于抵挡过量拟合,大伙儿对于字嵌入和LSTM输出层,都规范0.5为运用的减少率。


图5刻画如何训练所有实体线实体模型运用softmax loss功效。R(翠绿色色)就整体总体目标地域,R·不是恰当地域。LSTM和CNNs的权重值值由R和R·共享资源資源。(色调最好的视野)

6.详尽的方法

规范方法是训练实体线实体模型盈利利润最大化p(S|R,I),因为它是最常常见CNN-LSMT图像捕获实体线实体模型的基本。可是,仅依据整体总体目标总体目标马上导致说明的方法(在[19]中被称之为反射面面科学研究科学研究者法)存在缺陷,它可能无法导致有鉴别力的句子。例如,图16中:便于依据翠绿色色界线盒导致一个寓意着女孩特点的描述,转换成词“粉红”在它将该女孩和右边女孩差别时起了作用。最后,在后文章内容內容中,大伙儿确立明确提出了一个模拟仿真仿真模拟训练总体目标。

6.1鉴别(MMI)学习培训学习培训

5.2节中确立明确提出了一种方法训练实体线实体模型运用很大值可能性。因而大伙儿现如今得到相对性的整体总体目标涵数:


 

大伙儿接下来称之为softmax loss,注意到这和盈利利润最大化S和R的互相信息内容內容一样(假设统一的p(R)),因此


因而该方法一样被称之为盈利利润最大化一样信息内容內容(MMI)训练。

MMI之后重要的分辨力是,大伙儿要想了解观众们不是是会明显的断开句子。大伙儿实验实体线实体模型,看它不是是考虑到到到整体总体目标总体目标的代指描述,也会被在同一幅图象中的总体目标相近的导致。因此得到了一个训练模版(I,R,S),训练实体线实体模型输出高的p(S|R,I),同时无论R·不是是非常于R,都重要训练一个低的p(S|R·,I)。注意式2中对比很大值可能性整体总体目标涵数,没有考虑到到相片中别的的总体目标情况下,马上盈利利润最大化p(S|R)。

好多个方法可以选择C的明显强烈推荐范围。大伙儿可让用所有的适当总体目标界线盒,但这会在视觉效果实际效果上十分非常容易差别的整体总体目标总体目标上耗费时间(大伙儿称之为“easy ground truth negatives”)。此外一个选择是,选择和整体总体目标总体目标同一个级别的适当总体目标界线盒。那般都更十分非常容易弄混。最后,大伙儿可让用与在检验中一样的明显强烈推荐混和盒,并且选择一个有一样预测分析剖析总体目标标志的混和盒作为R。在8.2中,大伙儿会将这几种不一样的方法进行对比。在每一步运用级別5随意的底片 ,那般所有得到相片的数据信息信息内容全是适合GPU运作运行内存。

便于提高式3,大伙儿尽量复制每一个R·∈ C(In)地域的互连网(包括适当范围Rn),如图所示所显示5所显示信息。结果MIMI训练实体线实体模型和ML训练实体线实体模型有着一样数量的关键主要参数,而且在5.2节广州中山大学家运用了一样的提高和调整方法。因此唯一的不一样点是整体总体目标涵数。

由于计算的原因,对比整体总体目标地域R和单一的随意负面信息信息内容地域R·,运用下列的很大赢利危害更加方便快捷:


大伙儿称之为max-margin MMI(或者MMI-MM)品牌形象化的捕捉赶到和softmax counterpart (MMI-SoftMax)相近的结果,如8.2节所显示信息,融合具体也导致相仿的结果。可是,由于很大整体总体目标仅仅对比了两个地域,因而互连网尽量复制两次。因此,每一个句子运用越来越越低的运作运行内存,每个至少批允许很多的句子加载,反倒有益于于安稳梯度。

7.半管控训练

收集相关的描述数据信息信息内容恩恩怨怨常的价钱价格昂贵。在该一一部分大伙儿讨论了运用无描述界线盒的方法,半管控训练所有实体线实体模型,因此这也是难以沒有的。大伙儿感觉,在甚至没有附加描述的情况下,一个界线盒(地域)R如此合理的原因是,在MMI训练中,倘若它导致了一个它无法自编编解码成适当的原始R(MMI激励p(S|R,I)变的高些于p(S|R,I))的句子时,它允许大伙儿本身设定实体线实体模型。


图6,描述了半管控训练整个过程,重要点见大学毕业毕业论文。

在这里里种半管控设置下,大伙儿考虑到来到一个小的,有着界线盒以及描述的图像数据信息信息内容集Dbb+txt,

和一个有着更大的图像和界线盒,但没有描述的数据信息信息内容集Dbb。运用Dbb+txt训练实体线实体模型(大伙儿称之为实体线实体模型G)计算p(S|R,I)。接着应用实体线实体模型G,导致一系列产品商品相关Dbb中界线盒的

描述(大伙儿称这一新的数据信息信息内容集之为Dbb+auto)。接着秉着恰当正确引导学习培训学习培训的精神实质本质,在Dbb+txt和Dbb+auto的并集上再度训练G,

上述的方法缺陷在于,实际上并不是所有导致的句子都是靠谱赖的,这可能会“自然环境环境污染”训练集。便于解决这一难点,大伙儿在Dbb+txt上训练了一个整体不一样的实体线实体模型(大伙儿称之为实体线实体模型C),并且用它管理决策,在Dbb+auto数据信息信息内容集导致的句子中,什么叫十分非常值得信赖的。十分的地区在于,大伙儿应用整体中的每一个实体线实体模型,去编编解码Dbb+auto中的每一个句子,并且唯一当每个实体线实体模型找寻了一样适当的总体目标时,该句子才会被储存。大伙儿称结果为验证数据信息信息内容集Dfiltered。这确保了导致的相关说明能够被许多不一样类型的实体线实体模型掌握,从而很大水平地减少过拟合。说明见图6.在本实中,大伙儿呈现了大伙儿的实体线实体模型从半管控训练广州市中山市高校大获利。

8.实验

大伙儿在第三节谈及的二种COCO相关说明数据信息信息内容集中化化进行了实验:G-Ref数据信息信息内容集和UNC-Ref数据信息信息内容集。大伙儿随意选择了5000个总体目标作为验证集,5000个总体目标作为检验集,而剩下的总体目标则作为训练集(44,822GRef和4000UNC-Ref)。

8.1鉴定指标值值

在该一一部分,大伙儿详尽叙述了如何鉴定掌握和转换成每天每日任务特点。


表1.大伙儿精准精确测量了UNC-。每一行都是一种不一样的训练方法。

列显示信息信息内容了ground truth 或者multibox proposals,和ground truth(大家)或者导致描述的特点。因此有GT描述的列鉴定了掌握系统软件手机软件的特点,并且有GEN描述的列鉴定(端对端)了导致系统软件手机软件的特点。

掌握每天每日任务十分非常容易鉴定:大伙儿简单的计算了真实和因此界线盒正中间协作比(IoU)率的交点。倘若IoU超过了0.5,大伙儿称该检测为一个适当的背面,要不然称之为歪斜确的负面信息信息内容()。接着计算所有图像的平均值分。

转换成每天每日任务的则要艰辛很多—大伙儿可以用一样的方法鉴定转换成描述,即把它作为图像描述,运用如CIDEr,BLEU和METEOR的指标值值进行特点鉴定。可是这种指标值值可能越来越越不可以信任,并且不能以描述词意。相反,如大部分分分最近图像捕捉赛事中常会作的一样,大伙儿借助大家鉴定。十分的是,当确立明确提出一个很很感兴趣的图像和总体目标时,大伙儿要求了 Amazon Mechanical Turk (AMT) 工作中中工作中工作人员,将自动式转换成总体目标描述和人类转换成总体目标描述对比。AMT工作中中工作中工作人员实际上不上解哪一个是大家转换成的句子,哪一个是电脑上上转换成的句子(大伙儿甚至没有告之他们一些句子可能是电脑上上转换成有利于减少偏见)。大伙儿简单的问及们哪一个句子描述的更强,或者他们不是是一样好。

提高非运营经营规模性的大家鉴定,大伙儿依据下列方法鉴定大伙儿所有系统软件手机软件,即传输自动式转换成的描述来到解系统软件手机软件中,并验证他们是本来很很感兴趣总体目标适当相符合的编编解码。这端对端的的检验就自动式的,并且比标准的图像捕捉指标值值更可靠。

8.2对比不一样的训练方法

此一一部分,大伙儿对比了不一样的训练实体线实体模型方法:很大值可能性训练(精准方法);简单的ground truth负面信息信息内容很大界限损(“MMIMM-easy-GT-neg”);艰辛的ground truth很大界限危害(“MMI-MM-hard-GT-neg”):混和盒负面信息信息内容很大界限危害(“MMI-MM-multiboxneg”);很大soft或者MMI危害(“MMI-SoftMax”)。在检验时,每一种方法,大伙儿都考虑到到运用 ground truth或者multibox proposals。

 


表2:方法标准线(ML)的高精密度和依据各种各样各种各样数据信息信息内容集的整体总体目标涵数

此外,大伙儿把客观性客观事实描述和转换成描述都考虑到到进去。

在此实验中,大伙儿把UNC-Ref做为是一个检验集,对各种各样各种各样各种各样各种各样的MMI提升优化算法选择和超关键主要参数设置进行检验。唯一在确立提升优化算法选择和超关键主要参数设计方案计划方案之后,大伙儿才会对G-Ref数据信息信息内容集进行试验。这会减少超关键主要参数和每一个与众不同数据信息信息内容的“过量重合”。结果已在表1中进行总结,所做总结下列:

方法在转换成描述中关键主要表现更强,可能是因为转换成描述比客观性客观事实描述更短(5.99个英文英语单词VS 8.43个英文英语单词),或是因为转换成和掌握方法共享资源資源一些一样的关键主要参数,因而就算转换成器歪斜确地运用了英文英语单词(比如,将“狗”描述成“猫”),但掌握系统软件手机软件依然能适当编编解码。品牌形象化来说,方法运用本身的语言时能更强地进行“沟通交流沟通交流”。

所有Full model的变体(运用MMI训练时)比运用很大似然法进行训练的标准线关键主要表现的更强。

MMI训练的softmax版本号号和边缘盈利利润最大化方法相近,但关键主要表现更差。 

MMI训练在难例中的得到要比在简单例的得到的很多。

在运用真实建议时,能帮助实例训练;但在运用多边合作协作框建议时(大伙儿融合具体采用的),最好还是运用多边合作协作框的实例。

依据以上的结果,大伙儿在剩余的文章内容內容一一部分会将带有难实例的边缘盈利利润最大化训练作为Full Model。


表3.Full Model在少量标出数据信息信息内容集上的训练关键主要表现与在许多自动式标出数据信息信息内容集上的训练关键主要表现比较。

8.3 完全管控方法

在本一一部分,大伙儿依据G-Ref和UNC-Ref检验和验证,比照准线(很大似然性)和很大边缘化MMI方法进行比较。和前文一样,大伙儿会考虑到到真实图像及检验时的检验图像,和真实图像(人力资源)及转换成描述(自动式)。结果在表2。从报表中从而由此可见,在所有情况下,MMI的训练关键主要表现要比ML更强。

除上述的端至节点评,大伙儿会对转换成句子质量进行人力资源辨别。大伙儿会从检验集中化化随意选择1000个物品并呈现给Amazon Mechanical Turk的工作中中工作中工作人员。标准线和full model中的描述到达或是好过大家描述各有占据率15.9%和20.4%。这显示信息信息内容MMI训练具体实际效果比ML更强。

8.4半管控的训练

为进行半管控试验,大伙儿把UNC-Ref和G-Ref的数据信息信息内容集分成两个有一样整体总体目标数的一一部分。第一个一一部分(代指为Dbb+txt)具有整体总体目标描述注释,第二一一部分(代指为Dbb)仅仅唯一外框。表3显示信息信息内容的是半管控训练依据大伙儿的数据信息信息内容的确认集和UNC-Ref上的检验结果。从报表中从而由此可见,运用Dbb+txt和Dbb比单独运用Dbb+txt的结果好点。

8.5 判断结果


图7运用详尽方法(短画线之上)和标准线方法(短画线当中)转换成的描述例证。

图7呈现了详尽转换成方法(在短画线之上)和标准线转换成方法(在短画线当中)在检验相片上的判断关键主要表现。大伙儿由详尽方法转换成的描述要比标准线方法转换成的描述更长,更能辨别。例如,在第二幅相片中,标准线方法把在这其中一只猫描述为“躺在床上的猫”,这一描述不能以让听者辨别出被描述的猫。详尽方法把同一只猫描述为“躺在左边的猫”,那般的描述就很清楚。


图8运用详尽方法进行描述辨别的结果。第一栏和第二栏各有显示信息信息内容的是原始图像和多边合作协作框建议。第三到底6栏显示信息信息内容的是当输入图上随便整体总体目标的描述时的方法辨别结果。鲜红色色外框代指的是由方法预测分析剖析的最有可能的整体总体目标,深蓝色色外框代指的是可能整体总体目标的边缘。这类描述可能会是数据信息信息内容集中化化的原来描述(第三栏),或是与众不同描述(第四到第六栏)。

图8显示信息信息内容详尽方法依据检验集的判断结果。第一和第二栏各有显示信息信息内容的是原始图像和多边合作协作框建议。最后4栏显示信息信息内容的是方法根据输入选择的外框(所有的句子都是为探索方法的掌握工作中工作能力)。为更强的描述这类结果,大伙儿在方法的范围之内的外框用深蓝色色外框说明。这类外框被看做是“候选外框”,但是这类外框的考试成绩不如选中的考试成绩高。

整体来讲,大伙儿可以看来到解方法在从两三个语句到更长的描述上面关键主要表现十分好。它能适当处理代指描述中独立英文英语单词的变更(例如,“穿灰灰黑色衣服裤子牛仔裤子的男孩子”和“穿鲜红色色衣服裤子牛仔裤子的男孩子”)。它还可以适当辨别代指描述,例如,“载着女士的一匹黑马”,“女士”在另外一个句子也出现过“女士骑在黑马上”——但是要注意这种嵌入的英文英语单词可能会辨别不了功。例如,在第四栏中,输入“穿乳乳白色衣服裤子牛仔裤子的女士”但却选择了“穿灰灰黑色衣服裤子牛仔裤子的女士”;它是因为大伙儿的方法不能以处理整体总体目标未出现的情况,但是做了合理的猜测。一样,在第5栏,可能是因为控制器不大以至于没法检测,或是欠缺相关训练数据信息信息内容,输入“女士手里的控制器”但却选择了女士,橘色水杯和控制器。

9.总结

整体来讲,大伙儿向阅读文章者呈现了两个简单看法。第一,代指描述的科学研究科学研究已进行了数十年,但依据最近的图像描述时尚潮流时尚潮流,该项科学研究科学研究又暴发升级的风采。图像描述本身无法评价,代指描述有一个客观性性的关键主要表现指标值值,并且要求语言和图像的词意相一致。依据数据信息信息内容集检验的获得取得成功比依据标准图像描述的具体实际意义更大。

第二,为获得取得成功转换成描述,大伙儿务必倾听者。试验显示信息信息内容,实体模型一个倾听者能适当编编解码转换成的描述,那般的方法比运用只依据图像特性进行输出的方法关键主要表现好点。希望除开大伙儿的数据信息信息内容集,这类观察能促进视觉效果实际效果和语言协作方法的建立。

via 

雷锋网原创文章内容內容,没承受权禁止转截。详尽信息内容见。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
无法在这个位置找到: ajaxfeedback.htm
栏目列表
推荐内容


扫描二维码分享到微信

在线咨询
联系电话

400-888-8866