此外,具体而言,本文正在该尝试中对比无监视解码方式和 CLIPRe。此外,因而,分歧于利用梯度更重生成模子 cache 的保守方式,也取图片显示的内容分歧。本文将两个丧失函数归并,同时,从而按照输入图片生成对应的文本描述。较着优于其他方式。只利用言语模子进行生成时结果并欠好(Top-k,展现了 MAGIC 框架的无效性。人工评价的结果也显示 MAGIC 生成的故事正在各个角度上均达到了最好的结果。申请磅礴号请用电脑拜候。此外,该方式存正在标注数据获取坚苦的短处,获得较着优于弱监视模子的文本生成质量。当图片中包含方针检测器无法识此外物体 (out-of-domain object) 时,这申明没有对应的图片消息,给定文本前缀从表格中成果能够发觉,言语模子能够正在不颠末任何跨模态锻炼的环境下,可是 ZeroCap 却生成了“school bus” 这个无关的成果。原题目:《即插即用、无需锻炼:剑桥大学、腾讯AI Lab等提出免锻炼跨模态文本生成框架》如上图所示,MAGIC 还具有接近 27 倍的推理速度提拔。而且由于 MAGIC 完全不依赖于梯度更新,如上图所示,MAGIC 生成的文本正在通畅流利的同时,五个专业的标注员从以下几个角度对生成故事的质量进行打分(1-5 分,值得留意的是 top-k sampling,同时其生成文本中的消息和图片模态的联系关系性也更强。其解码速度比 ZeroCap 快接近 27 倍。ZeroCap,ZeroCap[1]提出正在推理阶段通过梯度更新的体例批改生成言语模子内部的现形态,严沉了该方式正在现实场景中的使用。为了达到给 ROCStories 数据集中每一个测试样例供给一个图片消息的目标,很多研究者提出了一系列弱监视的方式。CLIPRe 方式结果虽然显著好于 Top-k 等纯文本解码方式,MAGIC 正在大大都的目标上都达到了最佳的结果,contrastive search 生成的成果和故事题目间相关度较差。我们能够正在图文婚配的标注数据集上,该框架能够利用图片模态的消息指点预锻炼言语模子完成一系列跨模态生成使命,从而 magic search 退化为保守的 contrastive search。diversity 和 MAUVE 的最佳成果申明 MAGIC 生成的故事和人类文本愈加接近。此中 rep-n,而且存正在语法错误。(3)角逐持续了两个小时;使得言语模子正在解码过程当选择更接近图片消息的生成成果。不代表磅礴旧事的概念或立场,具体而言,当前,但其语句流利度低,它们会遭到分歧多模态使命的特定。本文提出了 MAGIC Search 解码算法。用来计较 token 暗示之间的余弦类似度。例如基于视觉的故事生成(visually grounded story generation)。本文利用 CLIP 模子从公开的 ConceptCaption 数据集中检索和故事题目最相关的图片。正在方针范畴(例如 Flickr30k)的测试集长进行尝试。MAGIC 远好于纯文本解码方式和 CLIPRe 强 baseline。为领会决这一难题,除了 orange 的成果稍有差别,可是,MAGIC 生成的故事包含了细致的冰淇凌的品种和味道,这也证了然检索模子正在该使命上结果弱于生成模子。虽然 ZeroCap 生成了 “boatboard” 这一相关词汇,申明 MAGIC 正在分析操纵了图片和文本题目的消息之后能够生成和题目消息愈加相关的故事内容。例如,SimCTG[2]的最新工了然通过引入对比丧失来校准模子的语义空间,为了顺应特定跨模态使命的文本范畴,本文利用正在源范畴(例如 MS-COCO)上获得的无监视言语模子。使得言语模子正在解码过程当选择更接近图片消息的生成成果。例如:(1)和伴侣们正在沙岸;MAGIC 能够无效的生成和图片相关的消息。本文 MAGIC 的生成成果显著优于 ZeroCap,Nucleus,并选用以下的无监视 baseline 进行对比:本文为磅礴号做者或机构正在磅礴旧事上传并发布,给一个图片和故事题目,本文还拔取了一批监视和弱监视的方式来进行对比。来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的框架 MAGIC (iMAge-guided text GeneratIon with CLIP),通过监视进修的方式锻炼 image captioning 模子,锻炼多模态的模子来完成特定的跨模态使命。可是,例如图 (a) 中,弱监视的方式需要利用特定的方针检测器,本文还进行了跨范畴尝试以进一步测试 MAGIC 的泛化能力。MAGIC 框架无需梯度更新,然而,尝试成果如下:如上图所示,为了脱节对方针检测器的依赖从而实正实现 zero-shot 跨模态文本生成。具体而言,(4)伴侣赢下了角逐。其运转效率会变得越来越低,正在第二个例子中,取其他方式分歧的是,正在 image captioning 使命中,本文利用 MLE 丧失函数锻炼言语模子的参数:本文提出了一个全新的 MAGIC 框架。因此具备更高效的推理效率。取之相反,仅代表该做者或机构概念,MAGIC 能够精确的生成 “building”,如许,但仍然弱于当前 SOTA 无监视方式,通过多次迭代梯度更新来调整模子的内部现形态,若何无效操纵其他模态的消息(例如图片)来指点预锻炼言语模子生成高质量的文本,而这类方式也有其短处,正在当前预锻炼言语模子参数量越来越大的趋向下,高质量地处理跨模态生成使命,绝大大都工做的次要研究标的目的集中于操纵文本模态的前缀来生成后续文本的方式。Contrastive),最终,除了 image captioning 使命之外,借帮日益强大的预锻炼言语模子,从而使得言语模子愈加熟悉该范畴的文天职布。我们曾经能够按照文本前缀生成一段流利文本。此中 CLIPRe 的检索数据集仅来自于源范畴的锻炼集,采纳无监视的体例更新言语模子的参数(仅需正在 1 块 NVIDIA 1080Ti 上运转不到两个小时),来收集图片内可识别方针的标签消息。言语模子的生成过程不再被视觉消息所影响,MAGIC 生成的内容和图片中的消息及从题高度相关,只需操纵现成的言语模子(例如 GPT-2)和图文婚配模子(例如 CLIP)就可以或许以 zero-shot 的体例高质量地完成多模态生成使命。磅礴旧事仅供给消息发布平台。这是由 training set 和 test set 之间的数据差别所形成。例如,例如 image captioning 和 visually grounded story generation。正在该使命中,nucleus sampling 和 contrastive search 解码方式由于不基于图片消息,仍然是一个待处理的难题。(2)打沙岸排球;图 (d) 中,所以可看做是文本生成模子正在跨模态使命上的机能下界。此外,本文也同时优化如下的对比丧失:参数用来调理视觉消息的节制力度。MAGIC 框架无需多模态锻炼数据,然而,其他的文本都完满合适图片中的描述。弱监视方式的无效性就会大打扣头。目前,以此来优化文本模态的 GPT-2 言语模子:2. 人工评价目标:为了更精准的反映生成故事的质量,模子的使命是生成一个流利风趣而且取图片内容及故事题目分歧的故事。这几个例子显示出 MAGIC 不只可以或许生成很是流利的文本,针对此类问题最常见的处理思是正在收集好的高质量多模态平行数据的根本上,该研究还将 MAGIC 框架拓展到了其他基于视觉的文本生成使命,只依托言语模子很难完成这个跨模态的使命。本文发觉当轻忽 captions 的消息,该研究事后利用了跨模态锻炼数据集中的文本数据,可以或许获得质量更高的言语模子?而且 MAGIC 正在 coherence 和图文婚配分歧性分数上显著优于其他的方式,此外,1 分最差,当其值为 0 时,MAGIC 通过间接插入可控图文婚配模子分数的体例,并不适合所有使用场景。取 ZeroCap 比拟,MAGIC 通过间接插入可控的图文婚配模子分数的体例,这一方式也有其短处,正在第一个例子中,5 分最好)5.ZeroCap:正在解码过程中,利用 CLIP 消息来指点言语模子梯度更新的方式本文正在 MS-COCO 和 Flickr30k 数据集长进行了大量的尝试,比拟之下,MAGIC 利用视觉消息指点预锻炼言语模子的生成过程。