直播报名｜美团技术沙龙56期：美团计算机视觉与多媒体技术实践--ACM MM2020专场...优质

ajseo

作者

浙江省宁波市移动

69次浏览 | 2024-07-14 09:04:28 更新

来源：互联网

最佳经验

简要回答

主题一：混合注意力模型在视频摘要任务中的使用

王君岩｜悉尼新南威尔士大学博士生

现于悉尼新南威尔士大学博士在读，曾在美团视觉智能中心实习。科研方向是视频理解与医疗影像处理，研究兴趣是图网络与元学习。

内容简介

本工作以自注意力网络为基础结构，通过二次辅助查询特征与混合注意力分布的方式提出混合注意力层，并采用“时间-空间”双通道的特征提取方式，同时使用单视频元学习的训练策略，得到我们最终的双通道混合注意力网络，使其在小数据库下能更好的解决SoftMax瓶颈的问题，并获得更好的摘要提取能力。

主题二：基于堆叠式全局-局部注意力网络的大规模食品识别技术

王致岭｜美团科研课题实习生

中国科学院大学计算机技术硕士在读，目前在AI平台视觉智能中心实习，主要研究方向为菜品图像细粒度识别。

内容简介

报告介绍论文提出的菜品数据集ISIA Food500（500个类别和399,726个图像），该数据集在类别数和图片量方面都超过了现有的基准数据集。此外会介绍我们最新的菜品图像识别网络（SGLANet），该网络联合学习菜品图像的整体和局部视觉特征，在多个菜品基准数据集达到领先水平。

主题三：对话任务中的“语言-视觉”信息融合研究

徐子彭｜北京邮电大学硕士研究生

北京邮电大学智能科学与技术专业硕士研究生，研究方向为视觉对话，研究兴趣为对话、视觉-语言。

内容简介

在这篇工作中，我们强调了“回答”在目标导向视觉对话中的作用，提出了一种响应驱动的视觉状态估计器用于融合视觉对话中的对话历史信息和图片信息，其中的聚焦注意力机制有效强化响应信息，条件视觉信息融合机制用于自适应选择全局和差异信息。该估计器不仅可以用于生成问题，还可以用于目标猜测。在视觉对话的国际公开数据集GuessWhat?!上的实验结果表明，该模型在问题生成和目标猜测上都取得了当前的领先水平。

主题四：基于质量注意力生成对抗网络的不成对图像增强

倪张凯｜香港城市大学博士生

香港城市大学计算机科学系在读博士，研究方向是生成模型，无监督学习和图像/视频质量评价。在TIP、TCSVT、ACM MM等期刊/会议发表论文十余篇。

内容简介

图像美学质量增强是一项基础并具有很大挑战性的任务。现有基于监督学习的图像质量增强模型还存在一系列局限性，例如获取配对训练数据的成本高、耗时长，更加重要的是获取的高质量图片并不一定被每个用户认可。基于此，我们提出一种基于质量注意力的生成模型可以有效地从非成对数据中学习面向用户的图像美学质量增强模型。

主题五：基于范例句的视频描述生成

袁艺天｜清华大学博士生

清华大学在读博士生，研究方向为多媒体分析与理解，视频与文本的联合分析。

内容简介

在本工作中，我们提出了一项具有挑战性的任务，即基于范例句的句法可控制的视频描述生成问题。具体地，给定一段视频和任意一句语法正确的范例句，该任务旨在为视频生成一句自然语言描述，该句子不仅能够描述视频的语义内容，而且还要遵循给定范例句的句法形式。为了解决这种基于范例句的视频描述生成问题，我们提出了一种新颖的基于句法调制的视频描述生成器。该生成器将视频语义表示作为输入，并针对给定范例句的句法信息有条件地调制长短时记忆网络的门控向量，从而控制住用于单词预测的长短时记忆网络的隐层状态更新，最终实现句法定制的视频描述生成。大量的实验结果证明了我们的方法在生成句法可控且语义表达准确的视频描述方面的有效性。通过提供不同的范例句，我们的方法能够产生具有各种句法结构的视频描述句子，从而为增强视频描述的多样性提供了一个新颖而有效的角度。

|感谢

活动主办方：美团技术团队、美团科学技术协会

宣传合作方：活动行

|报名方式

《美团技术沙龙第56期：美团计算机视觉与多媒体技术实践--ACM MM 2020专场》报名请戳：报名。

| 重要提醒

添加小助手美美的微信（MTDPtech05），回复：1031，即可加入活动微信群，与讲师、同行零距离交流。

往期活动PPT及视频干货，请扫描下方的二维码，关注美团技术团队公众号（meituantech），然后通过【菜单栏】下的【技术沙龙】进行查看。

本文地址：https://www.cixiucn.com/hwlx/43221.html

阅读全文

发布于 2024-07-14 09:04:28

喜欢 0