新闻资讯

「广州侦探所」「CV学霸开讲」卷积神经网络压缩、多模态的语义分析研究

【新智元导读】2017年度百度奖学金10位候选人中，人大的陈师哲和清华的王云鹤所学专业主要集中在计算机视觉，本文将具体展现CV学子的求学历程和探究感悟，并独家分享她们跟自己的学术大牛导师的相处轶事。

陈师哲同学在“多模态情感识别”和“视频内容自然语言表述”研究方面获得了突出的研究成果，在领域顶尖会议和杂志发表论文十余篇，并在多项高水平学术竞赛中获得出色成绩，表现出很强的科研素养、实践动手能力跟科研潜力。

王云鹤在神经网络加速压缩方面做了深入探究。他强调运用离散余弦变换将卷积神经网络预测过程中的前馈计算从空间域转换为频率域，在准确度只有轻微增加的前提下，预测速度大幅度提升、模型消耗的储存大幅度降低。该办法极具创新性和实用性。

陈师哲：人民大学

人大信息学院直博三年级的教师，导师是金琴老师。我的研究方向是多媒体计算，通过多模态的语境分析推动更加和谐自然的人机交互，主要分为两个方面：

1）客观语义探讨：根据视频内容生成自然语言表述（video captioning）「网络情感」，客观地理解多模态视频中的物体/动作/关系等等;

2）情感语义探讨：多模态情感识别和理解（multimodal affective computing），通过不同模态预测人物的心灵状态并且更好地与人类交互。

阶段性研究成果介绍：

1）视频内容的自然语言表述生成（video captioning）

视频内容的自然语言表述生成（video captioning）的研究目标是为视频内容生成自然语言表述，这是视频语义内容理解的最高目标之一。这一研究带有相当广泛的应用价值，例如帮助视力有障碍的人群理解认识周围的全球；更好地对互联网视频进行索引、存储、分析跟推荐，使得客户无法更好地浏览、选择、搜索视频内容之类。

目前图片内容表述的自动生成（image captioning）已经获得了相当明显的进步，但是跟imagecaptioning相比，video captioning这一研究更为挑战，主要的难点包括：

A. 多模态：视频包括多种模态信息，例如听觉/声音/文本等等。为全面准确理解视频内容，我们提取了多模态特征，提出多模态融合模型有效运用整合多模态。

B. 时序性：物体或事件的时间发展顺序影响着对视频内容的理解。因此，我们引入了时序模型和时序注意力机制对视频的时序特性进行模型。

C. 主题广：视频的主题跨度相当广泛，不同主题下，多模态融合策略和语言表述空间有较大差异。因此，我们强调隐含主题指导模型，自动挖掘视频中的隐含主题，利用这种主题指导生成最精确和细节的表述。

我们的视频内容表述模型在2016-2017年连续2年获得了在国际多媒体顶级年会ACM Multimedia上由微软组织的视频内容描述挑战赛MSR-VTT的亚军，和2017年NISTTRECVID上举行的国际视频内容描述冠军。

2）多模态情感识别（multimodal emotion recognition）

理解人类的心灵是建立自然的人机交互比较重要的一步。这一研究在服务/教育/娱乐/医业等不同产业都有着非常广泛的应用，例如借助对客户的自动情感识别改善自动服务中对客户的交互模式等等。

我们的探究主要致力于情感识别的两大基本建模：离散情感识别和维度情感识别。主要的科技难点包括：

A. 情感特征形成：人的情感是借助不同的模态信息反映的，包括脸部表情/肢体动作/语音声调/说话内容/生理信号等等。因此，我们基于信号处理跟深度学习等方式从不同的模态中提取情感区分力明显的情感特性。

B. 多模态情感特性整合：不同模态特征在不同场合情形下的可信度和情感表现力是不同的。因此，我们强调了条件注意力模型动态地进行多模态情感特性整合。

新闻中心

联系我们

广州及时雨私家侦探(广州本地私家侦探公司)

微信：185-2064-4544

电话：185-2064-4544

地址：广州市天河区