12月4日下午15:00,在计算机学院103会议室,我院第9期学术沙龙开讲,主题是“面向多模态数据的多分类与检索方法研究”,主讲人为王世勋博士。学院多名教师和相关方向的研究生共20余人参加。
随着网络技术的快速发展,包含有文本与图像等数据的多模态文档大规模地出现在人们的日常生活中。在信息的世界中,这些不同模态的数据资源可以无形地提升感觉器官接受知识的能力。尽管如此,由于多模态数据所呈现出的多样性、复杂性与随意性,人们很难从大量的数据资源中挖掘出对自己有用的信息。因此,为了更好地满足人们日益增长的各种需求,王博士从多分类与检索的角度研究了多模态数据的智能化管理技术。
在传统的多类Boosting方法中,多类损耗函数不一定具有猜测背离性,且多类弱学习器的结合被限制为线性加权和。为了获得高准确率的最终分类器,多类损耗函数应该具有多类边缘极大化、贝叶斯一致性与猜测背离性。除此之外,弱学习器的缺点可能会限制线性分类器的性能,然而它们的非线性结合可以提供较强的判别力。根据这两个观点,王博士设计了一个自适应的多类Boosting分类器,即SOHP-MCBoost算法。在每次迭代中,SOHP-MCBoot算法能够利用向量加法或Hadamard乘积来集成最优的多类弱学习器。这个自适应的过程可以产生弱学习的Hadamard乘积向量和,进而挖掘出数据集的隐藏结构。
对于一个多模态数据文档,模态内损耗可以捕获到每个模态数据的语义类信息,而模态间损耗可以挖掘到不同模态数据之间的语义相关性。传统的单模态Boosting方法没有考虑模态间损耗,这可能会增大相关数据的语义距离。为了共同地分析多模态数据,王博士设计了一个包含模态内损耗与模态间损耗的多模态多类Boosting框架。对于多维泛函空间内的优化问题,这个框架可以利用梯度下降的策略来轮流地更新每个模态的预测器。在获得最优预测器之后,Sigmoid函数可以把相应的拟边缘转换成语义概念类的后验概率。经过这样的操作过程,语义空间的跨模态检索能够妥善地保存模态内的语义信息与模态间的语义相关性。
不同模态的数据提供了互补的信息,它们的相互作用可以帮助人们在高层次上更好地理解多模态数据文档。在跨模态检索的过程中,王博士提出了一种包含两条一阶马尔可夫链的图模型(CCSSI),该模型不仅考虑了不同模态数据的相互作用,而且结合了内容相似性与语义相似性。一条链中的对象可以转移到该链的另一个对象,却不能转移到另一条链上的任意对象。当CCSSI模型检索一条链中的对象时,另一条链中的对象能够补充有用的信息。在某一个时间点,最相关对象的选择同时依赖于两条马尔可夫链的隐藏状态。给出一个查询对象,CCSSI模型可以输出一条目标对象的索引序列。
本系列学术沙龙始于2014年,目前已至第9期。学术沙龙的举行,扩展了年轻教师和研究生对各方向研究前沿的了解,对我院学术团队的凝练起到积极作用。
(计算机与信息工程学院 王世勋 袁培燕)