【学术报告】多模态视觉结构学习

发布人：黄珏发布时间：2024-07-19 动态浏览次数:386

题目：多模态视觉结构学习

个人简介：浙江大学求是特聘教授，IET Fellow，IEEE Senior Member，国家杰青，国家青年特聘专家，主要从事人工智能领域研究，提出了多因子耦合模型学习新理论，探索了知识引导的模型结构设计与搜索新方法，开拓了复杂异构图像结构语义理解的新技术。担任国际权威期刊的编委和顶级会议的Area Chair，获得2021 年中国图象图形学会自然科学奖二等奖，2021 年中国电子学会科技进步奖一等奖，2021 年中国产学研合作促进会产学研合作创新与促进奖，2022 年世界互联网领先科技成果，2022 年教育部高等学校科学研究优秀成果奖科学技术进步奖一等奖，2023 年中国发明协会发明创业奖创新奖一等奖，2023年陆增镛CAD&CG高科技奖一等奖，两项中国北京市自然科学技术奖（包括一等奖和二等奖），以及一项中国专利优秀奖。荣获四项最佳学术论文奖、腾讯好专利、华为优秀合作成果奖和火花价值奖。成果应用于华为、阿里、海康等企业。

摘要：互联网和物联网时代催生了海量多模态大数据，从这些海量数据中有效提取知识迫切需要各种人工智能的技术和手段。因此，如何进行人工智能驱动的多模态计算已经成为当今知识经济时代亟待解决的核心技术问题。本报告主要围绕数据驱动的人工智能学习方法，进行大规模图像/视频数据的视觉特征学习，从目标视觉感知特性、视觉特征表达、深度学习器构建机制、高层语义理解等多维度视角进行了深入剖析，并引入了大规模多模态特征学习所涉及的主要研究问题和技术方法。然后系统地回顾了多模态特征表达和学习领域的不同发展阶段，介绍了近年来我们利用特征学习进行视觉语义分析和理解所做的一系列代表性的研究工作及其实际应用。报告的最后将和大家一起探讨一下涉及多模态特征学习所面临的一些开放性问题和难题。