12月1日下午,应数学与信息科学学院邀请,复旦大学魏轲教授为学院师生作题为“Projected Policy Gradient Converges in a Finite Number of Iterations”的学术报告,学院相关专业教师和研究生参加了此次报告。
魏轲教授首先简要介绍强化学习(RL),它是一种用于解决顺序决策问题的机器学习技术,在许多领域都取得了巨大的成功。总体而言,RL算法有两种典型类别:基于价值的方法和策略优化。然后,将特别关注策略优化,在最基本的预测梯度方法收敛方面有所突破。
报告结束后,魏轲教授就与会师生提出的相关问题进行了详细的解答,并展开了深入的讨论与交流,现场气氛热烈,学院师生表示受益匪浅。
专家简介:
魏轲,教授,博士生导师。2014年获得牛津大学博士学位,之后在香港科技大学(2014-2015)和加州大学戴维斯分校(2015-2017)从事博士后工作。研究成果已发表在国际重要的应用数学和工程期刊上,包括SIAM系列、IEEE系列、ACHA、MP、JMLR、IP等。先后入选上海市扬帆计划、上海高校特聘教授(东方学者)、国家级青年人才计划等。主要研究方向:信号与数据处理,强化学习算法与理论,数值优化。
(数学与信息科学学院李海锋 魏晓君)