智能计算研究院“Optimization for LLM/Robotics/Quantum and more...”一日工作坊举办 发布时间:2026-01-09
2026年1月9日,由上海交通大学智能计算研究院、安泰经济与管理学院、上海数学与交叉学科研究院联合主办,杉数科技赞助的“Optimization for LLM/Robotics/Quantum and more...”一日工作坊在上海交通大学徐汇校区安泰经济与管理学院A301成功举办。来自国内外高校与科研机构的专家学者、众多业界人士齐聚一堂,围绕现代大模型训练与推理中的优化器和优化算法以及基于GPU的高性能数学规划算法对AI4S的应用等前沿问题的进展进行深入交流。
上海交通大学讲席教授叶荫宇担任会议主席,本次工作坊旨在通过高水平学术交流,建立起理论与实践的连接桥梁,搭建产学研协同发展的沟通平台。
会议上午围绕大语言模型优化(Optimization for LLM)主题展开。上海交通大学智能计算研究院院长、安泰经济与管理学院特聘教授葛冬冬在开幕致辞中指出,随着大模型规模和复杂度的不断提升,优化算法正成为支撑模型训练效率、稳定性与系统性能的核心基础技术。本次工作坊汇聚理论与实践前沿成果,对推动相关领域研究具有重要意义。
随后,宾夕法尼亚大学沃顿商学院苏炜杰副教授作题为Why Muon Is Good but May Not Be Optimal: Two Perspectives的报告,从梯度各向异性与曲率建模两个视角系统剖析了Muon优化器的理论基础与潜在改进方向,为新一代大模型优化方法的设计提供了新的理论启示。香港中文大学(深圳)孙若愚副教授汇报了PC Layer: Polynomial Weight Preconditioning for Faster LLM Training,提出了一种可在训练后无额外推理开销的权重预条件化方法,并在大模型预训练中实现了显著的效率提升。针对大模型推理系统的工程挑战,香港科技大学周子杰助理教授分享了基于在线线性与整数规划的多目标调度与大规模专家并行负载均衡方法,展示了优化理论在高并发推理服务中的实际价值。上海交通大学安泰经济与管理学院邓琪副教授则结合实践经验,探讨了Muon、schedule-free等新型训练算法在超大规模模型训练中的应用潜力与未来发展方向。
下午的第一阶段聚焦AI4S:GPU加速的现代优化算法。葛冬冬教授系统介绍了GPU加速优化的核心思想、算法设计与工程实现路径及其在AI4S、量子计算、金融经济、能源电力等真实业务场景下的应用价值。上海交通大学安泰经济与管理学院刘慧康副教授围绕机器人控制问题,展示了基于GPU加速的一阶半定规划方法在大规模SOS优化中的显著性能优势。上海交通大学在读博士研究生吴彦成则分享了其在量子有序搜索问题中提出的无矩阵GPU加速SDP求解方法,体现了高性能科学计算在量子复杂性研究中的重要作用。
第二阶段聚焦“Optimization for Miscellaneous AI Problems”,多位青年学者和产业界研究人员带来了跨领域的前沿成果。华东师范大学王祥丰教授探讨了利用大语言模型改进优化算法并结合形式化验证的方法建立可信代码生成的框架;香港中文大学(深圳)在读博士研究生张雨舜从理论角度解析了神经网络Hessian矩阵的特殊结构及其与主流优化器之间的内在联系;来自杉数科技的李泓霈研究员分享了将混合整数规划引入大模型流水线并行调度的新范式,展示了运筹优化在ML系统中的工程价值;来自上海大学的李舒怀与上海交通大学安泰经济与管理学院林江浩助理教授分别从MoE推理优化与LLM优化建模的角度,探讨了资源受限场景下的在线优化与智能建模问题。
会议最后,叶荫宇教授作总结致辞。他指出,在大模型中无论是底层的训练算法,还是推理阶段,其本质上都蕴含着资源分配与运筹管理问题。传统运筹学理念与现代深度学习技术的融合,将为解决算力调度、提升泛化能力及收敛速度提供新的视角。通过借鉴机器学习的软硬件生态,有望在工业软件、线性规划及微分方程求解等高精度计算领域实现革命性的效率提升。同时,面对当前的国际科研形势,叶荫宇教授寄语在座学术与业界代表,不仅要追求大模型的应用创新,更要致力于构建属于中国自己的完整技术生态——涵盖从基础优化算法、资源管理机制到核心求解的全栈体系,共同推动我国在人工智能与科学计算领域走在世界前列。


