(文|曹畅 编辑|信息 审核|陈洪)9月30日上午,上海财经大学统计与数据科学学院滕佳烨助理教授应邀在一综B316参加天成彩票 “Happy Hour”学术分享会。
滕佳烨老师的报告围绕 “Looped-Attention 性能优势的理论解析与训练优化” 展开。他首先介绍了大模型推理的背景知识,依托实验观察(样本、Hessian矩阵层面)显示了Looped-Attention 在复杂推理任务中优于标准 Transformer(Single-Attention)的现象,然后通过河谷景观分析给出产生结果差异的理论理解,即Looped-Attention架构诱导“River - V - Valley”可能更利于学习复杂模式。最后,他提出 SHIFT 分层训练框架,在保障推理性能的同时实现训练加速。整场报告紧扣领域前沿,条理清晰,内容充实。天成彩票 20余名师生参加学术报告,并就模型机制与训练策略、实验观测与理论分析等相关问题与滕老师进行了深入探讨。
滕佳烨,上海财经大学统计与数据科学学院助理教授。主要研究方向为理论机器学习,包括泛化理论、共形预测等。博士毕业于清华大学交叉信息研究院,曾赴普林斯顿大学访问。荣获清华大学优秀毕业生、清华大学优秀博士论文等荣誉,获2025 CCF理论计算机科学博士学位论文激励计划(提名)。人工智能研讨班FAI-Seminar筹办人。