[FAI] 清华 陈乐偲 | 双层优化问题最优一阶算法

2916
0
2023-11-13 19:30:00
正在缓冲...
59
19
93
23
FAI-Seminar官网:www.fai-seminar.ac.cn Near-Optimal Nonconvex-Strongly-Convex Bilevel Optimization with Fully First-Order Oracles 讲座摘要:Bilevel optimization has wide applications such as hyperparameter tuning, neural architecture search, and meta-learning. Designing efficient algorithms for bilevel optimization is challenging because the lower-level problem defines a feasibility set implicitly via another optimization problem. In this work, we consider one tractable case when the lower-level problem is strongly convex. Recent works show that with a Hessian-vector product oracle, one can provably find an ε-first-order stationary point within O(1/ε^2 ) oracle calls. However, Hessian-vector product may be inaccessible or expensive in practice. Kwon et al. (ICML 2023) addressed this issue by proposing a first-order method that can achieve the same goal at a slower rate of O(1/ε^3) . In this work, we provide a tighter analysis demonstrating that this method can converge at the near-optimal O(1/ε^2 ) rate as second-order methods. Our analysis further leads to simple first-order algorithms that achieve similar convergence rates for finding second-order stationary points and for distributed bilevel problems. Joint work with Yaohua Ma and Jingzhao Zhang. 讲者信息:陈乐偲,本科毕业于复旦大学大数据学院,目前清华大学交叉信息研究院一年级博士生在读,指导教师为张景昭助理教授。研究方向为优化理论。
争做国内最好的人工智能研讨班!seminar官网:fai-seminar.ac.cn
FAI-Seminar
(10/47)
自动连播
19.7万播放
简介
[FAI] 北大 张博航 | 基于子图的图神经网络表达能力探究
01:28:33
[FAI] 北大 罗胜杰 | 人工智能与通用分子表征
01:22:02
[FAI] MIT 刘子鸣 | 智能从饥饿中诞生
01:20:51
[FAI] UMich马鉴昊 | 均值估计还能这么玩?稀疏鲁棒均值估计
01:01:36
[FAI] 北大 金及凯 | 无穷维与有限维区别多大?算子学习的最优算法
01:24:53
[FAI] 中科大 王博涵 | 动量可以加速SGD吗?
01:17:45
[FAI] 清华 滕佳烨 | 现代机器学习视角下的不确定性度量 | ICLR 23
01:05:55
[FAI] 普林斯顿 蔡天乐 | 让大语言模型自己创造工具
55:33
[FAI*] TTIC 李志远 | 平坦正则化对泛化的帮助 (special talk)
01:05:56
[FAI] 清华 陈乐偲 | 双层优化问题最优一阶算法
55:39
[FAI] NeurIPS23' oral 北大 张博航 | 思维链如何解锁大模型的隐藏能力
01:08:13
[FAI] 清华 顾欣然 | 分布式学习中如何设置通信频率?平方同步律!
01:13:37
[FAI] DeepMind 石佳欣 | 长序列建模?基于小波理论的神经网络框架
01:13:06
[FAI] JMLR 港中文 范凤磊 | 揭秘ReLU神经网络
01:03:17
[FAI] CMU 刘冰彬 | 顺序推理问题的"捷径"解法 ICLR 23' oral, NeurIPS 23' spotlight
01:12:10
[FAI] 清华 温凯越 | Transformer不能被单元方法解释 NeurIPS 23'
01:02:07
[FAI] 清华 游凯超 | 理解、学习与使用PyTorch编译器(torch.compile)
48:23
[FAI] UMich 胡威 | 神经网络表示中的隐藏结构
01:05:02
[FAI] CMU 翟润天 | 表征学习和大模型的泛
01:25:49
[FAI] 北大 罗胜杰 | 高效等变网络设计 ICLR 24'
01:19:58
[FAI] Princeton 高天宇 | 上下文并行编码实现语言模型的长文本拓展
01:07:10
[FAI] 香港大学 邹荻凡 | 基于扩散蒙特卡洛方法的快速采样算法
58:37
[FAI] NYU 陆一平 | 基于模拟算法校准的AI4science:算法与理论
01:13:08
[FAI] Princeton 俞鼎力 | 张量程序VI:无限深度神经网络中的特征学习
01:09:36
[FAI] Princeton 吕凯风 | 浅谈神经网络在算法推理上的局限性
01:30:19
[FAI] CMU 李禹辰 | 现代语言模型的理论理解
01:19:21
[FAI*] 清华大学 李建 | 深度学习中梯度方法的泛化与隐式偏差 (special talk)
01:13:17
[FAI] 北大 张博航 | 图神经网络表达能力的评估准则
01:12:27
[FAI] CMU 黎善达 | 更快的大模型推理 & AIMO竞赛第二名方法分享
01:16:47
Transformer上下文学习的训练过程分析
01:19:20
[FAI] Berkeley 吴京风 | 梯度下降新视角:大步长、振荡与加速
01:12:07
[FAI] 港城大 马梓业 | 通过增强鞍点的可逃脱性以克服非凸景观下的挑战
01:39:29
[FAI] 人大 刘勇 | 检索增强能提升大模型的推理能力吗?
53:36
[FAI] 清华大学 陈乐偲 | 基于“懒”Hessian技术的快速牛顿算法 ICLR 25' Oral
01:05:18
[FAI] 清华 吕凯风 | 大模型训练中的扩展定律与相变现象
01:37:45
[FAI] Stanford 温凯越 | 山谷河流:从损失景观理解WSD学习率机制
01:15:22
[FAI] Princeton 黄凯旋 | MATH-Perturb: 评估llm面对复杂改动的数学推理能力
59:33
[FAI] 清华 卢睿 | 理解扩散模型生成文字的幻觉问题 | ICLR 2025
01:03:37
[FAI] MIT 杨松琳 | 可扩展线性RNN的进展:DeltaNet及其变体
01:55:24
[FAI] 清华 陈焕然 | 扩散模型即为(可证明的)鲁棒分类器
01:17:18
[FAI] UCB 席浩诚 | 利用稀疏性加速视频扩散Transformer推理
50:35
[FAI] UCB 蔡榆杭 | 神经网络中梯度下降算法的隐式偏差
57:15
[FAI] Princeton 王子轩 | 从易到难:Transformer如何学会多步组合推理
01:08:35
[FAI] 北大 李柄辉 | 深入理解深度学习中的对抗样本现象:从模型表达能力与训练动力学视角
01:26:58
[FAI] Princeton 王嘉宸 | 如何为模型训练团队推荐数据集?重新思考代理模型
01:26:05
[FAI] 港中深 张雨舜 | 浅谈神经网络Hessian矩阵的特殊结构
01:20:23
[FAI] 港中深 Dmitry Rybin | XX^T Can Be Faster
01:03:13

中分段要不要学临床?

中分段专业选择,张老师指点迷津
客服
顶部
赛事库 课堂 2021拜年纪