共计 38 篇文章
2026
论文理解【LLM-OR】——【LLMOPT】Learning to Define and Solve General Optimization Problems from Scratch
论文理解【LLM-OR】——【OptiMUS】Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models
LLM-based Agent 技术演进 —— 从 Prompt Engineering 到 Harness
论文理解【LLM-OR】——【SIRL】Solver-Informed RL-Grounding Large Language Models for Authentic Optimization M
论文理解【LLM-Clarification】——【QDrawer】Asking the Right Question at the Right Time
强化学习拾遗 —— 策略梯度定理的两种详细推导
强化学习拾遗 —— Off-policy 方法中的重要性采样比
强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析
强化学习拾遗 —— 强化学习的样本效率
强化学习拾遗 —— 再看奖励函数