时光荏苒，岁月如歌

05-14

论文理解【LLM-OR】——【LLMOPT】Learning to Define and Solve General Optimization Problems from Scratch

05-14

论文理解【LLM-OR】——【OptiMUS】Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models

04-08

LLM-based Agent 技术演进 —— 从 Prompt Engineering 到 Harness

02-10

论文理解【LLM-OR】——【SIRL】Solver-Informed RL-Grounding Large Language Models for Authentic Optimization M

02-05

论文理解【LLM-Clarification】——【QDrawer】Asking the Right Question at the Right Time

02-02

强化学习拾遗 —— 策略梯度定理的两种详细推导

02-02

强化学习拾遗 —— Off-policy 方法中的重要性采样比

02-02

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

02-02

强化学习拾遗 —— 强化学习的样本效率

02-02

强化学习拾遗 —— 再看奖励函数