云端fff的博客

论文理解【LLM-OR】——【LLMOPT】Learning to Define and Solve General Optimization Problems from Scratch

论文理解【LLM-OR】——【LLMOPT】Learning to Define and Solve General Optimization Problems from Scratch

针对 LLM-OR 任务，传统端到端直接生成方法的准确性与问题类型泛化受限；LLMOPT 引入五要素通用表述 + 多指令微调 + KTO 对齐 + 自动测试自纠错的学习式流程，从自然语言描述出发更稳健地定义并求解多类优化问题，在六个真实数据集上取得平均 11.08% 的准确率提升

2026-05-14

机器学习 > 论文理解

#LLM #LLM-OR

论文理解【LLM-OR】——【OptiMUS】Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models

论文理解【LLM-OR】——【OptiMUS】Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models

OptiMUS 把 “自然语言 → 优化建模与求解” 从单次生成改造成 “结构化问题 + 多智能体协作 + 连接图检索” 的模块化流程，并在更长更难的数据集上验证了这种结构化方法相对端到端 prompting 的优势

2026-05-14

机器学习 > 论文理解

#LLM #LLM-OR

LLM-based Agent 技术演进 —— 从 Prompt Engineering 到 Harness

LLM-based Agent 技术演进 —— 从 Prompt Engineering 到 Harness

本文梳理了LLM应用工程形态的演进路径，划分为三个阶段：能力增强（Prompt Engineering、RAG、Function Calling、MCP）、流程沉淀（Skill）和系统编排（Harness），并对 Skill 进行深入介绍

2026-04-08

LLM专题

#LLM #Agent #Skill #AI Engineering

论文理解【LLM-OR】——【SIRL】Solver-Informed RL-Grounding Large Language Models for Authentic Optimization M

论文理解【LLM-OR】——【SIRL】Solver-Informed RL-Grounding Large Language Models for Authentic Optimization M

本文提出第一种针对基于 LLM 的 OR 问题建模和求解任务的 RLVR 方法，其基于求解器得到可验证奖励，设计了 Partial KL 强化目标函数和两阶段奖励课程训练方法，达成了 SOTA 性能

2026-02-10

机器学习 > 论文理解

#LLM-RL #LLM #RL #LLM-OR

论文理解【LLM-Clarification】——【QDrawer】Asking the Right Question at the Right Time

论文理解【LLM-Clarification】——【QDrawer】Asking the Right Question at the Right Time

本文基于 CoDraw 任务对 LLM 澄清提问的触发方式进行探索，发现模型内部不确定性与人类澄清决策相关性弱，使用不确定性阈值触发澄清提问相比模仿人类提问时机，性能和计算效率都更好

2026-02-05

机器学习 > 论文理解

#LLM #LLM-Clarification

强化学习拾遗 —— 策略梯度定理的两种详细推导

强化学习拾遗 —— 策略梯度定理的两种详细推导

本文详细探讨了策略梯度定理的两种推导方法，说明了两种策略梯度适用的算法，以及二者间的转换关系

2026-02-02

机器学习 > 强化学习

#强化学习

强化学习拾遗 —— Off-policy 方法中的重要性采样比

强化学习拾遗 —— Off-policy 方法中的重要性采样比

考虑一个问题：为何基于 DQN 的 PER 需要重要度采样比，而基于 Q-learning 的优先级 Dyna-Q 则不用

2026-02-02

机器学习 > 强化学习

#强化学习

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

本文考察表格型 model-based evaluation 方法中，使用 Bellman 算子进行迭代的收敛性：首先补充一些测度论中的定义，然后介绍压缩映射原理和不动点，最后证明收敛性

2026-02-02

机器学习 > 强化学习

#强化学习

强化学习拾遗 —— 强化学习的样本效率

强化学习拾遗 —— 强化学习的样本效率

总所周知，样本效率低下是强化学习的一个重要问题，本文试图从本质上分析造成这一问题的原因，并简单介绍一些改进措施

2026-02-02

机器学习 > 强化学习

#强化学习 #样本效率

强化学习拾遗 —— 再看奖励函数

强化学习拾遗 —— 再看奖励函数

本文介绍设计奖励函数的一般思路及面临的困境，对奖励函数的本质进行分析，从更高的角度建立对奖励函数的深刻认识

2026-02-02

机器学习 > 强化学习

#强化学习 #奖励函数