小目标检测的尺寸极限

首发链接：小目标检测的尺寸极限

1. 小目标检测的权衡关系

不考虑目标识别，小目标检测问题的一个直觉是：目标颜色/灰度值和背景差异越大，检测所需的目标尺寸就越小

极限情况下（如全黑背景）1x1的亮点也能检测；

目标颜色/灰度和背景越接近，检测所需的成像尺寸越大（提供足够的轮廓特征）

2. 问题形式化

2.1 量化定义

给定图像观测 patch $x\in \mathbb{R}^{w\times h\times c}$ $x \in R^{w \times h \times c}$ （类比bbox区域），目标检测本质是一个二元假设检验
- 假设 $H_0$ ：观测 $x$ 只来自背景，记作 $x\sim P_0$
- 假设 $H_1$ ：观测 $x$ 来自目标+背景，记作 $x\sim P_1$
$P_0$ 可通过在数据集随机裁剪无目标背景patch构造； $P_1$ 可通过在数据集随机裁剪有目标patch构造
目标检测的本质就是判断 $x$ 来自哪个分布，这个 “可区分度” 可用 KL 散度量化 $D_{\text{KL}}(P_1||P_0)$ 。若 $D_{\text{KL}}<\epsilon$ ，则在任何检测器下，误检率和漏检率都接近随机猜测

$D_{\text{KL}}(P_1||P_0)$ 可以理解为：如果把带有目标的观测 $x\sim P_1$ 误当成纯背景 $x\sim P_0$ 来解释，会导致多少信息损失

2.2 展开分析

2.2.1 KL 散度变换为马氏距离

把 patch 拉平成长度 $N=w\times h\times c$ 的一维向量 $x\in\mathbb{R}^N$ 。目标成像过程可以写成

$x = G(b+t)+n \tag{1}$

n其中 $b\in\mathbb{R}^N$ 是拉平的背景 patch， $t\in\mathbb{R}^N$ 是拉平的目标 patch， $G\in\mathbb{R}^{N\times N}$ 是线性成像算子， $n\in\mathbb{R}^N$ 是过程加性噪声
Note：为什么成像模型可以假设为线性的，因为辐射传输 + 成像系统的主要环节基本都是线性算子的组合
1. 光学成像的线性性：光学系统在不考虑强非线性效应（散射饱和、非线性材料）时，满足叠加原理，即 “两个独立辐射源的像强度 = 各自像强度的和”
2. 电荷/电压形成的线性性：相机传感器（CCD/CMOS/红外探测器）的基本过程：光子 → 电荷 → 电压 → 数字信号，在工作区间内（远未饱和时），入射光能量和输出电压近似线性
3. 常见噪声模型可线性化：
  - 读出噪声/热噪声：加性高斯
  - 光子噪声（Poisson）：当信号不极弱时，近似为加性高斯，仍可放进“均值+协方差”的框架
  - 量化噪声：可看作均匀分布的加性噪声
  - 大气传输：衰减和模糊通常可视为线性算子（乘法/卷积），非线性散射效应在近似条件下也能线性化处理
为便于推导，做以下约定和假设：
1. 目标 $t$ 在成像后引入的确定性增量记为 $\Delta=Gt\in \mathbb{R}^N$ ，这是一个常数向量，它代表目标在观测空间中相对于纯背景的平均亮度/辐射增量（即“信号”）
2. 把背景 $Gb$ $G b$ 和加性噪声 $n$ $n$ 合并为一个多维随机向量，有均值 $\mu_b$ $μ_{b}$ 和协方差 $\Sigma$ $Σ$ ，假设它服从高斯分布
  1. 小目标检测场景中 $w,h$ 是小值，可以假设背景 $b$ 在局部的波动服从高斯分布（忽略海杂波、湍流等杂波主导的背景重尾分布情况），高斯分布经过线性变换后还是高斯分布；
  2. 过程噪音包括传感器噪声、大气扰动等，根据中心极限定理，这些累积的、独立或弱相关的小扰动”在统计上会逼近高斯分布
因此 $P_0, P_1$ 服从高斯分布，有 $P_0 = \mathcal{N}(\mu_b, \Sigma), \quad P_1 = \mathcal{N}(\mu_b+\Delta, \Sigma)$
在上述高斯情形下，参考多维高斯分布的信息熵和KL散度计算，KL 散度为

$D_{\text{KL}}(P_1||P_0) = \frac{1}{2}\left[\log \frac{\left|\Sigma_{0}\right|}{\left|\Sigma_{1}\right|}-N+\operatorname{tr}\left(\Sigma_{0}^{-1} \Sigma_{1}\right)+\left(\mu_{0}-\mu_{1}\right)^{\top} \Sigma_{0}^{-1}\left(\mu_{0}-\mu_{1}\right)\right] \tag{2}$

其中 $|\cdot|$ 表示行列式计算。进一步化简，由于两个高斯分布协方差同为 $\Sigma$ ，维度同为 $N$ ，有
- $\log \frac{\left|\Sigma_{0}\right|}{\left|\Sigma_{1}\right|}=\log 1=0$
- $\operatorname{tr}\left(\Sigma_{0}^{-1} \Sigma_{1}\right)=\operatorname{tr}(I)=N$
- $\mu_{0}-\mu_{1}=-\Delta$
KL 散度可以简化为漂亮的形式

$D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right)=\frac{1}{2}(-\Delta)^{\top} \Sigma^{-1}(-\Delta)=\frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta \tag{3}$

得到结论：小目标的可检测性由信号向量 $\Delta$ （目标辐射+成像过程）与背景+噪声协方差 $\Sigma$ 的 “马氏距离（的平方）” 决定

2.2.2 KL 散度变换为信噪比

二元检测器视角下，区分两个高斯分布的最优方法是似然比检验 (LRT)，其检验统计量可以简化为线性滤波器输出

$T(x) = \Delta^\top \Sigma^{-1} x$

其中 $\Sigma^{-1}$ 可以理解为把噪声各方向的尺度归一化，左乘 $\Sigma^{-1}$ 把带噪观测 $x$ 中各维度噪声白化到相同强度，然后左乘 $\Delta^\top$ 提取出观测 $x$ 中与信号 $\Delta$ 方向一致成分，忽略与检测无关的分量
- 在 $H_0$ 下： $x \sim \mathcal{N}(\mu_b, \Sigma) \quad \Rightarrow \quad T(x) \sim \mathcal{N}(\Delta^\top \Sigma^{-1} \mu_b, \; \Delta^\top \Sigma^{-1} \Delta)$
- 在 $H_1$ 下： $x \sim \mathcal{N}(\mu_b+\Delta, \Sigma) \quad \Rightarrow \quad T(x) \sim \mathcal{N}(\Delta^\top \Sigma^{-1} (\mu_b+\Delta), \; \Delta^\top \Sigma^{-1} \Delta)$
- 均值差： $\mathbb{E}[T|H_1] - \mathbb{E}[T|H_0] = \Delta^\top \Sigma^{-1} (\mu_b+\Delta) - \Delta^\top \Sigma^{-1}\mu_b = \Delta^\top \Sigma^{-1} \Delta$
- 方差： $\mathrm{Var}[T|H_0] = \Delta^\top \Sigma^{-1} \Delta$

为避免“信噪比（SNR）”在不同文献中含糊不清，这里引入两个常用量

	幅度型 SNR	功率型 SNR
量纲	无量纲（标准差倍数）	无量纲（功率比）
解释	表示信号均值与噪声标准之比	表示信号功率与噪声功率之比
常用场合	检测可分性、错误概率分析（信号检测理论）	工程能量度量（通信、雷达系统性能）

幅度型信噪比（amplitude SNR，或 detectability 指数）：

\mathrm{SNR}_{\text {amplitude}} \equiv \frac{\mathbb{E}\left[T \mid H_{1}\right]-\mathbb{E}\left[T \mid H_{0}\right]}{\sqrt{\operatorname{Var}\left[T \mid H_{0}\right]}}=\sqrt{\Delta^{\top} \Sigma^{-1} \Delta} .

功率型信噪比（power SNR），因为 $能量 \propto 振幅²$ ，定义为：

\mathrm{SNR}_{\text {power }} \equiv\left(\mathrm{SNR}_{\text {amplitude}}\right)^{2}=\Delta^{\top} \Sigma^{-1} \Delta

得到以下漂亮关系

D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right) = \frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta = \frac{\mathrm{SNR}_{\text{power}}}{2} = \frac{\mathrm{SNR}_{\text{amplitude}}^2}{2}. \tag{4}

2.2.3 直观简化情况和数值示例

设观测图像共有 $M = w \cdot h$ 个像素，由目标和背景叠加得到；每个像素的观测光谱是 $\mathbf{x}_{ij}$ ，背景光谱是 $\mathbf{b}_{ij}$ ，光谱差向量 $\mathbf{s}_{ij}=\mathbf{x}_{ij}-\mathbf{b}_{ij}$ ；设观测目标导致的亮度增益因子是 $a$

像素亮度定义为像素光谱向量的模长，即有 $||\mathbf{x}_{ij}|| = ||\mathbf{b}_{ij}+a·\mathbf{s}_{ij}||$
最简单情况下，进一步引入以下假设
1. 小目标情况下假设目标均匀，每个像素的 $\mathbf{s}_{ij}$ 都相同，设为 $\mathbf{s}$
2. 像素之间是独立的，噪声方差为 $\sigma^2$ ，即背景的协方差矩阵 $\Sigma = \sigma^2 I$
这种情况下，每个像素的信号增量为 $\Delta_{ij} = a \cdot \|\mathbf{s}_{ij}\|$ $Δ_{i j} = a \cdot ∥ s_{i j} ∥$ ，目标区域的总信号增量 $\Delta$ $Δ$ 是所有 $M$ $M$ 个像素的信号增量的累加。目标区域的总信号增量表示为
$\begin{aligned} \|\Delta\|^2 &= \sum_{i,j} \Delta_{ij}^2 = \sum_{i,j} (a \cdot \|\mathbf{s}_{ij}\|)^2 = a^2 \sum_{i,j} \|\mathbf{s}_{ij}\|^2 \\ &= a^2 \cdot M \cdot \|\mathbf{s}\|^2 \end{aligned}$
把 $\Sigma = \sigma^2 I$ $Σ = σ^{2} I$ 带入式 (3)，由于 $\Delta^{\top} I \Delta = \|\Delta\|^2$ $Δ^{⊤} I Δ = ∥ Δ ∥^{2}$ 得到
$D_{\text{KL}} = \frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta = \frac{1}{2} \cdot \frac{\|\Delta\|^2}{\sigma^2} = \frac{1}{2} \cdot \frac{a^2 \cdot M \cdot \|\mathbf{s}\|^2}{\sigma^2}$
假设目标可检测的分布偏差阈值为 $\epsilon$ $ϵ$ ，目标可检测需满足
$\begin{aligned} & D_{\text{KL}} \geq \epsilon \\ \Rightarrow \space & \frac{1}{2} \cdot \frac{a^2 \cdot M \cdot \|\mathbf{s}\|^2}{\sigma^2} \geq \epsilon \\ \Rightarrow \space & M \geq \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \end{aligned}$
这个公式说明了最小像素数 $M_{\min}$ $M_{m i n}$ 如何受到以下因素的影响：
- 光谱差异 $\|\mathbf{s}\|$ ：每个像素的光谱差异 $\|\mathbf{s}\|$ 越大，所需的最小像素数 $M_{\min}$ 越小。
- 噪声方差 $\sigma^2$ ：背景噪声的方差 $\sigma^2$ 越大，所需的最小像素数 $M_{\min}$ 越大。
- 目标的亮度放大因子 $a$ ：目标亮度 $a$ 越大，所需的最小像素数 $M_{\min}$ 越小。
至此我们成功量化了第一节的直觉，下面给出一些数值示例

设背景噪声标准差 $\sigma=15$ ，目标亮度增益因子 $a=2$ ，目标光谱差向量范数 $||\mathbf{s}||=0.3$ ，检测阈值 $\epsilon=\ln 2$ （1bit信息量）
$M_{\min} = \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \approx 866.43$
设背景噪声标准差 $\sigma=10$ ，目标亮度增益因子 $a=5$ ，目标光谱差向量范数 $||\mathbf{s}||=0.5$ ，检测阈值 $\epsilon=\ln 2$ （1bit信息量）
$M_{\min} = \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \approx 22.18$
设背景噪声标准差 $\sigma=5$ ，目标亮度增益因子 $a=10$ ，目标光谱差向量范数 $||\mathbf{s}||=1$ ，检测阈值 $\epsilon=\ln 2$ （1bit信息量）
$M_{\min} = \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \approx 0.35$

2.2.4 分析引入的假设

注意本节分析引入了以下关键假设
1. 成像模型是线性的
2. 背景在局部的波动服从高斯分布
3. 成像过程噪声服从高斯分布

3. 阈值的选取方法

3.1 信息量角度

检测问题本质上是一个二元假设检验，要在两个状态之间做出有效判断至少需要 1 bit 信息，因为 1 bit 正好能区分两种可能性。KL 散度描述的是 “把带有目标的观测 $x\sim P_1$ 误当成纯背景 $x\sim P_0$ 来解释导致的信息损失”，其本身的单位也是信息量，因此将阈值 $\theta$ 设为 1bit 信息量是合理的，即 $D_{\text{KL}}^{(\text{bits})}=1$
KL 散度定义为 $D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right)=\mathbb{E}_{x \sim P_{1}}\left[\log \frac{P_{1}(x)}{P_{0}(x)}\right]$ $D_{K L} (P_{1} ∥ P_{0}) = E_{x \sim P_{1}} [lo g \frac{P _{1} ( x )}{P _{0} ( x )}]$
- 默认使用自然对数 $\ln$ ，信息单位是 nat
- 使用对数 $\log_2$ 时，信息单位是 bit
因此 $1 \space\text{bit} = \ln2 \space\text{nat}$ ，为满足检测要求，阈值应设为 $\epsilon=\ln2\approx0.6931 \space (\text{nat})$

3.2 探测器角度

在红外/光学成像领域，常用的性能指标有：
1. NEDT (Noise Equivalent ΔT)：噪声等效温差，目标与背景的温差差异小到多少时刚好可见，本质上是幅度型信噪比 $\mathrm{SNR}_{\text {amplitude}}=1$ 的阈值，这是一个物理直觉的阈值：信号和噪声一样大
2. MRTD (Minimum Resolvable Temperature Difference)：最小可分辨温差，考虑了空间频率和调制度，表示 “在给定视场条件下，能分辨目标的温差极限”
基于 2.2.2 节分析，从 NEDT 角度出发，检测阈值应设为 $\epsilon= \frac{\mathrm{SNR}_{\text {amplitude }}^2}{2}=0.5\space (\text{nat})$

3.3 小结

综上，探测器成像极限（NETD）不能支持有效目标检测，需要更高的 KL 散度阈值：
- 探测器成像极限（ $\text{SNR}=1$ ），有 $\space\space \epsilon=\frac{\mathrm{SNR}_{\text {amplitude }}^2}{2}=0.5\space(\text{nat})\approx 0.72 \space(\text{bit})$
- 信息量判别极限，有 $\epsilon=\ln2 \space(\text{nat}) = 1 \space(\text{bit})$

数学杂烩

#小目标检测

小目标检测的尺寸极限

https://wxc971231.github.io/MyBlog/2025/11/02/小目标检测的尺寸极限/

作者

云端fff

发布于

2025年11月2日

许可协议

论文理解【LLM-RL】—— Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model 上一篇

Wasserstein 距离简介下一篇