1. 小目标检测的权衡关系
不考虑目标识别,小目标检测问题的一个直觉是:目标颜色/灰度值和背景差异越大,检测所需的目标尺寸就越小
- 极限情况下(如全黑背景)1x1的亮点也能检测;
- 目标颜色/灰度和背景越接近,检测所需的成像尺寸越大(提供足够的轮廓特征)
2. 问题形式化
2.1 量化定义
- 给定图像观测 patch x∈Rw×h×c(类比bbox区域),目标检测本质是一个二元假设检验
- 假设 H0:观测 x 只来自背景,记作 x∼P0
- 假设 H1:观测 x 来自目标+背景,记作 x∼P1
P0 可通过在数据集随机裁剪无目标背景patch构造;P1 可通过在数据集随机裁剪有目标patch构造
- 目标检测的本质就是 判断x来自哪个分布,这个 “可区分度” 可用 KL 散度量化DKL(P1∣∣P0)。若 DKL<ϵ,则在任何检测器下,误检率和漏检率都接近随机猜测
DKL(P1∣∣P0) 可以理解为:如果把带有目标的观测 x∼P1 误当成纯背景 x∼P0 来解释,会导致多少信息损失
2.2 展开分析
2.2.1 KL 散度变换为马氏距离
-
把 patch 拉平成长度 N=w×h×c 的一维向量 x∈RN。目标成像过程可以写成
x=G(b+t)+n(1)
n其中 b∈RN 是拉平的背景 patch,t∈RN 是拉平的目标 patch,G∈RN×N 是线性成像算子,n∈RN 是过程加性噪声
Note:为什么成像模型可以假设为线性的,因为辐射传输 + 成像系统的主要环节基本都是线性算子的组合
- 光学成像的线性性:光学系统在不考虑强非线性效应(散射饱和、非线性材料)时,满足叠加原理,即 “两个独立辐射源的像强度 = 各自像强度的和”
- 电荷/电压形成的线性性:相机传感器(CCD/CMOS/红外探测器)的基本过程:光子 → 电荷 → 电压 → 数字信号,在工作区间内(远未饱和时),入射光能量和输出电压近似线性
- 常见噪声模型可线性化:
- 读出噪声/热噪声:加性高斯
- 光子噪声(Poisson):当信号不极弱时,近似为加性高斯,仍可放进“均值+协方差”的框架
- 量化噪声:可看作均匀分布的加性噪声
- 大气传输:衰减和模糊通常可视为线性算子(乘法/卷积),非线性散射效应在近似条件下也能线性化处理
-
为便于推导,做以下约定和假设:
- 目标 t 在成像后引入的确定性增量记为 Δ=Gt∈RN,这是一个常数向量,它代表目标在观测空间中相对于纯背景的平均亮度/辐射增量(即“信号”)
- 把背景 Gb 和加性噪声 n 合并为一个多维随机向量,有均值 μb 和协方差 Σ,假设它服从高斯分布
- 小目标检测场景中 w,h 是小值,可以假设背景 b 在局部的波动服从高斯分布(忽略海杂波、湍流等杂波主导的背景重尾分布情况),高斯分布经过线性变换后还是高斯分布;
- 过程噪音包括传感器噪声、大气扰动等,根据中心极限定理,这些累积的、独立或弱相关的小扰动”在统计上会逼近高斯分布
因此 P0,P1 服从高斯分布,有 P0=N(μb,Σ),P1=N(μb+Δ,Σ)
-
在上述高斯情形下,参考 多维高斯分布的信息熵和KL散度计算,KL 散度为
DKL(P1∣∣P0)=21[log∣Σ1∣∣Σ0∣−N+tr(Σ0−1Σ1)+(μ0−μ1)⊤Σ0−1(μ0−μ1)](2)
其中 ∣⋅∣ 表示行列式计算。进一步化简,由于两个高斯分布协方差同为 Σ,维度同为 N,有
- log∣Σ1∣∣Σ0∣=log1=0
- tr(Σ0−1Σ1)=tr(I)=N
- μ0−μ1=−Δ
KL 散度可以简化为漂亮的形式
DKL(P1∥P0)=21(−Δ)⊤Σ−1(−Δ)=21Δ⊤Σ−1Δ(3)
得到结论:小目标的可检测性由信号向量Δ(目标辐射+成像过程)与背景+噪声协方差 Σ 的 “马氏距离(的平方)” 决定
2.2.2 KL 散度变换为信噪比
-
二元检测器视角下,区分两个高斯分布的最优方法是似然比检验 (LRT),其检验统计量可以简化为线性滤波器输出
T(x)=Δ⊤Σ−1x
其中 Σ−1 可以理解为把噪声各方向的尺度归一化,左乘 Σ−1 把带噪观测 x 中各维度噪声白化到相同强度,然后左乘 Δ⊤ 提取出观测 x 中与信号 Δ 方向一致成分,忽略与检测无关的分量
- 在 H0 下:x∼N(μb,Σ)⇒T(x)∼N(Δ⊤Σ−1μb,Δ⊤Σ−1Δ)
- 在 H1 下:x∼N(μb+Δ,Σ)⇒T(x)∼N(Δ⊤Σ−1(μb+Δ),Δ⊤Σ−1Δ)
- 均值差:E[T∣H1]−E[T∣H0]=Δ⊤Σ−1(μb+Δ)−Δ⊤Σ−1μb=Δ⊤Σ−1Δ
- 方差:Var[T∣H0]=Δ⊤Σ−1Δ
-
为避免“信噪比(SNR)”在不同文献中含糊不清,这里引入两个常用量
|
幅度型 SNR |
功率型 SNR |
| 量纲 |
无量纲(标准差倍数) |
无量纲(功率比) |
| 解释 |
表示信号均值与噪声标准之比 |
表示信号功率与噪声功率之比 |
| 常用场合 |
检测可分性、错误概率分析(信号检测理论) |
工程能量度量(通信、雷达系统性能) |
- 幅度型信噪比(amplitude SNR,或 detectability 指数):
SNRamplitude≡Var[T∣H0]E[T∣H1]−E[T∣H0]=Δ⊤Σ−1Δ.
- 功率型信噪比(power SNR),因为 能量∝振幅²,定义为:
SNRpower ≡(SNRamplitude)2=Δ⊤Σ−1Δ
得到以下漂亮关系
DKL(P1∥P0)=21Δ⊤Σ−1Δ=2SNRpower=2SNRamplitude2.(4)
2.2.3 直观简化情况和数值示例
- 设观测图像共有 M=w⋅h 个像素,由目标和背景叠加得到;每个像素的观测光谱是 xij,背景光谱是 bij,光谱差向量 sij=xij−bij;设观测目标导致的亮度增益因子是 a
像素亮度定义为像素光谱向量的模长,即有 ∣∣xij∣∣=∣∣bij+a⋅sij∣∣
- 最简单情况下,进一步引入以下假设
- 小目标情况下假设目标均匀,每个像素的 sij 都相同,设为 s
- 像素之间是独立的,噪声方差为 σ2,即背景的协方差矩阵 Σ=σ2I
- 这种情况下,每个像素的信号增量为 Δij=a⋅∥sij∥,目标区域的总信号增量 Δ 是所有 M 个像素的信号增量的累加。目标区域的总信号增量表示为
∥Δ∥2=i,j∑Δij2=i,j∑(a⋅∥sij∥)2=a2i,j∑∥sij∥2=a2⋅M⋅∥s∥2
把 Σ=σ2I 带入式 (3),由于 Δ⊤IΔ=∥Δ∥2 得到DKL=21Δ⊤Σ−1Δ=21⋅σ2∥Δ∥2=21⋅σ2a2⋅M⋅∥s∥2
假设目标可检测的分布偏差阈值为 ϵ,目标可检测需满足⇒ ⇒ DKL≥ϵ21⋅σ2a2⋅M⋅∥s∥2≥ϵM≥a2∥s∥22σ2ϵ
这个公式说明了最小像素数 Mmin 如何受到以下因素的影响:
- 光谱差异∥s∥:每个像素的光谱差异 ∥s∥ 越大,所需的最小像素数 Mmin 越小。
- 噪声方差σ2:背景噪声的方差 σ2 越大,所需的最小像素数 Mmin 越大。
- 目标的亮度放大因子a:目标亮度 a 越大,所需的最小像素数 Mmin 越小。
- 至此我们成功量化了第一节的直觉,下面给出一些数值示例
设背景噪声标准差 σ=15,目标亮度增益因子 a=2,目标光谱差向量范数 ∣∣s∣∣=0.3,检测阈值 ϵ=ln2(1bit信息量)
Mmin=a2∥s∥22σ2ϵ≈866.43
设背景噪声标准差 σ=10,目标亮度增益因子 a=5,目标光谱差向量范数 ∣∣s∣∣=0.5,检测阈值 ϵ=ln2(1bit信息量)
Mmin=a2∥s∥22σ2ϵ≈22.18
设背景噪声标准差 σ=5,目标亮度增益因子 a=10,目标光谱差向量范数 ∣∣s∣∣=1,检测阈值 ϵ=ln2(1bit信息量)
Mmin=a2∥s∥22σ2ϵ≈0.35
2.2.4 分析引入的假设
- 注意本节分析引入了以下关键假设
- 成像模型是线性的
- 背景在局部的波动服从高斯分布
- 成像过程噪声服从高斯分布
3. 阈值的选取方法
3.1 信息量角度
- 检测问题本质上是一个二元假设检验,要在两个状态之间做出有效判断至少需要 1 bit 信息,因为 1 bit 正好能区分两种可能性。KL 散度描述的是 “把带有目标的观测x∼P1误当成纯背景 x∼P0 来解释导致的信息损失”,其本身的单位也是信息量,因此将阈值 θ 设为 1bit 信息量是合理的,即 DKL(bits)=1
- KL 散度定义为 DKL(P1∥P0)=Ex∼P1[logP0(x)P1(x)]
- 默认使用自然对数 ln,信息单位是 nat
- 使用对数 log2 时,信息单位是 bit
- 因此 1 bit=ln2 nat,为满足检测要求,阈值应设为 ϵ=ln2≈0.6931 (nat)
3.2 探测器角度
- 在红外/光学成像领域,常用的性能指标有:
- NEDT (Noise Equivalent ΔT):噪声等效温差,目标与背景的温差差异小到多少时刚好可见,本质上是幅度型信噪比SNRamplitude=1的阈值,这是一个物理直觉的阈值:信号和噪声一样大
- MRTD (Minimum Resolvable Temperature Difference):最小可分辨温差,考虑了空间频率和调制度,表示 “在给定视场条件下,能分辨目标的温差极限”
- 基于 2.2.2 节分析,从 NEDT 角度出发,检测阈值应设为 ϵ=2SNRamplitude 2=0.5 (nat)
3.3 小结
- 综上,探测器成像极限(NETD)不能支持有效目标检测,需要更高的 KL 散度阈值:
- 探测器成像极限(SNR=1),有 ϵ=2SNRamplitude 2=0.5 (nat)≈0.72 (bit)
- 信息量判别极限,有 ϵ=ln2 (nat)=1 (bit)