小目标检测的尺寸极限

1. 小目标检测的权衡关系

不考虑目标识别,小目标检测问题的一个直觉是:目标颜色/灰度值和背景差异越大,检测所需的目标尺寸就越小

  • 极限情况下(如全黑背景)1x1的亮点也能检测;
  • 目标颜色/灰度和背景越接近,检测所需的成像尺寸越大(提供足够的轮廓特征)

2. 问题形式化

2.1 量化定义

  • 给定图像观测 patch xRw×h×cx\in \mathbb{R}^{w\times h\times c}(类比bbox区域),目标检测本质是一个二元假设检验
    • 假设 H0H_0:观测 xx 只来自背景,记作 xP0x\sim P_0
    • 假设 H1H_1:观测 xx 来自目标+背景,记作 xP1x\sim P_1

    P0P_0 可通过在数据集随机裁剪无目标背景patch构造;P1P_1 可通过在数据集随机裁剪有目标patch构造

  • 目标检测的本质就是 判断xx来自哪个分布,这个 “可区分度” 可用 KL 散度量化DKL(P1P0)D_{\text{KL}}(P_1||P_0)。若 DKL<ϵD_{\text{KL}}<\epsilon,则在任何检测器下,误检率和漏检率都接近随机猜测

    DKL(P1P0)D_{\text{KL}}(P_1||P_0) 可以理解为:如果把带有目标的观测 xP1x\sim P_1 误当成纯背景 xP0x\sim P_0 来解释,会导致多少信息损失

2.2 展开分析

2.2.1 KL 散度变换为马氏距离

  • 把 patch 拉平成长度 N=w×h×cN=w\times h\times c 的一维向量 xRNx\in\mathbb{R}^N。目标成像过程可以写成

    x=G(b+t)+n(1)x = G(b+t)+n \tag{1}

    n其中 bRNb\in\mathbb{R}^N 是拉平的背景 patch,tRNt\in\mathbb{R}^N 是拉平的目标 patch,GRN×NG\in\mathbb{R}^{N\times N} 是线性成像算子,nRNn\in\mathbb{R}^N 是过程加性噪声

    Note:为什么成像模型可以假设为线性的,因为辐射传输 + 成像系统的主要环节基本都是线性算子的组合

    1. 光学成像的线性性:光学系统在不考虑强非线性效应(散射饱和、非线性材料)时,满足叠加原理,即 “两个独立辐射源的像强度 = 各自像强度的和”
    2. 电荷/电压形成的线性性:相机传感器(CCD/CMOS/红外探测器)的基本过程:光子 → 电荷 → 电压 → 数字信号,在工作区间内(远未饱和时),入射光能量和输出电压近似线性
    3. 常见噪声模型可线性化
      • 读出噪声/热噪声:加性高斯
      • 光子噪声(Poisson):当信号不极弱时,近似为加性高斯,仍可放进“均值+协方差”的框架
      • 量化噪声:可看作均匀分布的加性噪声
      • 大气传输:衰减和模糊通常可视为线性算子(乘法/卷积),非线性散射效应在近似条件下也能线性化处理
  • 为便于推导,做以下约定和假设:

    1. 目标 tt 在成像后引入的确定性增量记为 Δ=GtRN\Delta=Gt\in \mathbb{R}^N,这是一个常数向量,它代表目标在观测空间中相对于纯背景的平均亮度/辐射增量(即“信号”)
    2. 把背景 GbGb 和加性噪声 nn 合并为一个多维随机向量,有均值 μb\mu_b 和协方差 Σ\Sigma假设它服从高斯分布
      1. 小目标检测场景中 w,hw,h 是小值,可以假设背景 bb 在局部的波动服从高斯分布(忽略海杂波、湍流等杂波主导的背景重尾分布情况),高斯分布经过线性变换后还是高斯分布;
      2. 过程噪音包括传感器噪声、大气扰动等,根据中心极限定理,这些累积的、独立或弱相关的小扰动”在统计上会逼近高斯分布

    因此 P0,P1P_0, P_1 服从高斯分布,有 P0=N(μb,Σ),P1=N(μb+Δ,Σ)P_0 = \mathcal{N}(\mu_b, \Sigma), \quad P_1 = \mathcal{N}(\mu_b+\Delta, \Sigma)

  • 在上述高斯情形下,参考 多维高斯分布的信息熵和KL散度计算,KL 散度为

    DKL(P1P0)=12[logΣ0Σ1N+tr(Σ01Σ1)+(μ0μ1)Σ01(μ0μ1)](2)D_{\text{KL}}(P_1||P_0) = \frac{1}{2}\left[\log \frac{\left|\Sigma_{0}\right|}{\left|\Sigma_{1}\right|}-N+\operatorname{tr}\left(\Sigma_{0}^{-1} \Sigma_{1}\right)+\left(\mu_{0}-\mu_{1}\right)^{\top} \Sigma_{0}^{-1}\left(\mu_{0}-\mu_{1}\right)\right] \tag{2}

    其中 |\cdot| 表示行列式计算。进一步化简,由于两个高斯分布协方差同为 Σ\Sigma,维度同为 NN,有

    • logΣ0Σ1=log1=0\log \frac{\left|\Sigma_{0}\right|}{\left|\Sigma_{1}\right|}=\log 1=0
    • tr(Σ01Σ1)=tr(I)=N\operatorname{tr}\left(\Sigma_{0}^{-1} \Sigma_{1}\right)=\operatorname{tr}(I)=N
    • μ0μ1=Δ\mu_{0}-\mu_{1}=-\Delta

    KL 散度可以简化为漂亮的形式

    DKL(P1P0)=12(Δ)Σ1(Δ)=12ΔΣ1Δ(3)D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right)=\frac{1}{2}(-\Delta)^{\top} \Sigma^{-1}(-\Delta)=\frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta \tag{3}

    得到结论:小目标的可检测性由信号向量Δ\Delta(目标辐射+成像过程)与背景+噪声协方差 Σ\Sigma 的 “马氏距离(的平方)” 决定

2.2.2 KL 散度变换为信噪比

  • 二元检测器视角下,区分两个高斯分布的最优方法是似然比检验 (LRT),其检验统计量可以简化为线性滤波器输出

    T(x)=ΔΣ1xT(x) = \Delta^\top \Sigma^{-1} x

    其中 Σ1\Sigma^{-1} 可以理解为把噪声各方向的尺度归一化,左乘 Σ1\Sigma^{-1} 把带噪观测 xx 中各维度噪声白化到相同强度,然后左乘 Δ\Delta^\top 提取出观测 xx 中与信号 Δ\Delta 方向一致成分,忽略与检测无关的分量

    • H0H_0 下:xN(μb,Σ)T(x)N(ΔΣ1μb,  ΔΣ1Δ)x \sim \mathcal{N}(\mu_b, \Sigma) \quad \Rightarrow \quad T(x) \sim \mathcal{N}(\Delta^\top \Sigma^{-1} \mu_b, \; \Delta^\top \Sigma^{-1} \Delta)
    • H1H_1 下:xN(μb+Δ,Σ)T(x)N(ΔΣ1(μb+Δ),  ΔΣ1Δ)x \sim \mathcal{N}(\mu_b+\Delta, \Sigma) \quad \Rightarrow \quad T(x) \sim \mathcal{N}(\Delta^\top \Sigma^{-1} (\mu_b+\Delta), \; \Delta^\top \Sigma^{-1} \Delta)
    • 均值差:E[TH1]E[TH0]=ΔΣ1(μb+Δ)ΔΣ1μb=ΔΣ1Δ\mathbb{E}[T|H_1] - \mathbb{E}[T|H_0] = \Delta^\top \Sigma^{-1} (\mu_b+\Delta) - \Delta^\top \Sigma^{-1}\mu_b = \Delta^\top \Sigma^{-1} \Delta
    • 方差:Var[TH0]=ΔΣ1Δ\mathrm{Var}[T|H_0] = \Delta^\top \Sigma^{-1} \Delta
  • 为避免“信噪比(SNR)”在不同文献中含糊不清,这里引入两个常用量

    幅度型 SNR 功率型 SNR
    量纲 无量纲(标准差倍数) 无量纲(功率比)
    解释 表示信号均值与噪声标准之比 表示信号功率与噪声功率之比
    常用场合 检测可分性、错误概率分析(信号检测理论) 工程能量度量(通信、雷达系统性能)
    1. 幅度型信噪比(amplitude SNR,或 detectability 指数)

    SNRamplitudeE[TH1]E[TH0]Var[TH0]=ΔΣ1Δ.\mathrm{SNR}_{\text {amplitude}} \equiv \frac{\mathbb{E}\left[T \mid H_{1}\right]-\mathbb{E}\left[T \mid H_{0}\right]}{\sqrt{\operatorname{Var}\left[T \mid H_{0}\right]}}=\sqrt{\Delta^{\top} \Sigma^{-1} \Delta} .

    1. 功率型信噪比(power SNR),因为 能量振幅²能量 \propto 振幅²,定义为:

    SNRpower (SNRamplitude)2=ΔΣ1Δ\mathrm{SNR}_{\text {power }} \equiv\left(\mathrm{SNR}_{\text {amplitude}}\right)^{2}=\Delta^{\top} \Sigma^{-1} \Delta

    得到以下漂亮关系

    DKL(P1P0)=12ΔΣ1Δ=SNRpower2=SNRamplitude22.(4)D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right) = \frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta = \frac{\mathrm{SNR}_{\text{power}}}{2} = \frac{\mathrm{SNR}_{\text{amplitude}}^2}{2}. \tag{4}

2.2.3 直观简化情况和数值示例

  • 设观测图像共有 M=whM = w \cdot h 个像素,由目标和背景叠加得到;每个像素的观测光谱是 xij\mathbf{x}_{ij},背景光谱是 bij\mathbf{b}_{ij},光谱差向量 sij=xijbij\mathbf{s}_{ij}=\mathbf{x}_{ij}-\mathbf{b}_{ij};设观测目标导致的亮度增益因子是 aa

    像素亮度定义为像素光谱向量的模长,即有 xij=bij+asij||\mathbf{x}_{ij}|| = ||\mathbf{b}_{ij}+a·\mathbf{s}_{ij}||

  • 最简单情况下,进一步引入以下假设
    1. 小目标情况下假设目标均匀,每个像素的 sij\mathbf{s}_{ij} 都相同,设为 s\mathbf{s}
    2. 像素之间是独立的,噪声方差为 σ2\sigma^2,即背景的协方差矩阵 Σ=σ2I\Sigma = \sigma^2 I
  • 这种情况下,每个像素的信号增量为 Δij=asij\Delta_{ij} = a \cdot \|\mathbf{s}_{ij}\|,目标区域的总信号增量 Δ\Delta 是所有 MM 个像素的信号增量的累加。目标区域的总信号增量表示为

    Δ2=i,jΔij2=i,j(asij)2=a2i,jsij2=a2Ms2\begin{aligned} \|\Delta\|^2 &= \sum_{i,j} \Delta_{ij}^2 = \sum_{i,j} (a \cdot \|\mathbf{s}_{ij}\|)^2 = a^2 \sum_{i,j} \|\mathbf{s}_{ij}\|^2 \\ &= a^2 \cdot M \cdot \|\mathbf{s}\|^2 \end{aligned}

    Σ=σ2I\Sigma = \sigma^2 I 带入式 (3),由于 ΔIΔ=Δ2\Delta^{\top} I \Delta = \|\Delta\|^2 得到

    DKL=12ΔΣ1Δ=12Δ2σ2=12a2Ms2σ2D_{\text{KL}} = \frac{1}{2} \Delta^{\top} \Sigma^{-1} \Delta = \frac{1}{2} \cdot \frac{\|\Delta\|^2}{\sigma^2} = \frac{1}{2} \cdot \frac{a^2 \cdot M \cdot \|\mathbf{s}\|^2}{\sigma^2}

    假设目标可检测的分布偏差阈值为 ϵ\epsilon,目标可检测需满足

    DKLϵ 12a2Ms2σ2ϵ M2σ2ϵa2s2\begin{aligned} & D_{\text{KL}} \geq \epsilon \\ \Rightarrow \space & \frac{1}{2} \cdot \frac{a^2 \cdot M \cdot \|\mathbf{s}\|^2}{\sigma^2} \geq \epsilon \\ \Rightarrow \space & M \geq \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \end{aligned}

    这个公式说明了最小像素数 MminM_{\min} 如何受到以下因素的影响:
    • 光谱差异s\|\mathbf{s}\|:每个像素的光谱差异 s\|\mathbf{s}\| 越大,所需的最小像素数 MminM_{\min} 越小。
    • 噪声方差σ2\sigma^2:背景噪声的方差 σ2\sigma^2 越大,所需的最小像素数 MminM_{\min} 越大。
    • 目标的亮度放大因子aa:目标亮度 aa 越大,所需的最小像素数 MminM_{\min} 越小。
  • 至此我们成功量化了第一节的直觉,下面给出一些数值示例

    设背景噪声标准差 σ=15\sigma=15,目标亮度增益因子 a=2a=2,目标光谱差向量范数 s=0.3||\mathbf{s}||=0.3,检测阈值 ϵ=ln2\epsilon=\ln 2(1bit信息量)

    Mmin=2σ2ϵa2s2866.43M_{\min} = \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \approx 866.43

    设背景噪声标准差 σ=10\sigma=10,目标亮度增益因子 a=5a=5,目标光谱差向量范数 s=0.5||\mathbf{s}||=0.5,检测阈值 ϵ=ln2\epsilon=\ln 2(1bit信息量)

    Mmin=2σ2ϵa2s222.18M_{\min} = \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \approx 22.18

    设背景噪声标准差 σ=5\sigma=5,目标亮度增益因子 a=10a=10,目标光谱差向量范数 s=1||\mathbf{s}||=1,检测阈值 ϵ=ln2\epsilon=\ln 2(1bit信息量)

    Mmin=2σ2ϵa2s20.35M_{\min} = \frac{2 \sigma^2 \epsilon}{a^2 \|\mathbf{s}\|^2} \approx 0.35

2.2.4 分析引入的假设

  • 注意本节分析引入了以下关键假设
    1. 成像模型是线性的
    2. 背景在局部的波动服从高斯分布
    3. 成像过程噪声服从高斯分布

3. 阈值的选取方法

3.1 信息量角度

  • 检测问题本质上是一个二元假设检验,要在两个状态之间做出有效判断至少需要 1 bit 信息,因为 1 bit 正好能区分两种可能性。KL 散度描述的是 “把带有目标的观测xP1x\sim P_1误当成纯背景 xP0x\sim P_0 来解释导致的信息损失”,其本身的单位也是信息量,因此将阈值 θ\theta 设为 1bit 信息量是合理的,即 DKL(bits)=1D_{\text{KL}}^{(\text{bits})}=1
  • KL 散度定义为 DKL(P1P0)=ExP1[logP1(x)P0(x)]D_{\mathrm{KL}}\left(P_{1} \| P_{0}\right)=\mathbb{E}_{x \sim P_{1}}\left[\log \frac{P_{1}(x)}{P_{0}(x)}\right]
    • 默认使用自然对数 ln\ln,信息单位是 nat
    • 使用对数 log2\log_2 时,信息单位是 bit
  • 因此 1 bit=ln2 nat1 \space\text{bit} = \ln2 \space\text{nat},为满足检测要求,阈值应设为 ϵ=ln20.6931 (nat)\epsilon=\ln2\approx0.6931 \space (\text{nat})

3.2 探测器角度

  • 在红外/光学成像领域,常用的性能指标有:
    1. NEDT (Noise Equivalent ΔT):噪声等效温差,目标与背景的温差差异小到多少时刚好可见,本质上是幅度型信噪比SNRamplitude=1\mathrm{SNR}_{\text {amplitude}}=1的阈值,这是一个物理直觉的阈值:信号和噪声一样大
    2. MRTD (Minimum Resolvable Temperature Difference):最小可分辨温差,考虑了空间频率和调制度,表示 “在给定视场条件下,能分辨目标的温差极限”
  • 基于 2.2.2 节分析,从 NEDT 角度出发,检测阈值应设为 ϵ=SNRamplitude 22=0.5 (nat)\epsilon= \frac{\mathrm{SNR}_{\text {amplitude }}^2}{2}=0.5\space (\text{nat})

3.3 小结

  • 综上,探测器成像极限(NETD)不能支持有效目标检测,需要更高的 KL 散度阈值:
    • 探测器成像极限(SNR=1\text{SNR}=1),有   ϵ=SNRamplitude 22=0.5 (nat)0.72 (bit)\space\space \epsilon=\frac{\mathrm{SNR}_{\text {amplitude }}^2}{2}=0.5\space(\text{nat})\approx 0.72 \space(\text{bit})
    • 信息量判别极限,有 ϵ=ln2 (nat)=1 (bit)\epsilon=\ln2 \space(\text{nat}) = 1 \space(\text{bit})

小目标检测的尺寸极限
https://wxc971231.github.io/MyBlog/2025/11/02/小目标检测的尺寸极限/
作者
云端fff
发布于
2025年11月2日
许可协议