CLIP-EBC：通過增強的逐塊分類，CLIP能夠準確計數

摘要

https://arxiv.org/pdf/2403.09281v1
CLIP（Contrastive Language-Image Pretraining，對比語言-圖像預訓練）模型在識別問題中表現出了卓越的性能，如零樣本圖像分類和對象檢測。然而，由于其固有的挑戰——即將計數（一項回歸任務）轉化為識別任務，CLIP在計數方面的能力仍然研究不足。在本文中，我們研究了CLIP在計數方面的潛力，特別是聚焦于人群規模估計。現有的基于分類的人群計數方法遇到了包括不恰當的離散化策略在內的問題，這些問題阻礙了CLIP的應用并導致性能次優。為了解決這些挑戰，我們提出了增強的分塊分類（Enhanced Blockwise Classification，EBC）框架。與以往方法不同，EBC依賴于整數值的箱（bins），這有助于學習穩健的決策邊界。在我們的與模型無關的EBC框架內，我們引入了CLIPEBC，這是第一個能夠生成密度圖的完全基于CLIP的人群計數模型。通過對不同人群計數數據集的綜合評估，我們方法的先進性能得到了證明。特別是，EBC可以使現有模型的性能提升高達76.9%。此外，我們的CLIP-EBC模型超越了當前的人群計數方法，在上海科技大學A部分和B部分數據集上分別實現了55.0和6.3的平均絕對誤差。代碼將公開提供。

一、引言

人群計數涉及對圖像或視頻中個體數量的自動估計。近年來，由于其在管理流行病[1]和避免人群擁擠崩塌[2]等關鍵領域的潛在應用，這一任務受到了廣泛關注。準確量化人群密度對于提升公共安全、城市規劃和事件管理至關重要。

目前最先進的人群計數方法依賴于圖像中個體頭部中心的標注二維坐標。這些方法通常將點標注轉換為二進制密度圖，其中值1表示該像素對應于一個標記的頭部中心，而0則表示不是。大多數方法[3]-[9]采用編碼器-解碼器框架，旨在直接回歸密度圖。通常，這些模型輸出的密度圖具有由模型特定的縮減因子確定的空間尺寸。密度圖中的每個元素估計圖像中對應塊中的計數值。然而，這些方法忽略了這樣一個事實，即計數值呈現出長尾分布，其中大值區域存在嚴重的采樣不足。

為了應對這一挑戰，一些工作[11]、[12]通過將計數值合并到箱（類別）中來將人群計數重新定義為分類任務，從而增加了稀有值的樣本量。與基于回歸的方法類似，這些方法也基于分塊預測，但輸出的是減小了空間尺寸的概率圖，其中每個空間位置的向量表示箱的概率得分。在推理階段，這些方法通過聚合每個箱的平均值（每個值根據其相關的概率得分進行加權）來計算預測的密度圖。然后通過對得到的密度圖進行積分來得出最終的預測計數。然而，這些方法遇到了幾個挑戰，導致它們的性能不佳。

值得注意的是，與許多基于回歸的方法[3]、[4]、[8]一樣，這些分類方法也在預處理真實密度圖時采用了高斯平滑，這引發了一個關鍵問題：選擇合適的高斯核寬度。由于圖像中個體常因透視畸變而以不同尺度呈現，理想情況下應將核寬度與頭部大小相匹配，但遺憾的是，計數任務并未提供這些頭部大小信息。因此，現有的基于分類的方法會在標簽中引入噪聲，從而導致性能下降。此外，高斯平滑將最初的離散計數值轉換為連續空間 $\infty)$ ，這需要使用一系列相鄰的實值區間作為箱。這種量化策略使得邊界附近的樣本特別難以分類，使得模型難以學習最優的決策邊界。當前基于分類方法的另一個局限性是它們僅關注分類錯誤，而沒有考慮預測計數值與真實值之間的接近程度。這一缺陷會在測試中損害性能，因為兩個具有相同分類錯誤的概率分布可能表現出不同的期望值。

盡管CLIP[1]在各種與識別相關的下游任務（如目標檢測[13]和語義分割[14]）中取得了成功，但其計數能力在很大程度上仍未被探索。這一差距源于兩個主要挑戰：1) 原本為識別任務設計的CLIP與構成回歸任務的人群計數之間存在固有的不匹配；2) 現有基于分類的計數方法的局限性和次優結果。為了彌合這一差距，本文專注于人群計數，并提出了一種增強的分塊分類（EBC）框架，該框架專門設計用于解決當前基于分類方法所面臨的挑戰。通過最小的修改，現有的基于回歸的方法可以無縫地集成到我們的EBC框架中，從而顯著提高其性能。此外，在EBC框架的基礎上，我們探索了利用CLIP原始結構進行人群計數的潛力，并引入了CLIP-EBC（如圖1所示）。與其他方法[15]、[16]相比，CLIP-EBC是第一個能夠生成人群熱圖的完全基于CLIP的模型。在四個數據庫上的實驗結果強調了我們的EBC框架相比現有基于回歸方法的顯著改進。EBC展現出了顯著的有效性，在NWPU[17]數據集上，將CSRNet[3]的RMSE降低了高達76.9%。此外，我們提出的CLIP-EBC模型超越了最先進的人群計數方法，展示了其有效性。具體來說，CLIP-EBC在上海科技大學[18]數據集A部分實現了55.0的平均絕對誤差，在B部分實現了6.3的平均絕對誤差。這些結果表明，在EBC的支持下，CLIP能夠準確地估計人群密度圖。

總結來說，我們的貢獻如下：

我們提出了一種創新的增強分塊分類（EBC）框架，該框架在離散化、標簽校正和損失函數三個方面顯著改進了先前的基于分類的方法。
在EBC的基礎上，我們提出了第一個完全基于CLIP的人群計數模型CLIP-EBC。CLIP-EBC最大限度地保留了CLIP的原始結構，展示了其不僅能夠估計人群規模，還能夠生成詳細的分布密度圖的能力。
我們在多個數據集上進行了廣泛的實驗，以展示EBC在增強現有方法方面的有效性，以及CLIP-EBC作為最先進人群計數方法的競爭力。

II、相關工作

A. 基于回歸的方法

人群計數主要由多種基于編碼器-解碼器的模型主導，這些模型通過回歸密度圖來進行計數。一些模型專注于解決由透視畸變引起的尺度變化問題。Zhang等人[18]引入了一種多列CNN結構，每個分支提取不同感受野大小的特征圖，隨后通過拼接進行融合。相比之下，Liu等人[4]提出了一個基于VGG-16[20]的單分支模型，該模型包含一個多尺度模塊，用于跨尺度提取和融合特征。認識到擴大感受野的重要性，Li等人[3]提倡在生成密度圖時使用空洞卷積。由于真實密度圖通常比較稀疏，使用高斯核進行平滑是一種常見的策略，以促進模型優化。然而，這種方法帶來了選擇合適核寬度的挑戰，理想情況下核寬度應與尺度相匹配。不幸的是，在人群計數任務中通常不提供頭部大小信息。因此，高斯平滑不可避免地會在標簽中引入誤差和噪聲：如果核大小設置得太小，則在密度圖中對應于個體頭部的像素將被設置為0；相反，如果核大小設置得太大，則對應于背景的像素可能會被誤認為是行人。為了解決這個問題，Wang等人[6]通過利用離散最優傳輸理論引入了DMCount損失函數。這種損失函數不需要高斯平滑，并且使用它訓練的模型可以具有增強的性能。
B. 基于分類的方法

現有的基于分類的方法源于糾正計數值長尾分布（如圖2所示）的動機，其中大值被嚴重低估，對基于回歸的模型性能產生不利影響。為了解決這個問題，基于分類的方法將支持范圍[0, ∞)劃分為不重疊的區間，以增加每個類別的樣本量。在推理過程中，將每個區間的中點（根據概率分數加權）相加作為預測的計數。例如，Xiong等人[12]引入了DCNet，它通過使用相同的一組區間來預測多個級別的計數。然而，這種方法忽略了這樣一個事實，即大值在局部層面出現的可能性較小，從而加劇了類別不平衡。為了處理這個問題，Liu等人[11]提出了基于塊分類的概念，該模型輸出概率圖，其中每個像素的向量表示預測的概率分數。然而，與基于回歸的方法類似，這些方法也用高斯核對真實密度圖進行平滑處理，從而引發以下問題：1）如第II-A節所述，高斯平滑可能會在標簽中引入噪聲；2）高斯平滑將計數從離散的整數空間轉換為連續的實數空間，因此區間必須相互鄰接（例如，(0,0.5]和(0.5,1])）。這種量化策略使得難以對邊界附近的樣本點進行分類。此外，這些方法僅關注分類結果，忽略了兩個概率分布可能具有相同的分類誤差但期望不同的事實，從而在測試期間嚴重影響性能。

C. 人群計數中的CLIP

對比語言-圖像預訓練（CLIP）模型[10]在下游任務中表現出了卓越的性能，如下游零樣本圖像分類[10]、目標檢測[13]和[14]，但在人群計數方面的研究卻相對較少。Liang等人[15]提出了一種基于排序的無監督方法。他們的方法利用嵌套圖像塊序列和預定義的計數數字序列作為輸入，目的是最小化相似性的排序損失。然而，該方法的一個局限性是無法生成密度圖，這對于疫情控制和公共安全監控等應用至關重要。Jiang等人[16]介紹了一種文本引導的零樣本計數方法，該方法利用CLIP生成文本指導，但仍以密度圖回歸為基礎，導致在人群計數任務中的性能次優。相比之下，我們是第一個研究僅使用CLIP來估計人群密度圖潛力的團隊。為此，我們引入了CLIP-EBC，這是第一個完全基于CLIP的人群計數方法，并證明了CLIP可以在盡可能保留其結構的同時，準確地估計人群分布。

III、方法

在本節中，我們首先描述我們的增強塊分類（EBC）框架以及我們在離散化、標簽校正和損失設計三個方面的貢獻。然后，基于這個與主干網絡無關的框架，我們介紹了如何利用CLIP進行密度圖估計，并提出了CLIP-EBC。

A. 增強型分塊分類（EBC）

由于點標簽中存在的固有噪聲，使得在像素級別預測密度圖變得具有挑戰性。因此，我們的EBC框架采用了分塊預測的方式，類似于最新的方法[3]、[5]、[6]、[11]、[12]。然而，由于基于回歸的方法在大計數值上存在欠采樣問題（如圖2所示），EBC將計數值分組到不同的區間（bins）中，以增加每個區間的樣本量，從而緩解樣本不平衡的問題。設 $\left\{\mathcal{B}_{i} \mid i=1, \cdots, n\right\}$ 為預定義的 $n$ 個區間，使得 $\forall i \neq j, \mathcal{B}_{i} \cap \mathcal{B}_{j}=\emptyset$ ，且 $\mathcal{S} \subset \cup_{i=1}^{n} \mathcal{B}_{i}$ ，其中 $\mathcal{S}$ 是計數值的支持集。設 $\boldsymbol{X} \in \mathbb{R}_{+}^{C \times H \times W}$ 為輸入圖像，其中 $C$ 表示通道數， $H$ 和 $W$ 分別表示空間高度和寬度。EBC輸出一個維度為 $(n, H // r, W // r)$ 的概率圖 $\boldsymbol{P}^{*}$ ，其中 $//$ 表示向下取整除法運算符，整數 $r$ 是與模型相關的縮減因子。對于空間位置 $(i, j)$ 處的 $n$ 維向量，即 $\boldsymbol{P}_{:, i, j}^{*}$ ，它表示圖像區域 $(r (i ? 1) : r i, r (j ? 1) : r j)$ 內各個區間的概率分數。在推理過程中，對于每個區間 $\mathcal{B}_{i}$ ，設 $a_{i}$ 為該區間的代表計數值。從預測的概率圖 $\boldsymbol{P}^{*}$ 中，我們可以通過加權平均得到預測的密度圖：

$\boldsymbol{Y}_{i, j}^{*}=\sum_{k=1}^{n} a_{k} \cdot \boldsymbol{P}_{k, i, j}^{*}$ 。

對 $\boldsymbol{Y}_{i, j}^{*}$ 進行求和，可以得到整個圖像的預測計數。圖4比較了基于回歸的方法（左）和我們的EBC框架（右）。現有的基于回歸的方法只需改變輸出維度，就可以很容易地適應EBC。

離散化：遵循先前的基于回歸的方法[3]、[4]、[18]，現有的基于分類的方法[11]、[12]使用高斯核對真實密度圖進行平滑處理。這將支持集 $\mathcal{S} \subset \mathbb{N}$ 轉換為 $\mathbb{R}_{+}$ 的子集。相應地，為了覆蓋新的支持集，這些方法使用邊界區間作為區間： $\cdots$ 。這種策略使得標簽接近邊界（例如，0.05）的樣本難以分類。此外，由于人群計數中通常不提供頭部大小，高斯平滑可能會在標簽中引入額外的噪聲。如圖3a和圖3b所示，當內核大小設置不當時，高斯平滑會創建錯誤的類別標簽。為了解決這些問題，我們提出繞過高斯平滑，采用類似YOLO[21]的方法（見圖3c）：如果某個個體位于特定塊內，我們僅強制該塊預測該個體的存在，同時排除其他塊進行此類預測。這種策略保留了計數的固有離散性。我們的計數值支持集是 $\mathcal{S}={0,1, \cdots, m}$ ，其中 $m$ 表示允許的最大計數值。我們提出了三種不同粒度的區間策略：精細、動態和粗略。在精細級別，每個區間只包含一個整數；動態區間策略創建大小不同的區間；在粗略級別，每個區間包含多個整數。

先前工作[11]、[12]的另一個缺點是它們使用每個區間的中點作為代表計數值，這忽略了計數值并不遵循均勻分布的事實。為了處理這個問題，我們提出使用每個區間內的平均計數值作為代表點：

$a_{i}=\frac{1}{\left|\mathcal{B}_{i}\right|} \sum_{k=1}^{M} \mathbb{1}\left(c_{k} \in \mathcal{B}_{i}\right) \cdot c_{k}$

其中， $\left|\mathcal{B}_{i}\right|$ 是區間 $\mathcal{B}_{i}$ 的基數， $M$ 是數據集中所有塊的數量， $\mathbb{1}$ 是指示函數， $c_{k}$ 是塊 $k$ 中的計數值。

標簽校正：上述所有方法都忽視了一個關鍵的實踐挑戰：在人口密集的圖像區域內的標注可能極其錯誤和嘈雜，導致與可觀察到的人數和位置存在顯著差異（如圖5所示）。這個問題可能由兩個因素引起：1) 分辨率較低的圖像，標注者難以在擁擠區域中精確確定頭部數量；2) 在標注后調整數據庫大小以優化存儲和訓練時間。這些錯誤可能會向人群計數模型提供錯誤的反向傳播信號，嚴重降低其實際性能。因此，我們提出將固定大小圖像塊中可觀察人數的最大計數限制為一個僅由塊大小決定的小常數。具體來說，我們假設一個人的最小可識別大小為 $\times s$ 像素。因此，最大允許計數值可以通過 $m=(r // s)^{2}$ 獲得。例如，當 $s = 8$ 時，包括圖5中封閉區域在內的所有 $64 \times 64$ 塊的最大允許計數值被限制為 $64 // 8)^{2}=64$ ，而不是196。
損失設計：在先前的塊分類方法中，Liu等人[11]在損失公式中僅考慮了預測概率圖 ${P}^{\boldsymbol{*}}$ 與真實值 $\boldsymbol{P}$ 之間的差異。Xiong等人[12]引入了一個額外的項用于分而治之。然而，這些方法忽略了預測計數值與真實值之間的差異。由于兩個概率分布可能產生相同的分類錯誤但具有不同的期望值，因此使用這些損失函數訓練的模型在測試時無法保證表現良好。為了應對這一挑戰，我們提出了距離感知交叉熵（DACE）損失：

$\begin{aligned} \mathcal{L}_{\mathrm{DACE}}= & \mathcal{L}_{\text {class }}\left(\boldsymbol{P}^{*}, \boldsymbol{P}\right)+\lambda \mathcal{L}_{\text {count }}\left(\boldsymbol{Y}^{*}, \boldsymbol{Y}\right) \\ = & -\sum_{i=1}^{H / / r} \sum_{j=1}^{W / / r} \sum_{k=1}^{n} \mathbb{1}\left(\boldsymbol{P}_{k, i, j}=1\right) \log \boldsymbol{P}_{k, i, j}^{*} \\ & +\lambda \mathcal{L}_{\text {count }}\left(\boldsymbol{Y}^{*}, \boldsymbol{Y}\right), \end{aligned}$
其中， $\mathbb{1}$ 是指示函數， $\boldsymbol{P}$ 是獨熱編碼的真實概率圖， $\boldsymbol{P}^{*}$ 是預測概率圖， $\boldsymbol{Y}$ 是真實密度圖， $\boldsymbol{Y}^{*}$ 是預測密度圖，可以通過方程（1）和方程（2）獲得。計數損失 $\mathcal{L}_{\text {count }}$ （由 $\lambda$ 加權）可以是測量兩個密度圖之間差異的任何函數，但在本文中，我們主要考慮使用DMCount Loss[6]，因為真實值沒有被平滑處理。
B. CLIP-EBC的結構

圖1展示了我們的CLIP-EBC模型結構，其中包含了精細的箱子{0},{1},…,{m}。由于CLIP-EBC的機制建立在我們提出的EBC框架之上，因此這里我們主要關注如何生成預測概率圖 $\boldsymbol{P}^{*}$ 。第三節A部分將提供更多關鍵細節，包括人群密度圖的生成、推理過程以及訓練損失函數。

CLIP-EBC的圖像編碼器由一個特征提取器和一個 $\times 1$ 卷積層組成。由于CLIP-EBC基于塊預測，我們移除了CLIP圖像編碼器的最終池化層和線性投影層，并使用剩余的骨干網絡來提取特征圖 $\boldsymbol{H}$ ，其維度為 $\times (H // r) \times (W // r)$ ，其中 $c$ 表示輸出通道數（對于ResNet骨干網絡）或嵌入維度（對于ViT骨干網絡）。隨后，我們不是使用多個投影層，而是采用一個 $\times 1$ 卷積層將 $\boldsymbol{H}$ 轉換到CLIP嵌入空間，得到 $\mathbf{F}^{\text{img}}$ ，其維度為 $\times (H // r) \times (W // r)$ ，其中 $r$ 表示降維因子（對于ResNet）或塊大小（對于ViT）。

對于文本特征提取，我們首先從輸入文本提示開始考慮。給定一組箱子 $\left\{\mathcal{B}_{i} \mid i=1, \cdots, n\right\}$ ，對于每個箱子 $\mathcal{B}_{i}$ ，我們根據以下規則生成一個文本提示：

如果 $\mathcal{B}_{i}=\left\{b_{i}\right\}$ 且 $b_{i}<m$ ，其中 $m$ 表示最大允許計數，則文本提示為“'‘There is/are $b_{i}$ person/people’"，其中“is/are”和“person/people”的選擇取決于 $b_{i}$ 是否大于1。
如果 $\mathcal{B}_{i}$ 包含多個元素（在這種情況下，這些元素必須是連續的整數且都小于 $m$ ），則文本提示變為“''There is/are between $\min \left(\mathcal{B}_{i}\right)$ and $\max \left(\mathcal{B}_{i}\right)$ person/people { }^{\prime \prime}”。同樣，“is/are”和“person/people”的選擇也是為了確保語法正確性。
如果 $\mathcal{B}_{i}=m$ ，則文本提示為“‘‘There are more than $m$ people’’”。

接下來，將得到的 $n$ 個文本提示通過CLIP的分詞器進行分詞。然后，我們將分詞后的文本輸入到原始的CLIP文本編碼器中，在訓練過程中保持其參數不變。此過程生成了維度為 $\times n$ 的文本嵌入 $\boldsymbol{F}^{\mathrm{txt}}$ 。

有了圖像特征圖 $\boldsymbol{F}^{\text {img }}$ 和文本特征 $\boldsymbol{F}^{\mathrm{txt}}$ ，我們就可以計算概率圖 $\boldsymbol{P}^{*}$ 。首先，我們計算圖像特征向量 $\boldsymbol{F}_{:, i, j}^{\mathrm{img}}$ 和 $n$ 個提取的文本嵌入之間的余弦相似度。隨后，我們使用softmax對這些相似度進行歸一化，以獲得概率 $\boldsymbol{P}_{:, i, j}^{*}$ ，它表示塊 $(i, j)$ 在 $n$ 個箱子上的概率分數。為了獲得預測的人群密度圖 $\boldsymbol{Y}^{*}$ ，我們使用方程（1），而用于訓練CLIP-EBC的損失函數則由方程（3）定義。

IV、實驗

我們利用四個公開的人群計數數據集進行了全面的實驗：ShanghaiTech A和B [18]、UCF-QNRF [19]和NWPU-Crowd [17]。

模型配置：為了與當前方法進行公平比較，我們主要關注塊大小為 $r = 8$ 的情況。利用雙線性插值來轉換特征圖的空間大小。我們將最小可識別尺度設置為 $s = 4$ ，因此每個塊中的最大允許計數值為 $\div 4)^{2}=4$ 。這種配置產生了五個細粒度的箱子： ${0},{1},{2},{3},{4}$ 。此外，我們還探索了其他兩種塊大小： $r = 16$ 和 $r = 32$ 。對于這兩個選項，我們考慮了具有不同粒度的三組箱子（詳見第IV-B節）。
訓練細節：我們使用CLIP [10]的權重來初始化CLIP-EBC模型。對于其余模型，我們使用在ImageNet上預訓練的權重來初始化編碼器，而解碼器（如果適用）則使用從正態分布中隨機抽取的值進行初始化。在提出的DACE損失（由方程（3）定義）中，我們將 $\lambda$ 設置為1，除非另有說明。我們使用Adam優化器[22]來訓練我們的所有模型，初始學習率為 $1 e ? 4$ ，該學習率通過余弦退火調度[23]進行調整。在整個訓練過程中，我們隨機裁剪大小為 $448u \times 448u$ 的補丁，其中 $u$ 從均勻分布 $U ni f or m [1, 2]$ 中隨機抽取，然后將這些補丁調整到 $448 \times 448$ 大小。這種增強策略旨在增加較大箱子的樣本量。對于使用基于ViT的圖像主干的CLIP-EBC，輸入大小為 $256 \times 256$ 。對于所有數據集，批量大小固定為8。
評估指標：遵循現有方法，我們使用平均絕對誤差（MAE）和均方根誤差（RMSE）來評估我們的模型。這些評估指標定義如下：

$\text{MAE}=\frac{1}{N} \sum_{i=1}^{N}\left|C_{i}-C_{i}^{*}\right|, \quad \text{RMSE}=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(C_{i}-C_{i}^{*}\right)^{2}},$

其中 $N$ 是測試集中的圖像數量， $C_{i}$ 是圖像 $i$ 的真實全局計數值， $C_{i}^{*}$ 是通過在預測的密度圖 $\boldsymbol{Y}^{*}$ 上積分得到的預測計數值。值得注意的是，較低的分數表示更好的結果。

A. 與最先進方法的比較

我們將EBC和CLIP-EBC與最先進的人群計數方法進行比較。具體來說，我們重新實現了CSRNet [3]和DMCount [6]，僅通過更改它們的輸出維度來使它們適應我們提出的EBC框架。修改后的模型分別表示為CSRNet-EBC和DMCountEBC。表I列出了結果并展示了我們的方法的有效性。根據CSRNet-EBC和DMCount-EBC所達到的性能，并與它們的基于回歸的版本進行比較，我們可以得出結論，我們的EBC框架可以提供顯著的性能提升。特別是在NWPU驗證集上，CSRNet和DMCount可以顯著提高性能：在MAE下分別提升 $45.5\%$ 和 $43.8\%$ ，在RMSE下分別提升 $76.9\%$ 和 $73.2\%$ 。我們的CLIP-EBC模型也可以達到與最先進方法相當的結果。特別是，我們基于ResNet的CLIP-EBC優于現有的人群計數方法，在上海科技數據集A部分上達到55.0 MAE，B部分上達到6.3 MAE，在NWPU上達到38.6 MAE。這些結果表明，原始的CLIP模型可以在人群計數中以顯著的性能得到利用。在UCF-QNRF和NWPU上，我們的DMCount-EBC表現最佳，分別達到了77.2 MAE和39.7 MAE。
B. 箱粒度的影響

由于計數變量在較大的塊中可以取不同的值，我們探索了箱粒度對EBC框架的影響，特別是在塊大小為 $r = 16$ 和 $r = 32$ 的情況下。在本實驗中，我們研究了三個層次的粒度。細粒度箱被配置為每個箱僅包含一個整數。由于每個箱中的代表性計數值就是包含的整數本身，這種策略可以提供偏差最低的箱。對于粗粒度箱，每個箱包含兩個整數（不包括0，因為0自身構成一個箱）。這種方法承認了計數值的長尾分布，并旨在增加每個箱的樣本量。在構建動態箱時，我們采用了一種策略，即將小計數值視為單獨的箱，而將較大的計數值每兩個組合成一個箱。

表II展示了在UCF-QNRF數據集上的結果。對于 $r = 16$ 和 $r = 32$ ，動態粒度提供了最佳性能。這是因為動態粒度可以在減少代表性計數值的偏差和增加樣本量之間取得良好的平衡。此外，在這兩種情況下，細粒度都優于粗粒度，這得益于代表性計數值的偏差較小。另外，在MAE指標下，使用較小的塊大小可以提供更好的結果，因為它可以創建更多的塊，因此模型可以在訓練過程中更好地利用每個人的位置信息。
C. 消融研究

在本節中，我們對EBC的三個關鍵組成部分進行了消融研究：離散化、標簽校正和損失函數。實驗特別在UCF-QNRF數據集[19]上進行，使用VGG-16[20]作為骨干模型。基于我們的離散化策略建立的模型具有細粒度的箱，每個箱僅包含一個整數。結果總結在表III中，其中“Enhanced Bins”表示使用我們提出的離散化策略，而 $\lambda$ 表示方程（3）中計數損失項的權重。特別是，當 $\lambda=0$ 時，僅使用分類損失。基線模型Blockwise[11]將計數值分類為相鄰的連續區間，實現了140.6的MAE。然而，將連續區間替換為整數值的箱導致了顯著的改進，實現了88.3的MAE，即令人印象深刻的 $37.1\%$ 的提升。這一結果強調了在我們的場景中，決策邊界可以被更有效地學習。進一步限制標簽中的最大允許計數值導致MAE降低到85.8。關于 $\lambda$ ，將其值從0.00增加到1.00會提高性能，最佳結果在 $\lambda=1$ 時達到（77.9）。然而， $\lambda$ 的較大值（例如，2）會損害模型的泛化能力。

為了驗證性能改進與骨干網絡的獨立性，我們還使用ResNet[26]、MobileNetV2[27]和DenseNet[28]測試了我們的EBC框架。表IV中的結果表明，與基線的逐塊分類方法[11]相比，EBC無論選擇哪種骨干網絡，始終都能實現重要的性能改進。
D. 可視化

我們利用具有ResNet圖像骨干的已訓練CLIP-EBC模型，在上海科技大學數據集[18]上生成預測的人群密度圖。為了可視化目的，我們精心挑選了一組六張具有代表性的圖像——三張來自A部分，三張來自B部分。圖6中，第一行展示了這六張圖像，第二行展示了真實的人群密度圖（為了說明，已通過高斯核進行平滑處理），第三行展示了預測的人群密度圖（已調整至與圖像相同大小）。這六張圖像的選擇確保了覆蓋了一系列廣泛的人群密度范圍，從最稀疏的場景（例如，左列中的15人）到最擁擠的情況（例如，右列中的1111人）。這些結果共同展示了模型在不同人群密度水平上的穩健性能。

V、結論

在本文中，我們展示了CLIP在精確人群密度估計中的能力。通過將計數重新表述為逐塊分類問題，我們縮小了CLIP與人群計數之間的差距，并提出了增強的逐塊分類框架（EBC）。在EBC框架內，我們進一步提出了CLIP-EBC，這是第一個基于CLIP并具備密度圖生成功能的人群計數方法。為了將局部計數值分類到預定義的箱中，CLIP-EBC比較了相應局部圖像特征與每個文本特征之間的相似性，然后在其上使用softmax來生成概率分數。在多個數據庫上的實驗展示了EBC和CLIP-EBC的有效性。在未來，我們將研究使用CLIP-EBC來計數任何物體，以充分發揮CLIP的潛力。

1) 影響聲明：
與其他許多人群計數方法一樣，我們的模型也分析人群圖像，這可能會引發隱私關注。在現實應用中，人們可能會感到不適，因為他們知道自己正在被監控和計數，而未經他們明確同意。此外，一些數據集可能存在偏差，而基于這些數據集訓練的模型可能在預測中表現出偏差。這可能導致某些人口群體被低估或高估，從而導致不公平的后果或加劇現有的社會差異。

2) 局限性：
CLIP已經在數百萬個圖像-文本對上進行了預訓練，因此理論上應該能夠計算任何類型的物體，但本文僅關注了人類。在未來，我們計劃探索其在計算其他物體方面的應用。