近日,語言智能與文化計算2023級博士生張凱武在不完整多視圖聚類領域上的最新研究成果《Deep Incomplete Multi-view Clustering via Attention-based Direct Contrastive Learning》被人工智能領域一區Top期刊Expert Systems with Applications(中科院1區Top期刊,JCR:Q1, 2023-2024最新影響因子:7.5)接收,該期刊是計算機科學和智能系統領域內最具影響力的頂級期刊之一,主要報道前沿新興的計算機技術和專家智能系統技術。杜世強教授為通訊作者,博士生張凱武為論文第一作者,論文署名單位和通信作者單位均為西北民族大學。

在實際場景中,由于機器故障或傳感器問題等因素,來源于多個數據源的多視圖數據可能會丟失某些視圖信息,從而導致不完整多視圖數據的出現。例如一條道路上的多個監控設備會由于部分攝像頭故障而丟失視頻信息。為了能夠有效解決多視圖數據不完整問題,不完整多視圖聚類(Incomplete Multi-View Clustering,IMVC)適時而出。
雖然現有的IMVC通過使用對比學習和填充策略來解決缺失數據已經取得了重大進展,但這些方法為防止出現潛在特征只能在較低維度的子空間中有效的維度塌縮現象,均選擇過度依賴額外的投影頭來解決上述問題。另一方面,IMVC在同一特征空間中同時進行一致性學習和重構,嚴重誤導了共同語義的捕獲。因此IMVC面臨兩個主要挑戰:(1)如何在不增加模型參數量的情況下有效防止維度塌縮;(2)如何避免視圖私有信息的影響,有效利用不完整數據的一致性信息。

圖1:整體框架圖
針對上述問題,杜世強教授團隊提出了一種新穎的基于注意力機制和直接對比學習的深度不完整多視圖聚類方法。該方法首次在不依賴投影頭的情況下,通過對比學習避免不完整多視圖聚類中維度塌縮的影響。論文提出的方法如圖1所示,具體地,該模型首先采用具有自注意力機制的編碼器網絡來學習每個輸入向量的權重,從而更好地保留跨視圖的信息,排除限于特定子集的信息。其次,通過利用編碼器提取的特征子向量進行一致性學習,模型直接優化了潛在特征子空間,在不依賴投影頭的情況下避免了維度塌縮。同時,允許重構損失和對比損失分別作用于學習到的特征向量及其子向量,靈活地解決了視圖私有信息的不一致性與公共語義的一致性之間的沖突。最后,該方法采用了一種潛在特征表示的預測機制來實現數據的可恢復性。

圖2:不完整數據恢復
為驗證方法在實際應用中的有效性,論文在多個廣泛使用的數據集上進行聚類、人體行為識別等任務。為證明該方法可以實現缺失視圖的恢復,論文在實驗部分增加了缺失視圖恢復的可視化結果,進一步說明了此方法能夠有效降低缺失視圖對聚類效果的影響。圖2和圖3分別展示了不完整數據的恢復結果和聚類結果。

圖3:聚類t-sne可視化結果
總體而言,該研究首次在不依賴投影頭的情況下通過對比學習處理聚類中的維度塌縮現象。該框架利用結合自注意力機制的編碼器網絡對潛在特征及其子向量進行重構和一致性學習,以簡化模型的方式防止維度塌縮,并確保潛在特征捕獲更多有用的信息。該研究有望為處理不完整數據和防止聚類維度塌縮提供新的見解。
論文鏈接:
https://www.sciencedirect.com/science/article/abs/pii/S0957417424016129?via%3Dihub