3 Method
3.1 Problem Definition
3.2 Framework Description
總體框架如圖2所示,由三個主要部分組成:初始嵌入采集模塊、結構引導模塊和模態融合模塊。
3.3 Initial Embedding Acquisition
3.3.1 Structural Embedding
3.3.2 Relation, Attribute, and Visual Embedding?
3.4 Structure-guided
3.4.1 Structure-Guided Visual Embedding
3.4.2 Structure-Guided Attribute Embedding
3.4.3 不對關系應用結構引導的原因
我們選擇不對關系應用結構引導,因為關系天然存在于兩個相鄰實體之間,并且已經通過它們的交互明確地建模。在圖結構中,關系自然捕捉實體間的語義信息,因此額外的 GAT 引導是沒有必要的。與屬性或圖像嵌入相比,關系的表示已經足夠穩健,進一步的引導可能會引入冗余,或對模型性能產生負面影響。
3.5 Modality Fusion
在本模塊中,我們遵循Chen等人(2023a)對vanilla Transformer進行調整(Zhou等人,2021)