【論文筆記】| 微調LLM晶體生成
Fine-Tuned Language Models Generate Stable Inorganic Materials as Text
NYU, ICLR 2024
Theme:Material Generation
Main work:
微調大型語言模型以生成穩定的材料
- 可靠性:在樣本結構中,90% 遵循原子位置和電荷的物理約束條件。
- 亞穩性:可以以大約兩倍的速率(49% 對 28%)生成預測為亞穩態的材料,優于 CDVAE。
- 靈活性:可以同時用于無條件生成穩定材料、填充部分結構以及條件生成文本。
- 適用性:捕捉晶體結構的關鍵對稱性,在模型規模擴大時性能提升。
Method:
將晶體結構【crystal lattice,原子類型及坐標(Fractional coordinates / 3D coordinates)】編碼為換行字符串并與文本指令相結合,然后在基礎LLM (LLaMA-2)上執行參數高效微調(PEFT)
Dataset and Training details:
- 將原始的 CDVAE 訓練數據集與截至 2023 年 4 月的 Materials Project 中的材料進行擴展,過濾掉晶格中原子數超過 30 個的晶體
- 4-bit quantization and Low-Rank Adapters (LoRA)
Experiment:
評估指標:
- 有效性與多樣性:結構有效性由非重疊原子半徑計算;成分有效性由計算電荷為中性計算;多樣性使用Matminer對結構和組成進行特征化后的樣本間距離來計算;
- 預測穩定性:利用來自 Materials Project 的已知材料和能量計算,根據元素組成配比構建了真實能量凸包。使用M3GNET和DFT方法VASP計算生成材料相對凸包的近似能量,即 E ^ h u l l \hat{E}_{hull} E^hull?,預測其穩定性
實驗結果:
- 無條件生成:我們從每個微調 LLAMA 模型中抽取 10,000 個結構,從生成的字符串解析 CIF。隨機抽樣、拒絕提取不出來的樣本并重新抽取另一個樣本
- 條件生成:加入條件【空間群編號、成分和 E h u l l {E}_{hull} Ehull?】進行生成
- 對稱性學習:通過變換下的困惑度的增加(IPT)作為評估語言模型
IPT ( s ) = E g ∈ G [ PPL ( t g ( s ) ) ? PPL ( t g ? ( s ) ) ] , g ? = arg ? min ? P P L ( t g ? ( s ) ) \text{IPT}(s)=\mathbb{E}_{g\in G}[\text{PPL}(t_g(s))-\text{PPL}(t_{g^*}(s))],g^*=\arg\min\mathrm{PPL}(t_{g^*}(s)) IPT(s)=Eg∈G?[PPL(tg?(s))?PPL(tg??(s))],g?=argminPPL(tg??(s)) - 填充部分結構:mutation-relaxation step
- mutation:構建一個查找表,將每個元素映射到在相同氧化態時具有相似原子半徑的元素。
- 均勻選擇: 從元素的查找表中均勻地選擇一個元素進行替換。
- 語言模型引導的選擇: 使用Fine-tuned LLM(溫度參數 t 調節)生成的元素分布中進行抽樣。
- relaxation:生成的新結構需要通過 M3GNET 評估結構的能量是否穩定。
- mutation:構建一個查找表,將每個元素映射到在相同氧化態時具有相似原子半徑的元素。
參考文獻
Gruver N, Sriram A, Madotto A, et al. Fine-Tuned Language Models Generate Stable Inorganic Materials as Text[J]. arXiv preprint arXiv:2402.04379, 2024.