基于DiT的id保留圖像生成面臨著多種挑戰,缺乏定制模塊設計,模型擴展的困難以及高質量數據的匱乏,因此基于flux的解決方案是相對稀缺的,pulid-flux是基于flux的id保留的初步嘗試,包括instantx和xlabs-ai的flux.1-dev ip-adapters,現有方法在三個關鍵方面保險不足:1.身份相似性不足;2.文本-圖像對齊和可編輯性差,明顯存在面部的粘貼復制問題;3.fllux生成能力在很大程度上受到損害,導致圖像質量和美觀性降低。
Infiniteyou,引入了InfuseNet,作為controlnet的一種推廣,能夠接受id信息以及控制條件,通過殘差連接,infusenet將投影的id特征注入到DiT基礎模型中,從而使文本和id注入解耦。采用多階段訓練策略,包括預訓練和監督微調sft,sft階段利用精心設計的合成單人多樣本數據生成,利用我們預訓練的模型本身和各種現成模塊,這一策略增強了訓練數據的數量、質量和美觀性和文本-圖像對齊,從而改善整體模型性能&