想要調整圖像中的人物姿勢、形狀、表情是件大工程,AI繪圖軟體Stable Diffusion,雖然可以通過ControlNet工具,在生成圖片前就先手動調整節點來獲得接近我們想要的人物型態,但往往缺乏靈活性、精確性和普遍性。
現在有團隊研究了一種功能強大的方式,用“拖動”圖像中的任何點,精確地達到目標點,他們提出了DragGAN,它包括兩個主要組件:
- 基於特徵的運動監督,將操作點推向目標位置。
- 一種新的點追蹤方法,利用區分性生成器特徵來定位操作點的位置。
通過DragGAN,任何人都可以對圖像進行變形,精確控制像素的移動位置,從而操縱動物、汽車、人物、風景等各種類別的姿勢、形狀、表情和佈局。
由於這些操縱是在GAN的學習生成圖像流形上進行的,它們往往能夠產生逼真的輸出,即使在挑戰性的情況下,如幻覺遮蔽內容和變形形狀,也能保持對象的剛性。
定性和定量比較結果顯示,DragGAN在圖像操作和點追蹤任務上相對於先前方法具有優勢。他們還展示了通過GAN反演對真實圖像的操縱能力。
- 【資料來源】 https://huggingface.co/papers/2305.10973
- 【src】https://github.com/XingangPan/DragGAN
- 【demo】https://huggingface.co/spaces/radames/DragGan