Stable Diffusion (SD)は素人なのだが微調整できないかと思ってこの動画を視聴した
Dreambooth: SDモデル自体を微調整
Textual Inversion: Word embeddingsを微調整
LoRA: モデルの元の重みは凍結させて低ランク近似行列を微調整
Hypernetworks: この人曰くLoRAの劣化版。
https://www.youtube.com/watch?v=dVjMiJsuR5o
Dreamboothはモデルの重み自体を微調整するため、微調整されたモデル全体を保存する必要があるが、Textual Inversionは微調整されたWord embedding(ベクトル)を保存するだけで良いから、ストレージを食わずに済む。一番ポピュラーなのはDreambooth。レビューはDreamboothとText Inversionが同程度
あと、LoRAの元論文をちらっと見たら元々LLM用に提案された手法なのか。比較的省メモリでも動くが、使用した人達のレビューは比較的良くない
まあ動画の説明がざっくりしすぎて実際何やっているかは元論文読まないとよくわからん
https://arxiv.org/abs/2106.09685
LoRAはざっくり推論がより早いAdapterのalternativeとして見れるか。あとTextual Inversionだと特定のtoken embeddingを微調整するから一つの概念(例:ポケモン)に特化することを想定して学習するが、LoRAだと特定の概念を学習することをだけを想定していない感じかな。 https://huggingface.co/blog/lora