sigmoid.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
A social space for people researching, working with, or just interested in AI!

Server stats:

592
active users

Stable Diffusion (SD)は素人なのだが微調整できないかと思ってこの動画を視聴した
Dreambooth: SDモデル自体を微調整
Textual Inversion: Word embeddingsを微調整
LoRA: モデルの元の重みは凍結させて低ランク近似行列を微調整
Hypernetworks: この人曰くLoRAの劣化版。
youtube.com/watch?v=dVjMiJsuR5o

Dreamboothはモデルの重み自体を微調整するため、微調整されたモデル全体を保存する必要があるが、Textual Inversionは微調整されたWord embedding(ベクトル)を保存するだけで良いから、ストレージを食わずに済む。一番ポピュラーなのはDreambooth。レビューはDreamboothとText Inversionが同程度

Yoshinari Fujinuma

あと、LoRAの元論文をちらっと見たら元々LLM用に提案された手法なのか。比較的省メモリでも動くが、使用した人達のレビューは比較的良くない

まあ動画の説明がざっくりしすぎて実際何やっているかは元論文読まないとよくわからん
arxiv.org/abs/2106.09685

LoRAはざっくり推論がより早いAdapterのalternativeとして見れるか。あとTextual Inversionだと特定のtoken embeddingを微調整するから一つの概念(例:ポケモン)に特化することを想定して学習するが、LoRAだと特定の概念を学習することをだけを想定していない感じかな。 huggingface.co/blog/lora

huggingface.coUsing LoRA for Efficient Stable Diffusion Fine-TuningWe’re on a journey to advance and democratize artificial intelligence through open source and open science.