Parameter-Efficient Fine-Tuning vs
Full Fine-Tuning on SST-2 using DistilBERT
1.
Objective
Bu çalışmanın amacı, tam fine-tuning
ile Low-Rank Adaptation (LoRA) yaklaşımını parametre verimliliği ve performans
açısından karşılaştırmaktır.
Model: DistilBERT
Dataset: GLUE SST-2
2.
Experimental Setup
Dataset
- Train subset: 3000 örnek
- Validation subset: 800 örnek
- Sequence length: 128
Full
Fine-Tuning
- Trainable parameters: 66,955,010
- Learning rate: 2e-5
- Epoch: 1
LoRA
Configuration
- Injected layers: q_lin, v_lin, out_lin
- Rank (r): 32
- Alpha: 64
- Learning rate: 1e-4
- Epoch: 3
- Trainable parameters: 886,274
Tüm backbone ağı dondurulmuş, sadece
LoRA parametreleri ve classifier head eğitilmiştir.
3.
Results
|
Method |
Trainable Params |
Validation Accuracy |
|
Full FT |
67,839,746 |
0.8862 |
|
LoRA |
886,274 |
0.8725 |
4.
Parameter Efficiency Analysis
Trainable parameter ratio:
443,906 / 67,839,746 ≈ 0.0131
Yani LoRA yalnızca %0.66 oranında
parametre güncelleyerek:
0.8725 / 0.8862 ≈ %98.5 performans
korumuştur.
Bu sonuç, LoRA'nın güçlü bir
parametre-verimli adaptasyon yöntemi olduğunu göstermektedir.
5.
Observations
- r=4 başarısız olmuştu (%54 civarı)
- r=16 ile dramatik iyileşme sağlandı
- 3 epoch sonrasında validation performansı plato yaptı
- Training loss düşmeye devam ederken validation sabit
kaldı
Bu, attention-only LoRA
konfigürasyonunun kapasite sınırına ulaştığını düşündürmektedir.
6.
Limitation
Bu çalışmada LoRA yalnızca attention
projeksiyon katmanlarına uygulanmıştır. Feed-forward katmanlar (FFN) adapte
edilmemiştir.
Bu nedenle modelin tam fine-tuning
performansına ulaşamaması beklenebilir.
7.
Conclusion
Bu deney göstermektedir ki:
LoRA, parametrelerin yalnızca
%0.66’sını güncelleyerek tam fine-tuning performansının %97’sine ulaşabilmektedir.
Bu, özellikle büyük ölçekli
modellerde ciddi compute ve memory avantajı sağlayabilecek bir sonuçtur.
