Parameter-Efficient Fine-Tuning vs Full Fine-Tuning on SST-2 using DistilBERT

Tuesday, 3 March 2026

Parameter-Efficient Fine-Tuning vs Full Fine-Tuning on SST-2 using DistilBERT

1. Objective

Bu çalışmanın amacı, tam fine-tuning ile Low-Rank Adaptation (LoRA) yaklaşımını parametre verimliliği ve performans açısından karşılaştırmaktır.

Model: DistilBERT
Dataset: GLUE SST-2

2. Experimental Setup

Dataset

Full Fine-Tuning

LoRA Configuration

Tüm backbone ağı dondurulmuş, sadece LoRA parametreleri ve classifier head eğitilmiştir.

3. Results

4. Parameter Efficiency Analysis

Trainable parameter ratio:

443,906 / 67,839,746 ≈ 0.0131

Yani LoRA yalnızca %0.66 oranında parametre güncelleyerek:

0.8725 / 0.8862 ≈ %98.5 performans korumuştur.

Bu sonuç, LoRA'nın güçlü bir parametre-verimli adaptasyon yöntemi olduğunu göstermektedir.

5. Observations

Bu, attention-only LoRA konfigürasyonunun kapasite sınırına ulaştığını düşündürmektedir.

6. Limitation

Bu çalışmada LoRA yalnızca attention projeksiyon katmanlarına uygulanmıştır. Feed-forward katmanlar (FFN) adapte edilmemiştir.

Bu nedenle modelin tam fine-tuning performansına ulaşamaması beklenebilir.

7. Conclusion

Bu deney göstermektedir ki:

LoRA, parametrelerin yalnızca %0.66’sını güncelleyerek tam fine-tuning performansının %97’sine ulaşabilmektedir.

Bu, özellikle büyük ölçekli modellerde ciddi compute ve memory avantajı sağlayabilecek bir sonuçtur.

TEKNE - TECHNE