Model çalışıyordu—ama doğru çalışmıyordu.
Ekip haftalardır aynı sorunun peşindeydi. Tahminler bir tutuyordu, bir tutmuyordu. Hatta bazı sonuçlar tamamen anlamsızdı. Kod tekrar tekrar incelendi, model mimarisi değiştirildi, hiperparametreler ince ayarlandı… ama hiçbir şey gerçekten işe yaramadı.
Sonunda biri farklı bir şey denedi. Koda bakmayı bıraktı ve veriye odaklandı.
Rastgele birkaç örnek seçti. İlk görüntüde etiket “kedi”ydi. Ama ekrana baktığında gerçek çok açıktı—bu bir köpekti.
Bir tane daha açtı. Yine “kedi”. Ama yine köpek.
Daha fazla örnek incelendi ve tablo netleşti: sorun küçücük değildi. Veri setinin ciddi bir bölümü yanlış etiketlenmişti.
Model aslında hatalı değildi. Tam tersine, kendisine ne öğretildiyse onu doğru öğrenmişti.
Yani problem modelde değil, gerçeğin kendisindeydi.
En Çok Atlanan Katman
Makine öğrenmesi projelerinde genelde hep aynı şeyler konuşulur: model mimarisi, optimizasyon, performans metrikleri…
Ama neredeyse kimse şu konuyu yeterince konuşmaz:
👉 Veri kalitesi
Çünkü veri çoğu zaman “zaten hazır” gibi kabul edilir. Oysa gerçek şu: veri çoğu zaman üretilir. Ve onu üreten de insandır.
Etiketleme: Göründüğünden Daha Karmaşık
Veri etiketleme genelde basit bir iş gibi görülür. Ama aslında oldukça yorucu, tekrar eden ve dikkat isteyen bir süreçtir.
Ve insan zihni bu tür işlerde hızla düşüşe geçer. Dikkat azalır, varsayımlar artar, hatalar çoğalır. Bir noktadan sonra kişi gerçekten bakmaz—sadece işaretler.
Yavaş Zehir Etkisi
Etiketleme hataları tehlikelidir çünkü sistemi bir anda çökertmez. Bunun yerine yavaş yavaş etkisini gösterir.
Model eğitilir, çalışır… ama hep “biraz yanlış”tır. Ve o küçük yanlışlık zamanla büyür, derinleşir.
Shisa Kanko Nerede Fark Yaratır?
Veri etiketleme, Shisa Kanko’nun en etkili olabileceği alanlardan biridir. Çünkü buradaki asıl mesele teknik değil—dikkattir.
Basit uygulamalar bile fark yaratabilir:
• “Bu görüntü: kedi” diye sesli teyit etmek
• “Toplam 120 örnek etiketlendi” diye sayarak doğrulamak
• “Bu sınıf dengesiz mi?” diye kendine sormak
Bu küçük adımlar otomatik pilotu kırar, dikkati geri getirir ve hataları görünür hale getirir.
Dikkat Bir Kaynaktır
Çoğu ekip araçlara yatırım yapar ama en kritik kaynağı gözden kaçırır: insan dikkati.
Araştırmalar açıkça gösteriyor: masadaki bir telefon bile performansı düşürebilir. Uzun süreli tekrar dikkat kalitesini azaltır, molasız çalışma ise hata oranını artırır.
Bu yüzden Pomodoro gibi teknikler, dikkat dağıtıcıları ortadan kaldırmak ve kısa kontrol ritüelleri oluşturmak sadece “iyi alışkanlık” değildir—bunlar gerçek bir kalite kontrol mekanizmasıdır.
“Garbage In, Garbage Out”
Makine öğrenmesinin en eski kuralı hâlâ geçerli:
👉 Çöp veri girersen, çöp sonuç alırsın.
Ama çoğu zaman veri gerçekten “çöp” değildir. Sadece biraz hatalıdır, biraz eksiktir, biraz da dikkatsiz hazırlanmıştır.
Ve işte o “biraz” sistemi sessizce bozar.
Küçük Bir Soru, Büyük Fark
O problemi çözmek için gereken şey aslında çok basitti: birinin durup gerçekten bakması.
Ve şu soruyu sorması:
“Bu gerçekten kedi mi?”
Yapay zekâ sistemleri karmaşık olabilir. Ama onları besleyen şey oldukça basit: veri.
Ve veriyi oluşturan şey de insan.
Teknoloji gelişir, modeller değişir, araçlar yenilenir… ama bu gerçek değişmez:
En zayıf halka hâlâ aynı.
Model doğruydu. Ama ona yanlış öğretildi.