Görüntüdeki tek bir nesneyi algılamak için bir CNN eğitilebilir. Ancak, veri kümesindeki herhangi bir görüntü herhangi bir n # nesne içerebilirse ne olur. Çıktı yoğun katmanının sabit bir boyutta olması gerektiğinden, bu CNN'LER için bir sorun teşkil etmiyor mu? Bu sorunu nasıl çözersin?
Örneğin: Diyelim ki bu setten rastgele 2 görüntü örnekledim. Resim 1'de 2 nesne ve resim 2'de 5 nesne vardır. Img1 için y etiketi, 2 nesne için sınırlayıcı kutu koordinatlarını içerecektir; ımg2 için y etiketi, 5 nesne için koordinatları içerecektir-ımg1'den çok daha büyük y vektörü.
Olası bir çözüm mü? :
Görüntüyü en büyük nesne sayısına sahip bulmam gerekir (bu değeri M olarak belirtin). Ayrıca bir nesnenin 4 koordinatı olduğunu varsayalım. Eğer M = 5 olsaydı, 20'lik bir y vektörüne ihtiyacım olurdu. Bir görüntünün 1 nesnesi varsa, y vektörü 4 sıfır olmayan değer VE 16 sıfır değer içerecektir. Sıfır olmayan 4 değer koordinatları, 16 sıfır değer ise var olmayan diğer nesnelerin koordinatlarını temsil eder.