Görüntüde Aynı Nesnenin Birden Çok Örneği - CNN Kullanarak Nesne Algılama

Question 1

Görüntüdeki tek bir nesneyi algılamak için bir CNN eğitilebilir. Ancak, veri kümesindeki herhangi bir görüntü herhangi bir n # nesne içerebilirse ne olur. Çıktı yoğun katmanının sabit bir boyutta olması gerektiğinden, bu CNN'LER için bir sorun teşkil etmiyor mu? Bu sorunu nasıl çözersin?

Örneğin: Diyelim ki bu setten rastgele 2 görüntü örnekledim. Resim 1'de 2 nesne ve resim 2'de 5 nesne vardır. Img1 için y etiketi, 2 nesne için sınırlayıcı kutu koordinatlarını içerecektir; ımg2 için y etiketi, 5 nesne için koordinatları içerecektir-ımg1'den çok daha büyük y vektörü.

Olası bir çözüm mü? :

Görüntüyü en büyük nesne sayısına sahip bulmam gerekir (bu değeri M olarak belirtin). Ayrıca bir nesnenin 4 koordinatı olduğunu varsayalım. Eğer M = 5 olsaydı, 20'lik bir y vektörüne ihtiyacım olurdu. Bir görüntünün 1 nesnesi varsa, y vektörü 4 sıfır olmayan değer VE 16 sıfır değer içerecektir. Sıfır olmayan 4 değer koordinatları, 16 sıfır değer ise var olmayan diğer nesnelerin koordinatlarını temsil eder.

Question 2

Birden çok nesne sınıflandırması yapmanın temel yolu segmentasyon kullanmaktır. Bu, giriş görüntüsünü birkaç alt alana segmentlere ayırarak ve her alanı sinir ağına besleyerek yapılır.

Bununla birlikte, bu çok temel bir yöntemdir ve artık segmentasyonu otomatik olarak yapan birçok gelişmiş algoritma vardır.

Genel olarak, çoklu nesne sınıflandırması iki adımda ele alınır: Önce görüntünün hangi bölümlerinin nesneyi içerdiğini tahmin etmek için bir bölge önerisi algoritması.

İkincisi, önerilen bölgeleri sınıflandırmak için bir algoritmadır.

ımg kaynağı

Reda El Hail · Answer 1 · 2021-11-21T05:58:06

Birden çok nesne sınıflandırması yapmanın temel yolu segmentasyon kullanmaktır. Bu, giriş görüntüsünü birkaç alt alana segmentlere ayırarak ve her alanı sinir ağına besleyerek yapılır.

Bununla birlikte, bu çok temel bir yöntemdir ve artık segmentasyonu otomatik olarak yapan birçok gelişmiş algoritma vardır.

Genel olarak, çoklu nesne sınıflandırması iki adımda ele alınır: Önce görüntünün hangi bölümlerinin nesneyi içerdiğini tahmin etmek için bir bölge önerisi algoritması.

İkincisi, önerilen bölgeleri sınıflandırmak için bir algoritmadır.

ımg kaynağı

Daha Hızlı R-CNN gibi bir şey, ilgili gördüğü özellikleri çıkarmak için RPN kullanarak segmentasyon gerçekleştirir mi? Bu doğru bir anlayış mı? Ayrıca, görüntüler için değişken tahmin etiketleri olduğu göz önüne alındığında y vektörü neye benzeyecektir.

Görüntüde Aynı Nesnenin Birden Çok Örneği - CNN Kullanarak Nesne Algılama

Soru

En iyi cevabı

Diğer dillerde

Bu sayfa diğer dillerde

Bu kategoride popüler

Popüler soruları bu kategoride