Q:
Bagaimanakah bantuan pooling max menjadikan AlexNet teknologi yang hebat untuk pemprosesan imej?
A:Di AlexNet, rangkaian neural konvensional yang konvensional, konsep penyatuan max dimasukkan ke dalam model yang kompleks dengan beberapa lapisan convolutional, sebahagiannya untuk membantu dengan pemasangan dan untuk menyelaraskan kerja yang dilakukan oleh rangkaian saraf dalam bekerja dengan imej dengan apa yang ahli menelpon sebuah "strategi penampan bukan linear."
AlexNet secara meluas dianggap sebagai CNN yang cukup hebat, setelah memenangi 2012 ILSVRC (ImageNet Large-Scale Visual Recognition Challenge), yang dilihat sebagai peristiwa aliran air untuk pembelajaran mesin dan kemajuan rangkaian saraf (ada yang menyebutnya sebagai "Olimpik" penglihatan komputer ).
Dalam rangka rangkaian, di mana latihan dibahagikan kepada dua GPU, terdapat lima lapisan konvolusi, tiga lapisan sambungan yang sepenuhnya dan beberapa pelaksanaan penggabungan maksimum.
Pada dasarnya, pengumpulan max mengambil "kolam" output dari koleksi neuron dan menerapkannya pada nilai lapisan seterusnya. Satu lagi cara untuk memahami ini adalah pendekatan max pooling dapat menyatukan dan mempermudah nilai demi memasukan model dengan lebih sesuai.
Pengumpulan maksimal dapat membantu menghitung kecerunan. Orang boleh mengatakan bahawa ia "mengurangkan beban pengiraan" atau "mengecilkan overfitting" - melalui downsampling, max pooling melibatkan apa yang disebut "pengurangan dimensi."
Pengurangan kepelbagaian berkaitan dengan isu yang mempunyai model yang terlalu rumit yang sukar dijalankan melalui rangkaian saraf. Bayangkan bentuk yang kompleks, dengan banyak kontur bergerigi kecil, dan setiap baris kecil diwakili oleh titik data. Dengan pengurangan dimensi, jurutera membantu program pembelajaran mesin untuk "mengezum keluar" atau mengambil sampel data yang lebih sedikit, untuk membuat model secara keseluruhan lebih mudah. Itulah sebabnya jika anda melihat lapisan penyatuan max dan outputnya, anda kadang-kadang dapat melihat piksel yang lebih mudah sepadan dengan strategi pengurangan dimensi.
AlexNet juga menggunakan fungsi yang dipanggil unit linear diperbetulkan (ReLU), dan penyatuan max boleh menjadi pelengkap kepada teknik ini dalam memproses imej melalui CNN.
Pakar dan mereka yang terlibat dalam projek itu telah menyampaikan model visual yang banyak, persamaan dan butir-butir lain untuk menunjukkan pembentukan AlexNet yang spesifik, tetapi secara umum, anda boleh memikirkan pengumpulan maksimum sebagai koala atau menggabungkan output pelbagai neuron tiruan. Strategi ini adalah sebahagian daripada pembentukan keseluruhan CNN, yang telah menjadi sinonim dengan penglihatan mesin dan klasifikasi imej yang canggih.