Ada beberapa jenis jaringan saraf konvolusional, termasuk CNN tradisional, jaringan saraf berulang, jaringan konvolusional penuh, dan jaringan transformator spasial — antara lain.
CNN tradisional
CNN tradisional, juga dikenal sebagai CNN “vanila” terdiri dari serangkaian lapisan konvolusional dan pengelompokan, diikuti oleh satu atau lebih lapisan yang terhubung sepenuhnya. Seperti disebutkan, setiap lapisan konvolusi dalam jaringan ini melakukan serangkaian konvolusi dengan sekumpulan filter yang dapat diajarkan untuk mengekstraksi fitur dari gambar masukan.
Arsitektur Lenet-5, salah satu CNN pertama yang efektif untuk mengenali angka tulisan tangan, mengilustrasikan CNN konvensional. Ini memiliki dua set level konvolusional dan pengelompokan mengikuti dua level yang terhubung sepenuhnya. Efisiensi CNN dalam identifikasi gambar telah ditunjukkan oleh arsitektur Lenet-5, yang juga membuatnya lebih banyak digunakan dalam tugas visi komputer.
Jaringan saraf berulang
Jaringan saraf berulang (RNNs) adalah jenis jaringan saraf yang dapat memproses data berurutan dengan melacak konteks input sebelumnya. Jaringan saraf berulang dapat menangani input dengan panjang variabel dan menghasilkan output yang bergantung pada input sebelumnya, tidak seperti jaringan saraf feedforward biasa, yang hanya memproses data input dalam urutan tetap.
Misalnya, RNN dapat digunakan dalam tugas NLP seperti pembuatan teks atau terjemahan bahasa. Jaringan saraf berulang dapat dilatih pada pasangan kalimat dalam dua bahasa berbeda untuk mempelajari cara menerjemahkan di antara keduanya.
RNN memproses kalimat satu per satu, menghasilkan kalimat keluaran tergantung pada kalimat masukan dan keluaran sebelum setiap pass. RNN dapat menghasilkan terjemahan yang benar bahkan untuk teks kompleks karena melacak masukan dan keluaran sebelumnya.
Jaringan yang sepenuhnya konvolusional
Jaringan konvolusional penuh (FCN) adalah jenis arsitektur jaringan saraf yang biasa digunakan dalam tugas visi komputer seperti segmentasi gambar, deteksi objek, dan klasifikasi gambar. FCN dapat dilatih end-to-end menggunakan backpropagation untuk mengklasifikasikan atau mengelompokkan gambar.
Backpropagation adalah algoritma pelatihan yang menghitung gradien fungsi kerugian sehubungan dengan bobot jaringan saraf. Kemampuan model pembelajaran mesin untuk memprediksi keluaran yang diharapkan untuk masukan tertentu diukur dengan fungsi kerugian.
FCN hanya mengandalkan lapisan konvolusional, karena mereka tidak memiliki lapisan yang sepenuhnya terhubung, menjadikannya lebih adaptif dan efisien secara komputasi daripada jaringan saraf konvolusional konvensional. Jaringan yang mengambil gambar input dan mengembalikan lokasi dan klasifikasi objek di dalam gambar adalah contoh FCN.
Jaringan transformator luar angkasa
Jaringan transformator spasial (STN) digunakan dalam tugas visi komputer untuk meningkatkan invarian spasial dari fitur yang dipelajari dari jaringan. Kemampuan jaringan saraf untuk mengenali pola atau objek dalam gambar terlepas dari lokasi geografis, orientasi, atau skalanya dikenal sebagai invarian spasial.
Jaringan yang menerapkan transformasi spasial yang dipelajari ke gambar input sebelum memprosesnya lebih lanjut adalah contoh STN. Transformasi dapat digunakan untuk menyelaraskan objek dalam gambar, memperbaiki distorsi perspektif, atau melakukan modifikasi spasial lainnya untuk meningkatkan kinerja jaringan dalam pekerjaan tertentu.
Transformasi mengacu pada operasi apa pun yang memodifikasi gambar dengan cara tertentu, seperti memutar, menskalakan, atau memotong. Alignment mengacu pada proses memastikan bahwa objek dalam gambar secara konsisten dan bermakna terpusat, berorientasi, atau diposisikan.
Distorsi perspektif terjadi ketika objek dalam gambar tampak miring atau bengkok karena sudut atau jarak pengambilan gambar. Menerapkan berbagai transformasi matematis pada gambar, seperti transformasi affine, dapat digunakan untuk mengoreksi distorsi perspektif. Transformasi Affine mempertahankan garis paralel dan rasio jarak antar titik untuk mengoreksi distorsi perspektif atau perubahan spasial lainnya dalam gambar.
Perubahan spasial mengacu pada setiap perubahan pada struktur spasial suatu gambar, seperti membalik, memutar, atau menerjemahkan gambar. Perubahan ini dapat meningkatkan data pelatihan atau mengatasi tantangan khusus dalam aktivitas, seperti pencahayaan, kontras, atau perubahan latar belakang.