Memahami batas-batas jaringan saraf convolutional – salah satu pencapaian terbesar AI

 

Memahami batas-batas jaringan saraf convolutional - salah satu pencapaian terbesar AI

Memahami batas-batas jaringan saraf convolutional – salah satu pencapaian terbesar AI

Setelah musim dingin yang berkepanjangan, kecerdasan buatan mengalami musim panas yang terik terutama berkat kemajuan pembelajaran yang dalam dan jaringan saraf tiruan. Lebih tepatnya, minat baru dalam pembelajaran mendalam sebagian besar disebabkan oleh keberhasilan jaringan saraf convolutional (CNNs), struktur jaringan saraf yang sangat baik dalam menangani data visual.

Tetapi bagaimana jika saya katakan bahwa CNN secara mendasar cacat? Itulah yang dibicarakan Geoffrey Hinton, salah satu pelopor pembelajaran mendalam, dalam pidatonya di konferensi AAAI, salah satu konferensi AI tahunan utama.

Hinton, yang menghadiri konferensi dengan Yann LeCun dan Yoshua Bengio, dengan siapa ia merupakan trio “godfathers of deep learning” pemenang penghargaan Turin, berbicara tentang batas-batas CNN serta jaringan kapsul, rencana besarnya untuk terobosan berikutnya di AI .

Seperti semua pidatonya, Hinton membahas banyak detail teknis tentang apa yang membuat convnets tidak efisien — atau berbeda — dibandingkan dengan sistem visual manusia. Berikut ini adalah beberapa poin penting yang ia angkat. Tapi pertama-tama, seperti kebiasaan kita, beberapa latar belakang tentang bagaimana kita sampai di sini dan mengapa CNN menjadi begitu banyak bagi komunitas AI.
Memecahkan visi komputer

Sejak awal kecerdasan buatan, para ilmuwan berusaha membuat komputer yang bisa melihat dunia seperti manusia. Upaya telah menyebabkan bidang penelitian mereka sendiri secara kolektif dikenal sebagai visi komputer.

Pekerjaan awal dalam visi komputer melibatkan penggunaan kecerdasan buatan simbolis, perangkat lunak di mana setiap aturan harus ditentukan oleh pemrogram manusia. Masalahnya adalah, tidak setiap fungsi alat visual manusia dapat dipecah dalam aturan program komputer yang eksplisit. Pendekatan ini berakhir dengan keberhasilan dan penggunaan yang sangat terbatas.

Pendekatan yang berbeda adalah penggunaan pembelajaran mesin. Berbeda dengan AI simbolis, algoritma pembelajaran mesin diberi struktur umum dan dilepaskan untuk mengembangkan perilaku mereka sendiri dengan memeriksa contoh pelatihan. Namun, sebagian besar algoritma pembelajaran mesin masih membutuhkan banyak upaya manual untuk merekayasa bagian yang mendeteksi fitur yang relevan dalam gambar.
mesin klasik belajar deteksi kanker payudara
Pendekatan pembelajaran mesin klasik melibatkan banyak langkah rumit dan membutuhkan kolaborasi puluhan pakar domain, ahli matematika, dan pemrogram.

Jaringan saraf convolutional, di sisi lain, adalah model AI ujung-ke-ujung yang mengembangkan mekanisme

pendeteksian fitur mereka sendiri. CNN yang terlatih dengan banyak lapisan secara otomatis mengenali fitur-fitur secara hierarkis, dimulai dengan ujung dan sudut sederhana hingga ke objek kompleks seperti wajah, kursi, mobil, anjing, dll.

CNN pertama kali diperkenalkan pada 1980-an oleh LeCun, kemudian rekan riset postdoc di lab Hinton di University of Toronto. Tetapi karena kebutuhan komputasi dan data yang sangat besar, mereka jatuh di pinggir jalan dan memperoleh adopsi yang sangat terbatas. Butuh tiga dekade dan kemajuan dalam perangkat keras komputasi dan teknologi penyimpanan data bagi CNN untuk mewujudkan potensi penuh mereka.

Hari ini, berkat ketersediaan cluster komputasi besar, perangkat keras khusus, dan data dalam jumlah besar, convnets telah menemukan banyak aplikasi yang berguna dalam klasifikasi gambar dan pengenalan objek.

Visualisasi fitur jaringan saraf
Setiap lapisan jaringan saraf akan mengekstraksi fitur spesifik dari gambar input.

Perbedaan antara CNN dan visi manusia

“CNN mempelajari semuanya dari ujung ke ujung. Mereka mendapatkan kemenangan besar dengan memasang kabel

pada kenyataan bahwa jika suatu fitur bagus di satu tempat, itu bagus di tempat lain. Ini memungkinkan mereka untuk menggabungkan bukti dan menggeneralisasi posisi dengan baik, ”kata Hinton dalam pidatonya AAAI. “Tapi mereka sangat berbeda dari persepsi manusia.”

Salah satu tantangan utama dari visi komputer adalah untuk berurusan dengan varian data di dunia nyata. Sistem visual kami dapat mengenali objek dari sudut yang berbeda, terhadap latar belakang yang berbeda, dan dalam kondisi pencahayaan yang berbeda. Ketika sebagian objek dikaburkan oleh objek lain atau diwarnai dengan cara eksentrik, sistem visi kami menggunakan isyarat dan bagian pengetahuan lainnya untuk mengisi informasi yang hilang dan alasan tentang apa yang kami lihat.

Membuat AI yang dapat mereplikasi kemampuan pengenalan objek yang sama telah terbukti sangat sulit.

“CNN dirancang untuk mengatasi terjemahan,” kata Hinton. Ini berarti bahwa convnet yang terlatih dapat mengidentifikasi objek terlepas dari mana ia muncul dalam gambar. Tetapi mereka tidak begitu pandai berurusan dengan efek lain dari mengubah sudut pandang seperti rotasi dan penskalaan.

Salah satu pendekatan untuk memecahkan masalah ini, menurut Hinton, adalah menggunakan peta 4D atau 6D

untuk melatih AI dan kemudian melakukan deteksi objek. “Tapi itu menjadi sangat mahal,” tambahnya.

Untuk saat ini, solusi terbaik yang kami miliki adalah mengumpulkan sejumlah besar gambar yang menampilkan setiap objek di berbagai posisi. Kemudian kami melatih CNN kami pada dataset besar ini, berharap itu akan melihat cukup banyak contoh objek untuk umum

Sumber:

https://41914110003.blog.mercubuana.ac.id/seva-mobil-bekas/