Pengarang: Edward Ma
Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.
Pembelajaran mesin
Metode Traversal Terjauh Pertama Mis-match
Foto oleh John-Mark Smith di Unsplash
Pembelajaran Aktif adalah salah satu strategi pengajaran yang melibatkan peserta didik (misalnya siswa) untuk berpartisipasi dalam proses pembelajaran secara aktif. Dibandingkan dengan proses pembelajaran tradisional, peserta didik tidak hanya duduk dan mendengarkan tetapi bekerja sama dengan guru secara interaktif. Kemajuan belajar dapat disesuaikan dengan umpan balik dari peserta didik. Oleh karena itu, siklus belajar aktif sangat penting. Jika Anda tidak terbiasa dengan pembelajaran aktif, Anda dapat mengunjungi posting ini.
Arsitektur Keseluruhan
Selain Pembelajaran Semi-diawasi dalam Pembelajaran Aktif, kita akan membahas pendekatan lain yang memanfaatkan pembelajaran tanpa pengawasan dan pembelajaran terawasi bersama dalam pembelajaran aktif. Shuyang dkk. (2018) mengusulkan untuk menggunakan k -medoids (mirip dengan k-mean tetapi cluster centric harus menjadi salah satu titik data) untuk mengidentifikasi cluster centric dan kemudian memperkirakan titik data yang paling tidak mungkin dari cluster yang sama untuk anotasi.
Proses pelabelan keseluruhan (Shuyang et al., 2018)
Kekelompokan
Pendekatan K-medoids diterapkan untuk mengidentifikasi cluster centroid. Berbeda dengan implementasi K-medoids klasik, ini didasarkan pada traversal terjauh-pertama. Setelah mengidentifikasi centroid, ahli materi pelajaran (UKM) akan mengerjakan anotasi. Biasanya, kita akan mulai dengan cluster kecil kata 4. Shuyang et al. (2018) memperkirakan jumlah cluster dengan metode uji lingkungan median. Pendeknya,
Salah Pertandingan Pertama
Setelah UKM menganotasi beberapa titik data, ini dapat digunakan untuk melatih model klasifikasi dan memprediksi sisa titik data yang tidak diberi anotasi. Pengklasifikasi tetangga terdekat dan pengklasifikasi berbasis model (misalnya regresi logistik) dilatih untuk prediksi. Jika label yang diprediksi tidak selaras, label tersebut akan dipilih sebagai kandidat untuk putaran anotasi lainnya.
Pencarian Terjauh
Memiliki satu set titik data ketidakcocokan, Shuyang et al. (2018) mengusulkan untuk memilih yang jauh dari pusat cluster. Asumsinya adalah bahwa label yang merambat dengan jarak terbesar kemungkinan besar tidak termasuk dalam kategori tertentu.
Kode Python oleh NLPatl
NLPatl memberikan ketidakcocokan pembelajaran terjauh pertama seperti dalam pembelajaran aktif. Ini bukan implementasi yang persis sama tetapi mengikuti arsitektur yang serupa dan lebih fleksibel.
Anda hanya perlu menyesuaikan data Anda dengannya dan Anda dapat membubuhi keterangan pada titik data yang paling berharga dan titik data yang dipelajari sendiri. Mari bersiap-siap untuk mengotori tangan Anda. Saya akan menjelaskan bagaimana Anda bisa menerapkan pembelajaran aktif di NLP dengan beberapa baris kode. Anda dapat mengunjungi buku catatan ini untuk versi lengkap kodenya.
belajar = MismatchTerjauhBelajar(
clustering_sampling=’terdekat_mean’,
embeddings=’bert-base-uncased’, embeddings_type=’transformers’,
embeddings_model_config={‘nn_fwk’: ‘pt’, ‘padding’: Benar,
‘batch_size’:8},
clustering=’kmeans’, clustering_model_config={‘n_cluster’: 3},
klasifikasi=’logistic_regression’) learning.explore_educate_in_notebook(train_texts)
Referensi
Suka belajar?
Saya Data Scientist di Bay Area. Berfokus pada state-of-the-art dalam Ilmu Data, Kecerdasan Buatan, terutama dalam NLP dan terkait platform. Jangan ragu untuk terhubung dengan saya di LinkedIn atau Github.
Mismatch-first Farthest-search in Active Learning awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.
Diterbitkan melalui Menuju AI