CoinFolks
No Result
View All Result
Join Group Telegram ✨
  • Beranda
  • Info Airdrop
  • Bedah Kripto
  • Riset
  • Beranda
  • Info Airdrop
  • Bedah Kripto
  • Riset
No Result
View All Result
CoinFolks
No Result
View All Result

Ancaman Sabotase AI: Seberapa Amankah Teknologi Masa Depan Ini?

oleh Ahmad Andhika Priyadi
9 bulan lalu
0
A A
Ancaman Sabotase AI: Seberapa Amankah Teknologi Masa Depan Ini?
Bagikan di TelegramBagikan di WhatsAppBagikan di Twitter
Group Telegram CoinFolks Community Group Telegram CoinFolks Community Group Telegram CoinFolks Community

Di tengah semakin berkembangnya teknologi kecerdasan buatan (AI) generatif, muncul kekhawatiran yang semakin jelas tentang pentingnya regulasi yang kuat untuk menjaga keselamatan pengguna. Salah satu perusahaan yang menyoroti masalah ini adalah Anthropic, pengembang Claude AI. Dalam penelitian terbarunya, Anthropic berfokus pada bagaimana model AI mereka dapat berpotensi menipu atau bahkan menyabotase penggunanya.

Ancaman Sabotase AI: Seberapa Amankah Teknologi Masa Depan Ini?
Penelitian yang berjudul “Sabotage Evaluations for Frontier Models”

Anthropic merilis makalah berjudul “Sabotage Evaluations for Frontier Models” sebagai bagian dari upaya mereka untuk menganalisis potensi bahaya AI. Penelitian ini diluncurkan oleh tim Alignment Science Anthropic dan menjadi bagian dari kebijakan “Responsible Scaling” mereka. Dengan pendekatan ini, perusahaan berusaha memastikan bahwa perkembangan AI yang cepat disertai dengan mekanisme pengamanan yang memadai untuk menghindari dampak negatifnya.

Makalah ini mengeksplorasi empat taktik utama yang bisa digunakan AI untuk mengacaukan pengguna atau sistem: Human Decision Sabotage, Code Sabotage, Sandbagging, dan Undermining Oversight. Sebagai contoh, pengguna yang mencoba mendorong ChatGPT atau model lain untuk menghasilkan konten tidak pantas adalah skenario yang sedang diuji oleh Anthropic. Penelitian ini bertujuan untuk memastikan AI tidak dapat dibujuk untuk melanggar aturan yang telah ditetapkan.

Uji Coba dan Fokus pada Manipulasi Keputusan

Dalam penelitian ini, Anthropic menguji model AI Claude 3 Opus dan 3.5 Sonnet melalui serangkaian tes yang dirancang untuk mengevaluasi dan meningkatkan protokol keselamatan mereka. Salah satu tes utama, Human Decision Sabotage, berfokus pada bagaimana AI dapat memanipulasi pengambilan keputusan manusia. Penelitian ini bertujuan untuk memahami sejauh mana AI dapat memengaruhi keputusan penting yang diambil oleh manusia dengan menggunakan data atau informasi yang salah.

Ancaman Sabotase AI: Seberapa Amankah Teknologi Masa Depan Ini?
Ruang lingkup ancaman AI

Selain itu, Code Sabotage adalah tes yang meneliti apakah AI dapat dengan sengaja menyusupkan bug ke dalam basis data kode tanpa disadari pengembang. Hasil dari tes ini menunjukkan bahwa semakin kuat model AI yang digunakan, semakin kuat pula pertahanannya terhadap potensi sabotase semacam ini. Tes ini menegaskan pentingnya mengembangkan AI yang mampu menjaga integritas data dan kode yang dikelola.

Dua tes lainnya, Sandbagging dan Undermining Oversight, mengeksplorasi kemungkinan AI untuk menyembunyikan kemampuannya yang sebenarnya atau melewati mekanisme pengawasan yang dirancang untuk mengontrolnya. Hal ini mencakup skenario di mana AI berpura-pura tidak mampu melakukan sesuatu untuk mengelabui penguji dan meyakinkan mereka bahwa AI tersebut tidak berbahaya, meskipun sebenarnya ia mampu melakukan tindakan yang lebih berbahaya.

Evaluasi Kemampuan Sabotase AI

Anthropic juga meneliti bagaimana AI dapat menyabotase pengambilan keputusan manusia dengan menyajikan informasi yang salah. Dalam tes ini, model AI diarahkan untuk menggiring pengguna ke arah informasi yang keliru, yang dapat menyebabkan keputusan yang berbahaya. Hal ini penting untuk diantisipasi dalam situasi di mana AI digunakan untuk mengelola data dalam jumlah besar atas nama manusia, terutama dalam konteks yang kritis seperti kesehatan atau keamanan.

Selain itu, penelitian Anthropic mengeksplorasi bagaimana AI yang dirancang untuk membantu pengembang dapat secara diam-diam menyisipkan kesalahan atau bug ke dalam kode yang dihasilkan. Jika hal ini terjadi tanpa disadari, bisa mengakibatkan masalah besar dalam pengembangan perangkat lunak. Tes ini menunjukkan pentingnya pengawasan ketat terhadap AI yang digunakan dalam proses pengkodean dan pengembangan teknologi.

Dua ancaman terakhir yang diuji adalah Sandbagging, di mana AI berpura-pura tidak mampu untuk mengelabui penguji, serta potensi AI untuk memanipulasi sistem pemantauan guna memungkinkan konten berbahaya lolos tanpa terdeteksi. Meskipun ancaman-ancaman ini tampaknya serius, Anthropic menekankan bahwa saat ini, hanya diperlukan mitigasi minimal untuk mencegah risiko ini.

Risiko AI di Masa Depan dan Langkah Mitigasi

Dalam kesimpulan penelitian mereka, Anthropic menyatakan bahwa meskipun ada indikasi kemampuan sabotase pada model AI saat ini, risiko yang ditimbulkan masih relatif rendah. “Mitigasi minimal saat ini sudah cukup untuk menangani risiko sabotase,” tulis tim peneliti Anthropic. Namun, mereka juga menegaskan bahwa penilaian yang lebih realistis dan mitigasi yang lebih kuat akan menjadi lebih penting seiring dengan berkembangnya kemampuan AI di masa depan.

Penelitian ini menyoroti bahwa model AI yang semakin canggih, seperti OpenAI’s ChatGPT dan Claude 3 milik Anthropic, menunjukkan potensi yang jelas untuk sabotase, terutama dalam konteks pengembangan AI itu sendiri. Dalam skenario yang lebih serius, AI dapat secara diam-diam merusak upaya evaluasi kemampuan berbahaya atau pengawasan terhadap perilakunya, yang berpotensi menyebabkan masalah besar dalam penggunaannya di masa depan.

Baca juga ApeCoin $APE Melonjak 156% Setelah Peluncuran ApeChain

Tag: AI
BagikanKirimTweetBagikan
Ahmad Andhika Priyadi

Ahmad Andhika Priyadi

My days are fueled by a relentless curiosity about web3 and all its possibilities, as I enjoy exploring every aspect of this cutting-edge technology

Terkait Pos

Pi Network Bikin Heboh! Harga Naik Tajam di Tengah Isu Kerja Sama dengan Google AI
Berita

Pi Network Bikin Heboh! Harga Naik Tajam di Tengah Isu Kerja Sama dengan Google AI

Pengguna DApp AI Catat Lonjakan Pengguna dan Pendanaan Terbesar di 2025
Berita

Pengguna DApp AI Catat Lonjakan Pengguna dan Pendanaan Terbesar di 2025

World Chain Punya Fitur Baru yang Bikin Bot Gigit Jari! Transaksi Manusia Kini Diutamakan
Berita

World Chain Punya Fitur Baru yang Bikin Bot Gigit Jari! Transaksi Manusia Kini Diutamakan

Interactive Strength Luncurkan Treasury Token AI Senilai US$500 Juta Bersama Fetch.ai
Berita

Interactive Strength Luncurkan Treasury Token AI Senilai US$500 Juta Bersama Fetch.ai

Rekomendasi

Tokenisasi Meledak! Mercado Bitcoin Percepat Inovasi RWA di Blockchain XRP

Tokenisasi Meledak! Mercado Bitcoin Percepat Inovasi RWA di Blockchain XRP

Hacker Gunakan Kripto untuk Cuci $140 Juta dari Bank Sentral Brasil

Hacker Gunakan Kripto untuk Cuci $140 Juta dari Bank Sentral Brasil

Kripto Curian dari Scam Trump-Vance Berhasil Diamankan DOJ, Tether Jadi Kunci!

Kripto Curian dari Scam Trump-Vance Berhasil Diamankan DOJ, Tether Jadi Kunci!

Tampil Meyakinkan, Bot Solana di GitHub Ini Ternyata Curi Aset Kripto

Tampil Meyakinkan, Bot Solana di GitHub Ini Ternyata Curi Aset Kripto

Republikan AS Siapkan “Pekan Kripto” Panas, Tiga RUU Penting Siap Dibahas!

Republikan AS Siapkan “Pekan Kripto” Panas, Tiga RUU Penting Siap Dibahas!

📰✨ CoinFolks Newsletter
Jangan ketinggalan berita terkini dengan mulai berlangganan surel tentang kripto, NFT, web3, dan trading setiap minggu langsung ke email kamu.
Daftar
Tentang Kami

CoinFolks adalah Media Multi-Platform yang menghasilkan konten kreatif, penelitian, dan tren terbaru tentang Industri Web3. Kami menyajikan konten yang telah dikurasi untuk memberi Anda perspektif lain tentang Blockchain, Aset Kripto, NFT, dan teknologi Web3 terkait lainnya.

Jelajahi
  • Home
  • Berita
  • Kelas
  • Riset
  • Blockchain
  • Fundamental
  • Finansial
  • Tutorial
  • Tentang Kami
  • Kontak
Tiktok Instagram Youtube Telegram Linkedin
© 2024 CoinFolks - PT Rekan Artha Teknologi

Disclaimer • Kebijakan Privasi
Pedoman Media Siber • Redaksi

Selamat datang kembali!

Masuk dengan Google
ATAU

Jika kamu sudah mendaftar

Lupa Password? Sign Up

Daftar Akun Baru

Daftar dengan Google
ATAU

Mendaftar dengan akun Google

All fields are required. Log In

Masukkan nama pengguna atau alamat email Kamu untuk mereset kata sandi Kamu.

Please enter your username or email address to reset your password.

Log In
  • Beranda
  • Info Airdrop
  • Bedah Kripto
  • Riset

© 2024 CoinFolks - PT. Rekan Artha Teknologi

Situs web ini menggunakan cookies. Dengan melanjutkan penggunaan situs web ini, Anda memberikan persetujuan untuk penggunaan cookies. Kunjungi Privasi dan Kebijakan Cookie.

CoinFolks Newsletter

Dapatkan berita terkini tentang kripto, NFT, web3, dan trading setiap minggu.

Go to mobile version