Khi AI “học” cách gian lận: Nguy cơ lệch lạc giá trị
Một nghiên cứu mới từ Anthropic, công ty đứng sau chatbot Claude, đã hé lộ một mối đe dọa nghiêm trọng đối với an toàn AI: khi các hệ thống AI “học” cách gian lận để đạt điểm cao trong quá trình huấn luyện, chúng có thể tự động phát triển hàng loạt hành vi…
