Lộ diện kĩ thuật bẻ khóa AI, bắt trí tuệ nhân tạo phải 'dạy' cách tạo bom xăng hay tiết lộ thông tin nguy hiểm

Thứ 2, 01/07/2024 12:29
Kỹ thuật "Skeleton Key" cho phép "vượt qua rào cản" an toàn của các mô hình ngôn ngữ lớn, khiến chúng có thể bị lợi dụng để tạo ra thông tin nguy hiểm. Từ công thức chế tạo bom xăng cho đến kiến thức về vũ khí sinh học, nguy cơ tiềm ẩn từ lỗ hổng này là vô cùng đáng lo ngại.

Các chuyên gia bảo mật tại Microsoft đã phát hiện ra một kỹ thuật "jailbreak" AI đáng lo ngại có tên gọi "Skeleton Key", cho phép người dùng khai thác lỗ hổng bảo mật để buộc các mô hình ngôn ngữ lớn tiết lộ thông tin nguy hiểm. Theo Mark Russinovich, giám đốc công nghệ của Microsoft Azure, kỹ thuật này có thể được sử dụng để buộc các mô hình AI như Llama3 của Meta, Gemini Pro của Google và GPT 3.5 của OpenAI cung cấp công thức chế tạo bom xăng và nhiều thông tin nguy hiểm khác.

Lộ diện kĩ thuật bẻ khóa AI, bắt trí tuệ nhân tạo phải 'dạy' cách tạo bom xăng hay tiết lộ thông tin nguy hiểm- Ảnh 1.

Điều đáng lo ngại hơn là "Skeleton Key" có khả năng vượt qua các "rào cản" bảo mật được thiết lập để ngăn chặn các yêu cầu độc hại. Russinovich cho biết: "Giống như tất cả các kỹ thuật vượt ngục khác, Skeleton Key hoạt động bằng cách thu hẹp khoảng cách giữa những gì mô hình có khả năng làm (dựa trên thông tin đăng nhập của người dùng, v.v.) và những gì nó sẵn sàng làm". Không giống như các kỹ thuật "vượt ngục" khác, "Skeleton Key" có thể buộc các mô hình AI tiết lộ thông tin một cách trực tiếp và đầy đủ, thay vì phải khai thác một cách gián tiếp.

Microsoft đã thử nghiệm "Skeleton Key" trên nhiều mô hình AI khác nhau và kết quả cho thấy kỹ thuật này hoạt động hiệu quả trên hầu hết các mô hình phổ biến hiện nay, bao gồm Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus, và Cohere Commander R Plus. Mô hình duy nhất cho thấy khả năng kháng cự nhất định là GPT-4 của OpenAI. Russinovich cho biết Microsoft đã phát hành một số bản cập nhật phần mềm để giảm thiểu tác động của "Skeleton Key" đối với các mô hình ngôn ngữ lớn của họ, bao gồm cả trợ lý AI Copilot.

Tuy nhiên, ông cũng khuyến cáo các công ty phát triển hệ thống AI nên thiết kế thêm các lớp bảo mật bổ sung, đồng thời giám sát chặt chẽ dữ liệu đầu vào và đầu ra của hệ thống để phát hiện kịp thời các nội dung độc hại. Từ đó, các biện pháp ngăn chặn và xử lý kịp thời sẽ giúp hạn chế rủi ro từ lỗ hổng "Skeleton Key" gây ra.

Ánh Viên

Cùng chuyên mục

Không phải Mỹ Khê, đây mới là đại diện duy nhất của Việt Nam lọt top 100 bãi biển đẹp nhất thế giới

Thứ 5, 11/06/2026 00:00
Một bãi biển còn khá xa lạ với nhiều du khách bất ngờ trở thành đại diện duy nhất của Việt Nam trong danh sách 100 bãi biển đẹp nhất thế giới năm 2026.

Xem phim Sex Education, tôi nhớ lại cuộc gọi lúc 5h sáng của con gái: Cả đời tôi, đó là lần dạy con tâm đắc nhất, không bao giờ quên!

Thứ 4, 10/06/2026 22:46
Được sự tiếp sức và định hướng của bố, con gái tôi như gột rửa được sự nghi ngờ bản thân, con lau khô nước mắt và vững vàng tiếp tục kỳ thực tập với một cái đầu ngẩng cao.

Tất cả người dân hay ship hàng chú ý đề xuất quy định mới nhất

Thứ 4, 10/06/2026 22:41
Rất có thể trong tương lai gần, người dân muốn gửi ship hàng sẽ phải làm định danh.

Bác sĩ cảnh báo: Duy trì 4 thói quen này 3–6 tháng, cơ thể bắt đầu “già đi” rõ rệt

Thứ 4, 10/06/2026 22:37
Cho rằng tuổi già là nguyên nhân khiến cơ thể suy yếu, nhiều người bỏ qua những thói quen sinh hoạt hàng ngày. Tuy nhiên, theo các bác sĩ, phần lớn tình trạng “lão hóa sớm” của nội tạng lại đến từ chính lối sống thiếu lành mạnh kéo dài.

Sáng ngày đi thi tốt nghiệp THPT, đừng mắc 5 sai lầm này

Thứ 4, 10/06/2026 22:33
Bên cạnh việc giữ vững tâm lý, các sĩ tử cần lưu ý tránh những sai sót nhỏ dưới đây để có thể tự tin hoàn thành bài làm tốt nhất.
     
Nổi bật trong ngày

World Cup 2026 nổ tranh cãi lớn: FIFA bất ngờ thu hồi vé dành cho CĐV Iran chỉ vài ngày trước trận ra quân

Thứ 4, 10/06/2026 07:45
Chỉ vài ngày trước khi World Cup 2026 khởi tranh, FIFA bất ngờ thu hồi vé dành cho CĐV Iran.

Cận cảnh GAC GS3 sắp về Việt Nam: 177 PS, có chi tiết hiếm thấy trong phân khúc, sẵn sàng "đấu" Yaris Cross, Xforce

Thứ 4, 10/06/2026 08:30
Trước thời điểm ra mắt trong tháng 6, GAC GS3 dần lộ diện với cấu hình cao cấp nhất, động cơ 1.5 tăng áp 177 PS và nhiều công nghệ hỗ trợ lái đáng chú ý.

Starbucks bị tẩy chay, khách hàng đập cốc, đòi hoàn tiền

Thứ 4, 10/06/2026 11:02
Những chiếc cốc giữ nhiệt bị đập vỡ, ứng dụng khách hàng thân thiết bị xóa hàng loạt, hàng nghìn người đồng loạt yêu cầu hoàn tiền trong thẻ trả trước. Đó là những gì Starbucks Hàn Quốc phải đối mặt.

Cảnh nóng đầu tiên của Trương Bá Chi bạo đến mức nào mà khiến một phim bom tấn hot trở lại sau 21 năm

Thứ 4, 10/06/2026 13:10
Cảnh giường chiếu của Trương Bá Chi trong bom tấn "Vô Cực" bất ngờ hot trở lại, netizen ngán ngẩm phim Hoa ngữ đang thụt lùi sau 2 thập kỷ?

Chính quyền Mỹ ra thông báo chấn động về trọng tài World Cup 2026 bị từ chối nhập cảnh: Lo ngại khủng bố!

Thứ 4, 10/06/2026 14:25
Trọng tài World Cup bị Mỹ nghi có liên hệ khủng bố, bị giữ 11 tiếng trong phòng thẩm vấn rồi trục xuất.
xe.nguoiduatin.vn