Lộ diện kĩ thuật bẻ khóa AI, bắt trí tuệ nhân tạo phải 'dạy' cách tạo bom xăng hay tiết lộ thông tin nguy hiểm

Thứ 2, 01/07/2024 12:29
Kỹ thuật "Skeleton Key" cho phép "vượt qua rào cản" an toàn của các mô hình ngôn ngữ lớn, khiến chúng có thể bị lợi dụng để tạo ra thông tin nguy hiểm. Từ công thức chế tạo bom xăng cho đến kiến thức về vũ khí sinh học, nguy cơ tiềm ẩn từ lỗ hổng này là vô cùng đáng lo ngại.

Các chuyên gia bảo mật tại Microsoft đã phát hiện ra một kỹ thuật "jailbreak" AI đáng lo ngại có tên gọi "Skeleton Key", cho phép người dùng khai thác lỗ hổng bảo mật để buộc các mô hình ngôn ngữ lớn tiết lộ thông tin nguy hiểm. Theo Mark Russinovich, giám đốc công nghệ của Microsoft Azure, kỹ thuật này có thể được sử dụng để buộc các mô hình AI như Llama3 của Meta, Gemini Pro của Google và GPT 3.5 của OpenAI cung cấp công thức chế tạo bom xăng và nhiều thông tin nguy hiểm khác.

Lộ diện kĩ thuật bẻ khóa AI, bắt trí tuệ nhân tạo phải 'dạy' cách tạo bom xăng hay tiết lộ thông tin nguy hiểm- Ảnh 1.

Điều đáng lo ngại hơn là "Skeleton Key" có khả năng vượt qua các "rào cản" bảo mật được thiết lập để ngăn chặn các yêu cầu độc hại. Russinovich cho biết: "Giống như tất cả các kỹ thuật vượt ngục khác, Skeleton Key hoạt động bằng cách thu hẹp khoảng cách giữa những gì mô hình có khả năng làm (dựa trên thông tin đăng nhập của người dùng, v.v.) và những gì nó sẵn sàng làm". Không giống như các kỹ thuật "vượt ngục" khác, "Skeleton Key" có thể buộc các mô hình AI tiết lộ thông tin một cách trực tiếp và đầy đủ, thay vì phải khai thác một cách gián tiếp.

Microsoft đã thử nghiệm "Skeleton Key" trên nhiều mô hình AI khác nhau và kết quả cho thấy kỹ thuật này hoạt động hiệu quả trên hầu hết các mô hình phổ biến hiện nay, bao gồm Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus, và Cohere Commander R Plus. Mô hình duy nhất cho thấy khả năng kháng cự nhất định là GPT-4 của OpenAI. Russinovich cho biết Microsoft đã phát hành một số bản cập nhật phần mềm để giảm thiểu tác động của "Skeleton Key" đối với các mô hình ngôn ngữ lớn của họ, bao gồm cả trợ lý AI Copilot.

Tuy nhiên, ông cũng khuyến cáo các công ty phát triển hệ thống AI nên thiết kế thêm các lớp bảo mật bổ sung, đồng thời giám sát chặt chẽ dữ liệu đầu vào và đầu ra của hệ thống để phát hiện kịp thời các nội dung độc hại. Từ đó, các biện pháp ngăn chặn và xử lý kịp thời sẽ giúp hạn chế rủi ro từ lỗ hổng "Skeleton Key" gây ra.

Ánh Viên

Cùng chuyên mục

5 con vẹt trong công viên bị cách ly vì liên tục chửi thề, lăng mạ khách, giám đốc đi qua còn bị gọi là… béo

Thứ 4, 24/12/2025 19:13
Một công viên động vật hoang dã tại Anh đã buộc phải tạm thời đưa 5 con vẹt ra khỏi khu vực tham quan công cộng sau khi chúng liên tục buông lời chửi thề với khách và cả nhân viên.

Có 5 kiểu cha mẹ, dù hiện tại rất nghèo nhưng con cái sau này lại tương lai xán lạn, dễ đổi đời giàu có!

Thứ 4, 24/12/2025 19:04
5 kiểu cha mẹ này sẽ sinh ra những đứa con xuất chúng.

Khách Việt kể chuyện đi ngắm tuyết trên núi cao hơn 4000m ở Trung Quốc, nhận xét: "Không ngờ đến mức này!"

Thứ 4, 24/12/2025 19:00
Du khách không ngờ mình lại gặp phải tình trạng này.

Đặc vụ Ukraine đột nhập căn cứ Nga, hai máy bay 100 triệu USD bị hủy không ai hay - NATO cũng 'giật mình'

Thứ 4, 24/12/2025 18:58
Ukraine tuyên bố đã phá hủy hai máy bay chiến đấu của Nga bằng cách đột nhập một nhà kho tại sân bay hồi cuối tuần qua, ước tính tổng giá trị của hai máy bay lên tới 100 triệu USD.
     
Nổi bật trong ngày

Vây bắt con trăn "khủng" dài 4m bò qua cửa sắt vào nhà dân: Xác định nguồn gốc

Thứ 3, 23/12/2025 06:36
Đoạn clip ghi lại diễn biến người dân cùng lực lượng chức năng vây bắt con trăn "khủng" đã nhận được nhiều sự chú ý.

Steam tiếp tục "mát tay", game thủ nhận miễn phí một tựa game bắn súng, thời hạn tới hết năm

Thứ 3, 23/12/2025 09:55
Dù không quá đắt đỏ nhưng đây cũng là cơ hội để các game thủ làm dày thêm thư viện game của mình.

Khám xét khẩn cấp, bắt Nguyễn Thị Xuân An 31 tuổi - Chủ tịch HĐTV Công ty Minh Nhật Duy

Thứ 3, 23/12/2025 11:02
Nguyễn Thị Xuân An bị bắt cùng với Giám đốc và Phó Giám đốc Công ty Minh Nhật Duy.

Nam bảo vệ 45 tuổi bị đâm tử vong ở cổng bệnh viện: Ngỡ ngàng lời khai của kẻ xuống tay

Thứ 3, 23/12/2025 13:52
Thời điểm xảy ra sự việc, nạn nhân xảy ra tranh cãi với đồng nghiệp, còn Tâm ngồi uống cà phê ở gần đó.

Oda xác nhận: One Piece sẽ tăng tốc với "tốc độ chóng mặt" trong năm tới

Thứ 3, 23/12/2025 16:30
Tại sự kiện Jump Festa 2026, Eiichiro Oda đã gửi tới một thông điệp đặc biệt, khẳng định hành trình của Luffy trong One Piece đang tiến gần tới đích đến cuối cùng với một tốc độ "không tưởng".
xe.nguoiduatin.vn