Sau 3 tháng mày mò, nhà nghiên cứu bảo mật tìm được cách "nhiễm độc" cho ChatGPT, ăn trộm dữ liệu người dùng chỉ bằng vài câu lệnh

Nguyễn Hải

Hóa ra các nội dung như trong email, bài đăng trên blog và các tài liệu tự tạo có thể làm ChatGPT bị "nhiễm độc" và gửi dữ liệu người dùng cho hacker.

Một lỗ hổng bảo mật nghiêm trọng trong ChatGPT vừa được phát hiện, cho phép tin tặc cài đặt thông tin sai lệch và chỉ thị độc hại vào bộ nhớ dài hạn trong thiết bị của người dùng. Điều đáng lo ngại là lỗ hổng này có thể bị lợi dụng để đánh cắp toàn bộ dữ liệu người dùng trong thời gian dài.

Trước đó, nhà nghiên cứu bảo mật Johann Rehberger đã phát hiện ra lỗ hổng này và báo cáo cho OpenAI vào tháng 5/2023. Tuy nhiên, ban đầu, OpenAI chỉ coi đây là vấn đề an toàn chứ không phải bảo mật nên đã không yêu cầu điều tra về lỗ hổng được thông báo. Không bỏ cuộc, Rehberger sau đó đã nghiên cứu và tạo ra một bằng chứng thực tế về cách khai thác lỗ hổng này nhằm đánh cắp dữ liệu người dùng. Điều này đã khiến OpenAI phải chú ý và đưa ra bản vá một phần vào đầu tháng này.

Lỗ hổng này nằm ở tính năng ghi nhớ trong dài hạn của ChatGPT, được triển khai rộng rãi vào tháng Hai năm 2024. Tính năng này cho phép ChatGPT lưu trữ thông tin từ các cuộc trò chuyện trước đó và sử dụng làm ngữ cảnh cho tất cả các cuộc trò chuyện trong tương lai. Điều đó giúp mô hình ngôn ngữ AI này nhận biết được các thông tin như tuổi tác, giới tính, quan điểm của người dùng mà không cần nhập lại trong mỗi lần trò chuyện.

Trong suốt 3 tháng nghiên cứu, Rehberger đã chứng minh rằng các thông tin ghi nhớ có thể được tạo ra và lưu trữ vĩnh viễn vào ChatGPT thông qua prompt injection (các lời nhắc độc hại) – một thủ thuật khiến các Mô hình AI tuân theo những chỉ thị từ các nguồn nội dung không đáng tin cậy như email, bài đăng trên blog hoặc tài liệu tự tạo.

Bằng cách đó, nhà nghiên cứu này có thể đánh lừa ChatGPT tin rằng một người dùng cụ thể 102 tuổi, sống trong Ma trận và khăng khăng Trái đất phẳng. Những ký ức giả mạo này có thể được cài đặt thông qua các tệp tin lưu trữ trên Google Drive hoặc Microsoft OneDrive, tải lên hình ảnh, hoặc duyệt một trang web như Bing - tất cả đều có thể được tạo ra bởi một kẻ tấn công độc hại. Tuy nhiên khi báo cáo này được gửi cho OpenAI, họ lại bỏ qua và cho rằng đó chỉ là vấn đề về an toàn thông tin chứ không phải bảo mật.

Bằng chứng cho thấy việc lây nhiễm các câu lệnh độc hại cho ChatGPT để ăn trộm dữ liệu người dùng

Nhưng sau đó, Rehberger lại gửi kèm một bằng chứng khác cho thấy ứng dụng ChatGPT trên MacOS gửi một bản sao của toàn bộ dữ liệu đầu vào và đầu ra giữa người dùng và ChatGPT tới một máy chủ do hacker kiểm soát. Cách làm rất đơn giản – chỉ cần người dùng yêu cầu ChatGPT xem một liên kết web chứa hình ảnh độc hại, tất cả dữ liệu sau đó sẽ bị gửi đến website của kẻ tấn công.

Mặc dù OpenAI đã đưa ra bản vá ngăn chặn việc lạm dụng trí nhớ để đánh cắp dữ liệu, nhà nghiên cứu cho biết nội dung không đáng tin cậy vẫn có thể thực hiện các cuộc tấn công prompt injection để lưu trữ thông tin dài hạn do kẻ tấn công cài đặt.

Để bảo vệ mình, người dùng nên chú ý kỹ trong các phiên ChatGPT để phát hiện dấu hiệu bổ sung ký ức mới và thường xuyên kiểm tra các ký ức đã lưu trữ. OpenAI cũng đã cung cấp hướng dẫn về cách quản lý công cụ trí nhớ và các ký ức cụ thể được lưu trữ trong đó.

Phát hiện này cho thấy tầm quan trọng của việc liên tục cải thiện bảo mật cho các mô hình AI tiên tiến như ChatGPT. Khi các công nghệ này ngày càng được sử dụng rộng rãi, việc bảo vệ dữ liệu và quyền riêng tư của người dùng trở nên cấp thiết hơn bao giờ hết.