Chuyện chưa từng có: Internet 'cạn sạch dữ liệu', OpenAI phải thuê người viết code để 'nuôi sống' ChatGPT-5?

Theo Anh Việt - Thanh niên Việt

Theo OpenAI, nguồn dữ liệu công khai từ Internet được cho là không đủ phong phú và chất lượng để làm cho GPT-5 "thông minh hơn" đáng kể so với GPT-4.

Hồi tháng 3, nhiều báo cáo cho biết OpenAI đã bắt đầu đào tạo ChatGPT-5 – phiên bản kế nhiệm được hứa hẹn mang đến những tính năng vượt trội so với GPT-4. Tuy nhiên, khi năm 2025 đã gần kề, ChatGPT-5 vẫn chưa xuất hiện. Một bài viết từ The Wall Street Journal đã hé lộ lý do đằng sau sự chậm trễ này.

ChatGPT-5: Quá trình phát triển đầy thách thức

Được biết đến với tên mã Project Orion, ChatGPT-5 đã được OpenAI ấp ủ trong 18 tháng. Microsoft, nhà đầu tư lớn nhất của OpenAI, từng kỳ vọng mô hình này sẽ ra mắt vào giữa năm 2024. Tuy nhiên, những báo cáo gần đây cho thấy việc phát triển ChatGPT-5 đã gặp nhiều trở ngại lớn, đặc biệt trong quá trình đào tạo.

OpenAI đã thực hiện ít nhất hai đợt huấn luyện lớn với lượng dữ liệu khổng lồ, nhưng kết quả không như mong đợi. Chạy thử đầu tiên diễn ra chậm hơn dự kiến, khiến OpenAI nhận ra rằng một đợt huấn luyện quy mô lớn hơn sẽ tiêu tốn thời gian và chi phí khổng lồ. Quan trọng hơn, nguồn dữ liệu từ internet công khai không đủ phong phú và chất lượng để làm cho GPT-5 "thông minh hơn" đáng kể so với GPT-4.

Theo OpenAI, nguồn dữ liệu công khai từ Internet được cho là không đủ phong phú và chất lượng để làm cho GPT-5 "thông minh hơn" đáng kể so với GPT-4.

Nhằm giải quyết vấn đề thiếu hụt dữ liệu chất lượng cao, OpenAI đã thuê hàng trăm người để viết code hoặc giải bài toán, tạo nên bộ dữ liệu hoàn toàn mới từ đầu. Tuy nhiên, quá trình này rất chậm. Để hình dung: GPT-4 được huấn luyện trên khoảng 13 nghìn tỷ token. Nếu 1.000 người viết 5.000 từ mỗi ngày, họ sẽ mất vài tháng mới tạo ra được 1 tỷ token.

Một giải pháp khác là tạo dữ liệu tổng hợp từ chính các mô hình AI hiện tại. Nhưng cách làm này đi kèm với rủi ro: những vòng lặp dữ liệu tổng hợp có thể dẫn đến kết quả phi logic hoặc "rác dữ liệu". OpenAI tin rằng có thể tránh được vấn đề này bằng cách sử dụng dữ liệu từ mô hình Orion hiện tại (o1), dù điều này vẫn gây nhiều tranh cãi trong giới chuyên môn.

Những khó khăn nội bộ và áp lực từ thị trường

Ngoài những thách thức kỹ thuật, OpenAI còn phải đối mặt với xáo trộn nội bộ. Năm 2023, CEO Sam Altman bị cách chức rồi nhanh chóng quay trở lại vị trí, trong khi hơn hai chục giám đốc cấp cao đã rời công ty trong năm. Altman cũng từng đổ lỗi rằng việc ra mắt mô hình Orion đầu tiên (o1) là một trong những lý do khiến GPT-5 bị trì hoãn.

Áp lực tài chính cũng là một yếu tố lớn. Chi phí phát triển các mô hình AI tiên tiến ngày càng tăng chóng mặt, nhưng lợi nhuận chưa tương xứng. OpenAI nhận thức rõ rằng ChatGPT-5 cần phải thực sự vượt trội để biện minh cho các khoản đầu tư khổng lồ, điều này càng làm tăng thêm kỳ vọng và áp lực cho dự án.

Với những khó khăn kể trên, ChatGPT-5 dự kiến sẽ ra mắt không sớm hơn giữa năm 2025. Dù vậy, OpenAI cần giải quyết bài toán chất lượng dữ liệu, tối ưu hóa chi phí và vượt qua các rào cản nội bộ để đảm bảo rằng sản phẩm này không chỉ là một bước tiến công nghệ mà còn đáp ứng kỳ vọng của thị trường.