Google phát triển thành công công nghệ biến văn bản thành video

Anh Vũ -

Mang tên Imagen Video, trí tuệ nhân tạo (AI) do Google phát triển có khả năng tạo nên đoạn video ngắn qua thông tin người dùng cung cấp.

Tuần vừa rồi, Meta (công ty mẹ của Facebook) giới thiệu công nghệ biến văn bản thường thành các đoạn video ngắn, không có âm thanh. Google mới đây công bố cũng đang phát triển công nghệ tương tự. Điểm khác biệt là Google phát triển cùng lúc 2 trí tuệ nhân tạo riêng biệt, một tập trung vào tạo những video chất lượng tốt hơn trong khi AI còn lại tập trung tạo các video dài hơn.

AI của Meta tạo nên những đoạn video dành riêng cho nền tảng Short của hãng.

Dựa trên nền tảng Imagen, công nghệ biến văn bản thành hình ảnh được Google phát triển trước đó, Imagen Video là AI tập trung cho những đoạn video chất lượng cao. Ngoài thao tác biến văn bản thành hình ảnh, Imagen Video sẽ chèn thêm chuyển động cho những ảnh này theo mô tả người dùng.

Đoạn video được tạo ra khi người dùng nhập dữ liệu đầu vào "gấu bông rửa bát".

Tuy nhiên, công nghệ của Google lẫn Meta đều mới chỉ ở giai đoạn sơ khai, hình ảnh từ video tạo nên có độ sắc nét thấp, các chuyển động của nhân vật trong video có độ chính xác chưa cao, các yếu tố vật lý chưa được chau chuốt.

Với dữ liệu ban đầu "mèo nhảy lên sofa" AI của Google tạo nên video vẫn còn nhiều hạn chế về tính thực tế của hình ảnh cũng như độ chính xác vật lý.

Theo nhóm phát triển công nghệ Imagen Video tại Google, AI này sẽ tạo nên 16 khung hình, phát ở 3 khung hình trên giây với độ phân giải 24x48 pixel. Độ phân giải thấp sau đó sẽ được nhiều AI khác phóng to, xử lý để được kết quả là đoạn video độ phân giải 1280x768 pixel với tốc độ trình chiếu 24 khung hình mỗi giây. 16 khung hình tạo nên bởi Imagen Video ban đầu cũng được tăng lên thành 128 khung hình.

Công nghệ của Google vượt trội hơn Meta về độ phân giải khi mà AI của Meta chỉ xuất được hình ảnh với kích thước tối đa 768x768 pixel.

Trái ngược với Imagen Video, trí tuệ nhân tạo còn lại của Google - Phenaki tập trung tạo nên những video có độ dài lớn hơn với độ phân giải thấp hơn cùng các yếu tố về hình ảnh, vật lý đơn giản. Yêu cầu về dữ liệu đầu vào của Phenaki cũng phức tạp hơn Imagen Video do những đoạn video dài cần nội dung dài hơn để thực hiện.

Ví dụ về đoạn video được tạo nên bởi Phenaki.

Vượt trội công nghệ đã thấy rõ, nhưng AI của Google cũng gặp phải nhiều chỉ trích từ phía cộng đồng giống như Meta do các yếu tố thiên vị chủng tộc, giới tính được sử dụng trong quá trình thu thập dữ liệu cho AI cũng như tính chính thống của các đoạn video do AI sản xuất ra sau này.

Vì lý do đó, Google giới hạn Imagen Video trong khuôn khổ sản phẩm nghiên cứu, thử nghiệm, không cho phép người dùng bình thường sử dụng. Đại diện nhóm nghiên cứu cho hay AI có thể đẩy mạnh sự sáng tạo, mang lại nhiều tiện lợi cho con người. Nhưng, nó cũng có thể được sử dụng để tạo nên các nội dung giả, thù địch, gây hại cho cộng đồng cũng như người xem. Vì lý do đó sẽ còn rất lâu nữa trước khi một AI hoàn chỉnh có khả năng kiểm soát nội dung được cung cấp tới người dùng.