OpenAI và Google Research vẽ tranh từ văn bản?

Thế giới AI vẫn đang thể hiện sức mạnh tuyệt vời của nó. Gần đây là OpenAI với dự án DALL-E 2 vẽ/ tạo hình ảnh về bất cứ thứ gì… Nhưng OpenAI không phải là dự án duy nhất làm việc với những thứ như vậy. Google Research đã nhanh chóng công bố một mô hình tương tự mà họ đang làm việc – họ thậm chí còn tuyên bố tốt hơn DALL-E 2.

Google Research và dự án Imagen

Imagen là một trình tạo hình ảnh dựa trên sự khuếch tán từ văn bản sang hình ảnh được xây dựng trên các mô hình xử lý ngôn ngữ tự nhiên… Nghe có vẻ khó hiểu, hãy cùng chúng tôi mổ xẻ chi tiết dự án này.

Các mô hình chuyển văn bản thành hình ảnh (text-to-image) lấy đầu vào văn bản chẳng hạn như “một con chó trên xe đạp” và tạo ra một hình ảnh tương ứng, đã được thực hiện trong nhiều năm nhưng gần đây đã chứng kiến những bước nhảy vọt về chất lượng và phạm vi sử dụng.

Một phần trong số đó là sử dụng kỹ thuật khuếch tán (diffusion techniques), về cơ bản bắt đầu với hình ảnh nhiễu thuần túy và từ từ tinh chỉnh từng chút một cho đến khi người mẫu nghĩ rằng nó không thể khiến nó trông giống một con chó trên xe đạp hơn được nữa. Đây là một cải tiến so với các kĩ thuật sinh từ trên xuống dưới có thể khiến nó bị sai một cách hài hước trong lần phỏng đoán đầu tiên và những kĩ thuật sinh khác có thể dễ dàng bị lạc hướng.

Phần khác là sự hiểu biết ngôn ngữ được cải thiện thông qua các mô hình ngôn ngữ lớn sử dụng cách tiếp cận biến đổi (transformer approach), các khía cạnh kỹ thuật mà tôi sẽ không (và không thể) đưa vào đây, nhưng nó và một số tiến bộ gần đây khác đã dẫn đến các mô hình ngôn ngữ thuyết phục như GPT-3 và các loại khác.

Ảnh: Google Research

Imagen bắt đầu bằng cách tạo ra một hình ảnh nhỏ (64 × 64 pixel) và sau đó thực hiện “siêu độ phân giải” (super resolution) để đưa nó lên đến 1024 × 1024. Tuy nhiên, điều này không giống như cách tăng tỉ lệ thông thường, vì độ phân giải siêu cao của AI tạo ra các chi tiết mới hài hòa với hình ảnh nhỏ, sử dụng hình ảnh gốc làm cơ sở.

Ví dụ: bạn có một con chó trên một chiếc xe đạp và mắt của con chó có chiều ngang 3 pixel trong hình ảnh đầu tiên. Không có nhiều chỗ để thể hiện! Nhưng trên hình ảnh thứ hai, nó có chiều ngang 12 pixel. Chi tiết cần thiết cho việc này đến từ đâu? Vâng, AI biết mắt của một con chó trông như thế nào, vì vậy nó tạo ra nhiều chi tiết hơn khi nó vẽ. Sau đó, điều này xảy ra một lần nữa khi con mắt được thực hiện lại, nhưng ở chiều ngang 48 pixel. Nhưng không phải lúc nào AI kéo 48 pixel của mắt chó ra khỏi… giả sử chiếc túi thần kỳ. Giống như nhiều nghệ sĩ khác, nó bắt đầu với bản phác họa, sau đó là quá trình hoàn thiện dần để có được bức vẽ cuối cùng.

Đây không phải là điều chưa từng xảy ra và trên thực tế, các nghệ sĩ làm việc với mô hình AI đã sử dụng kỹ thuật này để tạo ra các mảnh lớn hơn nhiều so với những gì AI có thể xử lý trong một lần. Nếu bạn chia canvas thành nhiều phần và siêu phân giải tất cả chúng một cách riêng biệt, bạn sẽ có một thứ gì đó lớn hơn và chi tiết hơn nhiều; bạn thậm chí có thể làm điều đó nhiều lần. Một ví dụ thú vị từ một nghệ sĩ mà tôi biết:

Những tiến bộ mà các nhà nghiên cứu của Google tuyên bố với Imagen chỉ mới khá cơ bản. Họ nói rằng các mô hình văn bản hiện có có thể được sử dụng cho phần mã hóa văn bản và khả năng hiểu nội dung của chúng quan trọng hơn là chỉ tăng độ trung thực của hình ảnh. Điều đó khá dễ hiểu, vì một bức tranh chi tiết vô nghĩa chắc chắn tồi tệ hơn một bức tranh kém chi tiết hơn một chút nhưng lại đúng với những gì bạn yêu cầu.

Ví dụ, trong bài báo mô tả Imagen, họ so sánh kết quả cho nó và DALL-E 2 đang làm “một chú gấu trúc làm nghệ thuật pha cà phê”. Trong tất cả các hình ảnh sau này, đó là nghệ thuật pha cà phê của một con gấu trúc; trong hầu hết các Imagen, đó là một con gấu trúc làm nghệ thuật. (Cả hai đều không thể làm cho một phi hành gia cưỡi ngựa, cho thấy điều ngược lại trong tất cả các nỗ lực. Đó là một công việc đang được tiến hành.)

Trong các thử nghiệm của Google, Imagen đã đi trước trong các thử nghiệm đánh giá con người, cả về độ chính xác và độ trung thực. Điều này rõ ràng là khá chủ quan, nhưng để phù hợp với chất lượng cảm nhận của DALL-E 2, thứ cho đến tận ngày nay vẫn được coi là một bước nhảy vọt so với mọi thứ khác, thì quả là khá ấn tượng.

Mặc dù vậy, OpenAI đã đi trước Google một hoặc hai bước. DALL-E 2 không chỉ là một bài báo nghiên cứu, đó là một bản beta riêng tư với những người sử dụng nó, giống như họ đã sử dụng phiên bản tiền nhiệm của nó và GPT-2 và 3. Trớ trêu thay, công ty với tên gọi “mở” (Open) đã tập trung vào việc nghiên cứu hình ảnh, trong khi gã khổng lồ internet có lợi nhuận đáng kinh ngạc vẫn chưa thử.

Ảnh: Google Research

Dù sao đi nữa, Imagen, giống như những dự án khác, rõ ràng vẫn đang trong giai đoạn thử nghiệm, chưa sẵn sàng làm việc độc lập mà không có sự giám sát nghiêm ngặt của con người. Khi Google bắt đầu làm cho các khả năng của nó dễ tiếp cận hơn, tôi chắc chắn rằng chúng ta sẽ tìm hiểu thêm về cách thức và lý do nó hoạt động.

OpenAI và Google Research vẽ tranh từ văn bản?

Google Research và dự án Imagen

Comments

Leave a Reply Cancel reply

More posts

Bút trình chiếu giá rẻ 100k khoảng cách 100m!

Loa Trợ Giảng Giá Rẻ OBTpro WA-1921 chỉ 500k!

File luyện viết 50 bộ thủ thường dùng Word PDF

Tổng hợp Tài liệu Toán 9 chương trình mới (Cánh Diều, KNTT, CTST)

Tổng hợp tài liệu ôn thi tốt nghiệp THPT môn Toán 2025

Tổng hợp đề thi HSG Toán 12 năm 2024-2025

Tổng hợp toán thực tế ứng dụng đạo hàm

Tổng hợp tài liệu Xác suất có điều kiện Toán 12

Công thức tính thể tích chỏm cầu

Đề tiếng Anh THPT 2025 file WORD

Tổng hợp Xác suất có điều kiện PDF lớp 12

Hướng dẫn giải đề Toán THPT 2025