Bùng nổ công nghệ AI của NVIDIA đã thay đổi tất cả!
Mục lục
- Giới thiệu
- Các bài báo về cải thiện đồ họa
2.1. Mô hình vẻ ngoại hình thời gian thực
2.2. Nén hình ảnh với sự sắc nét cao
- Các bài báo về mô phỏng tóc
- Các bài báo về mô phỏng khuôn mặt 3D
4.1. Tạo ra các chân dung 3D
4.2. Tái tạo cấu trúc khuôn mặt
- Các bài báo về trích xuất cấu trúc 3D từ 2D
5.1. Khôi phục chi tiết tổng thể
5.2. Tái tạo cấu trúc bề mặt chính xác cao
- Các ứng dụng của các công trình nghiên cứu
6.1. Cải tiến các trò chơi và phim ảnh
6.2. Ứng dụng thực tế ảo và tăng cường thực tế
6.3. Tạo ra các bản đồ kỹ thuật số và mô hình 3D
- Tổng kết
Bài viết
🚀 Các công trình mới của Nvidia: Cải tiến trí tuệ nhân tạo trong lĩnh vực đồ họa
Nvidia vừa công bố hơn 20 bài báo nghiên cứu chủ yếu về trí tuệ nhân tạo trong lĩnh vực đồ họa. Các kết quả đạt được đã tạo ra những tiến bộ đáng kinh ngạc, đẩy mạnh hiệu suất trong khâu dựng hình trong trò chơi, trong mô phỏng đồ họa và tính toán với tốc độ nhanh hơn từ 10 đến hơn 100 lần. Các bài báo này đã được Nvidia công bố vào tháng 5 và tôi đã mất rất nhiều thời gian để đọc qua tất cả 20 bài. Thay vì đi vào từng bài báo cụ thể, tôi sẽ phân loại chúng vào vài nhóm liên quan và giới thiệu từng nhóm một ở mức cao. Và nếu bạn ở lại đến cuối video này, tôi sẽ cho bạn thấy cách tất cả những bài báo này kết hợp lại với nhau. Thời gian của bạn quý báu, nên chúng ta bắt đầu ngay.
🎨 Cải tiến đồ họa bằng trí tuệ nhân tạo
Nhóm đầu tiên của các bài báo tập trung vào việc sử dụng trí tuệ nhân tạo để cải thiện đồ họa hoặc giảm thiểu tài nguyên tính toán cần thiết để tạo ra đồ họa. Một bài báo đáng chú ý là về mô hình ngoại hình thời gian thực, mục tiêu là phát triển mô hình render chất lượng phim trực tiếp trong thời gian thực. Tại mức cao, các nhà nghiên cứu đã huấn luyện một mạng neural để hiểu cách các chất liệu, cấu trúc và hình học khác nhau tương tác với ánh sáng. Thông tin này được truyền tải cho hệ thống trước thời gian thay vì tính toán cho từng pixel trong quá trình render. Một bước quan trọng khác là xác định các pixel quan trọng cần tính toán trong quá trình render ban đầu. Bằng cách kết hợp ba bước này, ta có thể render các chất liệu phức tạp nhanh hơn tới 10 lần so với các phương pháp truyền thống.
Nvidia cũng đã nộp một bài báo khác tại hội nghị này về nén hình ảnh dựa trên trí tuệ nhân tạo. Phương pháp nén này được thiết kế đặc biệt cho các tệp hình ảnh trong trò chơi, thiết kế kiến trúc, quảng cáo sản phẩm, v.v. Thay vì giới hạn tổng lượng dữ liệu bị mất như các phương pháp nén thông thường, Nvidia tập trung vào giới hạn các hiện tượng hình ảnh đáng kể sau khi nén. Kết quả là phương pháp này sử dụng khoảng 30% bộ nhớ ít hơn so với các phương pháp nén tiên tiến hiện tại và có thể làm việc với hình ảnh có độ phân giải cao gấp 4 lần nhanh hơn gần 13 lần so với phương pháp tiên tiến hiện tại cho cùng kích thước ảnh.
💇 Mô phỏng tóc với trí tuệ nhân tạo
Mô phỏng tóc, lông và cỏ đang được đối tượng nghiên cứu tiếp theo của Nvidia. Tạo ra các đối tượng như tóc, lông và cỏ trong trò chơi và điện ảnh thường được thực hiện bằng các hình dạng hình học. Trong khi chúng có thể xuất sắc trong hình ảnh tĩnh, sự thật bị làm mất khi ta thêm chuyển động vào đó. Ngoài ra, chúng thường tốn rất nhiều tài nguyên để render và hiển thị do thường có rất nhiều trong một cảnh nhất định. Nếu Nvidia có thể làm tóc, lông và cỏ tốn ít tài nguyên render hơn, như vậy nó có thể nâng cao trực tiếp mức tiêu chuẩn mà trò chơi video và phim CGI có thể đạt tới. Điều này thực sự quan trọng ở chỗ đó. Thay vì sử dụng hình học, dự án Nvidia giả mô phỏng từng sợi tóc cụ thể trên GPU. Ý tưởng là mô hình mỗi sợi tóc như một cái gậy mỏng đàn hồi với một lượng ma sát bề mặt nhất định cho phép từng sợi có thể uốn cong, xoay tròn, bám và trượt dựa trên những gì xảy ra xung quanh nó. Kỹ thuật này nhận được một tốc độ cao ngất ngưởng vì nó có thể tính toán từng mảnh tự nhiên từng sợi tóc độc lập song song. Vì vậy, kỹ thuật này nhanh gấp 126 lần so với các phương pháp trước đây. Điều này đóng góp rất lớn để tạo ra những trò chơi, phim ảnh và phương tiện truyền thông mà chúng ta theo đuổi trở nên sống động hơn trong tương lai gần.
😮 Mô phỏng khuôn mặt 3D thời gian thực
Khuôn mặt luôn luôn là một khía cạnh mà chúng ta rất quan tâm. Nvidia đang trình bày một bài báo tại hội nghị này mang tên "Chân dung 3D thời gian thực: phân tích sắc thái dưới dạng thể trường Radiance từ một hình ảnh chụp duy nhất" - một cái tên rất dài, nhưng tôi sẽ giải thích cho bạn. Tôi nghĩ đây là một trong những bài báo quan trọng nhất mà Nvidia trình bày. Điểm nổi bật của kỹ thuật này là nó có thể tính toán và hiển thị khuôn mặt từ một hình ảnh không được chụp theo một góc đặc biệt, một góc đặc biệt hoặc thậm chí có thể là hình ảnh khuôn mặt của bạn không thẳng. Điều này có nghĩa là kỹ thuật này dễ dàng sử dụng trong nhiều ứng dụng khác nhau như cải thiện nhận dạng khuôn mặt trên các thiết bị di động, tối ưu hóa bộ lọc cho mạng xã hội, mô hình hóa 3D cho trò chơi và phim ảnh và quá nhiều ứng dụng khác nữa bởi vì nó dễ dàng thêm một mục đầu vào vào kỹ thuật này. Ngoài ra, kỹ thuật này hoạt động trong thời gian thực, điều đó có nghĩa rằng nó có thể phù hợp với các giải pháp khác không chỉ riêng khuôn mặt người, mà còn khuôn mặt động vật và các đối tượng khác nhau hoàn toàn. Việc tính toán nhanh chóng cấu trúc 3D từ ảnh 2D có ý nghĩa lớn đối với thực tế ảo và tăng cường thực tế, vì mọi người có thể giúp xây dựng thế giới ảo bằng cách chụp ảnh họ đã chụp rồi. Tôi sẽ nói thêm về điều đó sau đây.
Hơn nữa, kỹ thuật này đã được huấn luyện bằng cách sử dụng dữ liệu tổng hợp. Điều này có nghĩa là họ không huấn luyện mô hình trên hình ảnh thực của con người, mà là trên khuôn mặt được tạo ra bởi trí tuệ nhân tạo. Thêm vào đó, một trong những đóng góp quan trọng nhất của bài báo này là một tập hợp các hàm và chiến lược để huấn luyện các công cụ tương tự bằng cách chỉ sử dụng dữ liệu tổng hợp. Hãy tưởng tượng tất cả các vấn đề bản quyền liên quan đến trí tuệ nhân tạo đã khiến tiêu đề trong thời gian qua như các công ty huấn luyện mạng neural bằng cách sử dụng hình ảnh có bản quyền, hoặc huấn luyện các mô hình ngôn ngữ lớn bằng dữ liệu từ Reddit mà không phải trả tiền. Nvidia có thể huấn luyện mô hình trí tuệ nhân tạo trên dữ liệu tạo ra bởi những dữ liệu kỹ thuật hao hao và vẫn có thể sử dụng kết quả dự đoán trên dữ liệu thực một cách dễ dàng. Điều này đánh dấu một bước tiến lớn trong việc giải quyết các vấn đề pháp lý và quy chế liên quan đến các ứng dụng trí tuệ nhân tạo.
Ngoài ra, kỹ thuật này nhanh chóng hơn hơn 1.500 lần trong quá trình mã hóa hình ảnh và nhanh hơn hơn 2 lần trong quá trình hiển thị đầu ra cuối cùng. Tôi nghĩ rằng bài báo này thực sự chỉ ra rằng trí tuệ nhân tạo có thể cải thiện một cái gì đó mà mọi người sẽ sử dụng, từ mở khóa điện thoại bằng khuôn mặt đến bộ lọc trên mạng xã hội, mà không xâm phạm quyền riêng tư của bất kỳ ai hoặc vi phạm bất kỳ quyền sở hữu trí tuệ nào. Tôi không nói rằng mọi tiến bộ trong trí tuệ nhân tạo luôn mang lại lợi ích, nhưng tôi thật sự hy vọng rằng bài báo này cho thấy không phải tất cả các đổi mới trong trí tuệ nhân tạo đều đáng sợ hoặc xấu xa. Đó là một điều mà tôi rất đam mê và muốn thể hiện, và Nvidia đệ trình một bài báo khác dựa trên bài báo này bằng cách làm cho khuôn mặt đó có thể biến đổi. Ban đầu, tôi chỉ muốn đưa vào bài báo này vì 2D skin làm tôi cười, nhưng nó thực sự giải quyết một vấn đề mới và thú vị. Ví dụ, các phương pháp tái tạo khuôn mặt chỉ có một hình dạng tĩnh, không thể hiện được cách khuôn mặt thay đổi dưới chuyển động. Bài báo này đề xuất một phương pháp mới để mô hình khuôn mặt theo mặt cắt học có thể dễ dàng chỉnh sửa như thay đổi biểu cảm hoặc chỉnh sửa da và các vật liệu trên đó. Bài báo này không chỉ cải thiện về cấu trúc mô hình mà còn khiến kết quả trở nên có thể sử dụng hơn trong nhiều ứng dụng của ngành công nghiệp như hoạt hình và thiết kế.
🌍 Trích xuất cấu trúc 3D từ hình ảnh 2D
Đối mặt với thách thức khởi phục các chi tiết tinh vi của cảnh thế giới thực từ chỉ một số hình ảnh 2D, Nvidia đã phát triển một giải pháp gọi là "neuralangelo: tái tạo bề mặt tinh tế sử dụng mô hình neural độ chính xác cao". Kỹ thuật này sử dụng các bộ lọc thông minh hoạt động nhờ mạng neural để tìm ra mức độ mịn phù hợp với một bề mặt dựa trên cấu trúc của nó và giảm số đa giác của bề mặt mịn để tiết kiệm không gian và tính toán. Nhờ đó, kỹ thuật này có thể tính toán cấu trúc 3D của bất kỳ cảnh nào được ghi lại trong một video, từ các đối tượng và hình học phức tạp đến nội ngoại thất của tòa nhà, thậm chí cảnh quan đất đai và thành phố. Tôi đã làm việc với một phiên bản đơn giản hơn của một số kỹ thuật này khi còn đang đi học cao học. Ý tưởng cơ bản mà tôi đang làm việc là bay một chiếc drone có camera xung quanh một khu vực thiên tai, ghi lại càng nhiều hình ảnh càng tốt, tính toán cấu trúc 3D trong cảnh đó và sau đó đánh dấu điểm quan tâm như cửa ra vào, lối thoát và mối nguy hiểm mà tôi có thể chuyển giao cùng với bản đồ 3D cho các dịch vụ cấp cứu vì họ không thể dễ dàng lấy thông tin đó từ mặt đất. Công trình của Nvidia giống như thế nhưng mang tính toán mạnh mẽ hơn và tôi nghĩ rằng đây sẽ là một trong những kỹ thuật sẽ được áp dụng rộng rãi hơn nữa.
🏭 Ứng dụng của các công trình nghiên cứu
Các công trình nghiên cứu của Nvidia sẽ tạo ra những tiến bộ đáng kể trong việc cải thiện trò chơi, phim ảnh và các dự án thiết kế. Các công nghệ tiên tiến trong việc phát hiện cấu trúc 3D từ hình ảnh và video cũng sẽ giúp tạo ra các bản sao số của các đối tượng lớn hơn, cũng như thực hiện các kiểm tra và mô phỏng trong môi trường số lớn. Các hệ sinh thái như Oculus và Unity sẽ có lợi lớn từ những nghiên cứu này. Tuy nhiên, ứng dụng lớn nhất mà không ai đang nghĩ đến là thực tế ảo và tăng cường thực tế. Với sự tham gia của Apple và chiếc kính Vision Pro của họ, chúng ta sẽ thấy nhiều ứng dụng mới tận dụng không gian 3D thay vì màn hình 2D. Chúng ta đã biết rằng Vision Pro có thể chụp ảnh và quay video, vì vậy tất cả các nghiên cứu về trích xuất cấu trúc từ hình ảnh và video cũng như việc làm giảm tốn phí để render chúng sẽ giúp tăng cường sự phát triển nhanh chóng của nội dung 3D, công cụ thực tế tăng cường và ứng dụng VR.
Tổng kết
Trong video này, tôi đã giới thiệu các công trình nghiên cứu mới nhất của Nvidia về trí tuệ nhân tạo trong lĩnh vực đồ họa. Các công trình này đã đạt được những thành tựu đáng kinh ngạc, từ cải thiện đồ họa và cắt giảm tài nguyên tính toán đến mô phỏng tóc, mô phỏng khuôn mặt 3D và trích xuất cấu trúc 3D từ hình ảnh 2D. Các ứng dụng của những công trình này rất rộng rãi, từ cải tiến trò chơi và phim ảnh, ứng dụng thực tế ảo và tăng cường thực tế, đến tạo ra bản đồ kỹ thuật số và mô hình 3D. Tôi tin rằng những công trình nghiên cứu này sẽ đóng vai trò quan trọng trong việc phát triển các công nghệ trí tuệ nhân tạo trong tương lai, và tôi hy vọng rằng những tiến bộ này sẽ mang lại nhiều hứa hẹn cho chúng ta."""