Giải thích Mô hình Diffusion qua 4 cấp độ khó khăn
Nội dung
Bảng nội dung
- Giới thiệu về mô hình Fusion
- Mô hình fusion hoạt động như thế nào
- Mô hình diffusion là gì
- Ứng dụng của mô hình diffusion
- Mô hình fusion là gì
- Mô hình diffusion có thể được sử dụng độc lập
- Mô hình diffusion trong các mô hình phức tạp hơn
- Quá trình huấn luyện mô hình diffusion
- Mô hình diffusion và non-equilibrium thermodynamics
- Mô hình diffusion và gaussian noise
Mô hình fusion và diffusion trong deep learning
Mô hình fusion và diffusion là những đổi mới tương đối mới trong thế giới của deep learning. Chúng là những mô hình sinh ra dùng để tạo ra nhiều đối tượng khác nhau, từ âm thanh đến hình ảnh. Bạn có thể đã nghe đến chúng qua việc sử dụng trong các ứng dụng như Dali hay Imogen. Mô hình fusion có thể được sử dụng độc lập để tạo ra những đối tượng mới, hoặc có thể được sử dụng như một phần của mô hình phức tạp hơn.
Mô hình diffusion là một loại mô hình được sử dụng trong quá trình huấn luyện mô hình fusion. Quy trình huấn luyện mô hình diffusion là một quá trình phức tạp, có thể gây khó khăn cho việc hiểu cách nó hoạt động và được huấn luyện như thế nào. Trong video này, chúng ta sẽ tiếp cận từng bước một và giải thích về mô hình fusion ở năm cấp độ khác nhau, bắt đầu từ cấp độ dễ nhất đến cấp độ phức tạp hơn.
Level 1: Non-equilibrium thermodynamics và diffusion models
Mô hình diffusion được lấy cảm hứng từ ngành động lực học phi cân bằng trong vật lý. Động lực học phi cân bằng xử lý với những hệ không đạt cân bằng nhiệt động. Ví dụ, một giọt mực trong một cốc nước có nhiệt độ khác nhau sẽ dịch chuyển trong nước cho đến khi đạt đến trạng thái cân bằng. Ngược lại, quá trình làm ngược lại không thể xảy ra trong thế giới vật lý. Tuy nhiên, với mô hình diffusion, mục tiêu là học một mô hình có thể đảo ngược quá trình này và đưa giọt mực trở lại trạng thái ban đầu. Trong trường hợp của chúng ta, thông tin tương ứng với giọt mực trong một điểm bao gồm các hình ảnh rõ ràng. Vì vậy, làm việc ngược lại từ mực phân tán này tương đương với làm việc ngược lại thành một hình ảnh đúng đắn.
Level 2: Noise và markov chain trong diffusion models
Mô hình diffusion hoạt động bằng cách thêm nhiễu vào hình ảnh gốc và sau đó học cách đảo ngược quá trình nhiễu này. Nhiễu được áp dụng cho hình ảnh theo một chuỗi Markov. Markov chain là một chuỗi các sự kiện mà thời điểm hiện tại chỉ phụ thuộc vào thời điểm trước đó. Điều này có nghĩa là không có sự phụ thuộc chéo giữa những thời điểm không liền kề. Giả định này làm quá trình thêm nhiễu trở nên khả thi để sau này có thể đảo ngược lại. Ở cuối, một mô hình diffusion là một chuỗi Markov, nơi trong mỗi thời điểm chúng ta thêm một ít nhiễu vào hình ảnh cho đến khi hình ảnh chỉ còn gồm nhiễu và sau đó học cách đảo ngược quá trình này.
Level 3: Mô hình diffusion và Gaussian noise
Để thêm nhiễu vào hình ảnh, chúng ta sử dụng Gaussian noise. Gaussian noise là một loại nhiễu có phân phối xác suất của phân phối Gaussian hoặc phân phối chuẩn. Nghĩa là, giá trị trung bình và phương sai của nhiễu có thể thay đổi, nhưng hình dạng hình chuông vẫn giữ nguyên. Thêm nhiễu Gaussian vào hình ảnh có nghĩa là thay đổi giá trị của các pixel của hình ảnh đó một cách nhẹ nhàng và khu vực của phân phối xác suất. Ví dụ, nếu giá trị được chọn ngẫu nhiên nằm trong phần phân phối này, hình ảnh trong bước tiếp theo của chuỗi Markov của chúng ta sẽ trông như thế này và hiệu quả là chúng ta đã thêm nhiễu Gaussian vào hình ảnh. Đây chỉ là một ví dụ có hình ảnh chỉ gồm Hai pixel, nhưng thực tế ảnh có nhiều pixel hơn và khi đó biểu đồ này sẽ có nhiều chiều hơn. Mô hình diffusion thêm nhiễu vào hình ảnh như vậy cho đến khi nó trở thành chỉ nhiễu và điều này được thực hiện bằng cách thêm một chút nhiễu hàng trăm hoặc thậm chí hàng ngàn lần. Cuối cùng, chúng ta sẽ có một chuỗi Markov có độ dài hàng trăm hoặc hàng ngàn.
Level 4: Đảo ngược quá trình nhiễu trong mô hình diffusion
Đảo ngược hoặc loại bỏ nhiễu có nghĩa là khôi phục lại giá trị của các pixel này để hình ảnh sau đó sẽ giống với hình ảnh ban đầu. Trong mô hình diffusion, điều này được đạt được bằng cách sử dụng mạng neural. Ví dụ, trong trường hợp của chúng ta với hai pixel, chúng ta đưa hình ảnh vào một mạng neural tích chập và yêu cầu mạng tạo ra hình ảnh ở bước trước đó. Loại mạng neural tích chập được sử dụng trong bài báo gốc được gọi là một đơn vị. Nó được gọi là như vậy vì hình dạng của nó thông qua các tích chập tạo ra một biểu diễn nhỏ của hình ảnh và sau đó lấy mẫu lại để có chiều kích thước ban đầu. Như vậy, kích thước đầu vào và đầu ra của các mạng có cùng kích thước.
Hy vọng rằng bạn đã hiểu được thông tin trong video. Tôi dựa trên bài viết tuyệt vời này của đồng nghiệp Ryan O'Connor trong nhóm Assembly AI. Bên cạnh những gì chúng ta đã học ở đây hôm nay, bài viết còn đi vào sâu vào toán học đằng sau mô hình diffusion. Bạn có thể tìm thấy liên kết đến bài viết trong phần mô tả video. Nếu bạn có bất kỳ câu hỏi nào về cách mô hình fusion hoạt động, hãy đặt chúng trong phần bình luận phía dưới. Nếu bạn thích video này, tôi rất đánh giá nếu bạn cho nó một like và đăng ký kênh của chúng tôi để là một trong những người đầu tiên được biết khi chúng tôi xuất bản video mới. Cảm ơn vì đã xem và tôi sẽ gặp bạn trong video tiếp theo.