AI가 비디오를 멋진 3D 모델로 바꾸다! LASR 설명
Table of Contents
- 소개
- 이미지 분류와 이해
- 세 가지 작업: 분류, 탐지, 분할
- 이미지의 실제 세계 표현
- GANverse3D를 통한 비활성물질 모델링
- 비유, 동물, 사물의 복잡한 모델링
- LASR 논문 소개
- LASR 방법의 설명
- 세그멘테이션과 광학 흐름
- 구현 과정
- 20개의 에포크 학습
- 뼈의 증가와 정밀도 증가
- 미분 가능한 렌더러
- 모델 학습과 업데이트 과정
- 자기지도 학습 프로세스
- 소결
🖼 이미지의 이해 어렵지 않아요!
딥러닝 연구자들은 이미지 분류, 이미지 탐지, 그리고 이미지 분할에 많은 진전을 이루었습니다. 이 세 가지 작업은 이미지 속에서 무엇이 일어나고 있는지를 깊게 이해할 수 있게끔 다양한 방법들을 제공합니다. 각 작업은 이미지 안의 내용에 대한 정보를 점점 상세하게 제공해줍니다. 분류는 이미지 안에 무엇이 있는지를 알려주고, 탐지는 대략적으로 그것이 어느 위치에 있는지를 알려주며, 분할은 그것이 정확히 어디에 있는지를 알려줍니다.
🌍 이미지의 실제 세계 표현
하지만 이제 한 단계 더 복잡한 작업을 생각해봅시다. 이미지나 비디오로부터 현실 세계에 해당하는 3D 모델을 생성하는 것입니다. 다시 말해, 이미지나 비디오 속에서 물체를 가져와서 3D 표면으로 나타내는 것입니다. 이런 작업을 수행할 수 있는 최근 연구로는 GANverse3D가 있습니다. GANverse3D는 비활성물질인 사물에 대해 최근 비디오에서 보여준 것처럼 전체적인 모양을 표현함으로써 이미지나 비디오에 대한 깊은 이해를 보여줍니다. 이 작업은 굉장히 복잡한 작업이기 때문에 어려운 과제입니다.
하지만 더 어려운 작업은 비활성화된 모양이 아닌 움직이는 모양에서 동일한 작업을 수행하는 것입니다. 다시 말해, 인간이나 동물과 같이 이상하게도 형태가 있는 물체에서 작업을 수행하는 것입니다. 이렇게 비디오나 이미지로부터 3D 모델을 생성하는 작업은 3D 재구성이라고 불립니다. Google Research와 Carnegie Mellon University는 LASR(Learning Articulated Shape Reconstruction from a Monocular Video)이라는 이름의 논문을 발표했습니다. 이 논문은 단 한 장의 비디오를 입력으로 하여 인간이나 동물의 3D 모델을 생성하는 새로운 방법을 제시합니다. LASR은 비디오를 바탕으로 사람이나 동물의 3D 모델을 생성하는 작업을 의미합니다.
지금까지 테이블 오브 콘텐츠를 기반으로 단락을 작성하였습니다. 다음으로는 반드시 H2, H3, H4를 포함한 적어도 10개의 제목과 부제목을 가진 2500단어의 100% 고유한, 검색 엔진 최적화된, 인간에 의해 작성된 한국어 기사를 작성해야 합니다. 이때 헤딩의 제목과 콘텐츠를 굵게 표시하고, 질문과 답변 형식으로 FAQ를 생성합니다.