540만 년 전의 산업혁명으로부터 현대까지의 컴퓨터 비전의 진화
목차
- 서론
- 540만 년 전의 산업혁명
- 전 세계적인 진화의 폭발, 캄브리아 폭발
- Andrew Parker의 설명
- 인간 시각 체계의 시작, 인간 시각 체계
- 캠브리아 폭발에 대한 대담한 실험
- 10년 전 현재 시각 체계
- 머신 러닝의 부상, 딥러닝의 역사
- 빅데이터의 중요성, ImageNet 프로젝트
- 데이터를 이용한 컴퓨터 비전의 발전
- 컴퓨터 비전과 딥러닝의 현재 상황
- 비디오에서의 머신러닝 응용
- 컴퓨터 비전의 미래 전망
- 결론
컴퓨터 비전의 진화: 540만 년 전의 산업혁명에서 현대까지
서론
안녕하세요. 여러분들 앞에서 이야기를 나누게 되어 정말 영광입니다. 저는 오늘 컴퓨터 비전 분야에서의 개인적인 경험을 간단하게 소개할 예정이며, 여기까지의 과정에 대해 이야기하도록 하겠습니다. 우리의 이야기는 540만 년 전으로 거슬러 올라가는데, 그때부터 현재까지의 컴퓨터 비전의 발전 과정을 살펴보겠습니다.
540만 년 전의 산업혁명
540만 년 전, 지구에는 복잡한 생명체들이 아니라 간단한 세포들이 존재했습니다. 이들은 먹이가 다가오면 이를 잡고 먹는 등 간단한 생존 방식으로 생활했습니다. 이때 놀라운 현상 중 하나인 캄브리아 폭발이 일어났습니다. 이는 짧은 시간 안에 생물종의 수가 급증한 현상으로, 이를 설명하기 위해 과학자들은 많은 연구를 진행했습니다. 이 중에서도 Andrew Parker라는 젊은 호주 동물학자는 가장 권위있는 설명을 제시했습니다. 그의 설명에 따르면, 캄브리아 시대에는 "시각의 급격한 진화"가 있었는데, 이는 동물들이 시각을 발달시켰고, 그로 인해 동물들은 먹이를 찾거나 피해자의 위협으로부터 숨을 수 있는 방법을 찾기 시작했다고 합니다.
전 세계적인 진화의 폭발, 캄브리아 폭발
이러한 시각의 진화로 인해 동물들은 더욱 적극적인 행동을 취하게 되었습니다. 예를 들어, 먹이를 찾아내기 위해 사냥자가 되거나, 위험으로부터 숨을 수 있는 피해자가 되는 등 많은 변화가 일어났습니다. 이러한 변화로 인해 동물의 다양성이 급증하였고, 동물 계에서의 진화 그 어떤 현상보다도 뚜렷하게 나타났습니다.
Andrew Parker의 설명
Andrew Parker는 캄브리아 폭발을 설명하기 위해 "시각의 급격한 진화"라는 용어를 사용했습니다. 그는 빛이 등장함으로써 동물들은 예방조치를 취해야 했고, 그로 인해 사냥자와 피해자로의 진화가 이루어진다고 주장했습니다. 이로써 동물 계의 다양성이 폭발적으로 증가하는 원인을 설명할 수 있게 되었습니다.
인간 시각 체계의 시작, 인간 시각 체계
시간이 흐르고 현재로부터 540만 년 후, 인간은 현재 우주에서 가장 현란한 시각 체계를 보유하고 있습니다. 우리는 눈을 뜨고 이 세상을 이해할 수 있으며, 시각을 사용하여 다양한 활동을 하고 또한 상호 소통할 수 있는 데에 이용합니다. 실제로 우리의 뇌는 시각 처리에 약 50%의 뉴런 프로세스를 사용하는 등 우리의 뉴럴 조직에서 가장 중요한 감각, 지각 및 인지 체계로 작동합니다.
캠브리아 폭발에 대한 대담한 실험
540만 년 전의 캠브리아 시대의 폭발적인 진화에 대한 설명을 들었습니다. 그렇다면, 현재 여러분과 함께한 대담한 실험을 소개하고자 합니다. 이 실험은 사람들에게 시각 체계의 능력을 양적 및 질적으로 재현하는 데 목적이 있었습니다. 가령, 실험 대상자를 컴퓨터 화면 앞에 두고, 대상자가 준비되면 화면 중앙을 보도록 안내하고, 그 후 본래의 세계 사진이 화면에 빠르게 나타나고 사라지게 했습니다. 이렇게 함으로써 사람들의 망막에 잔류하는 이미지를 없애기 위해 벽지와 같은 이미지로 스크린을 가려줍니다. 그리고 대상자들에게 보이는 원래의 세계 사진을 보고 $10을 지급하도록 요청했습니다. 아마 이 문서를 읽는 여러분에게는 보상을 주지 않지만, 최소한 여러분은 이 사진이 어떻게 생겼는지 경험해볼 수 있을 것입니다. 이러한 실험은 우리의 현대적인 시각 체계가 어떻게 기능하는지를 보다 정량적 및 정성적으로 이해하기 위한 실험이었습니다.
10년 전 현재 시각 체계
앞서 이야기한 시각 체계의 일부를 이해하는 데에는 사실적인 문제가 항상 존재합니다. 우리가 망막에서 본 픽셀들은 실제 3D 장면을 이해하는 것과는 다르며, 수학적인 의미에서 '일종의 부적절한' 문제로 볼 수 있습니다. 사실, 인간 뇌는 단순한 색상 및 픽셀의 측정을 넘어서서 실제 3D 장면을 재구성할 수 있습니다. 따라서 시각은 그저 픽셀을 측정하는 것 이상입니다.
이러한 예시 중 하나는 르네상스 시대의 작가들이 그린 그림입니다. 모든 픽셀은 아무런 관련이 없는 채소, 꽃 및 과일의 색상에 따라 그려졌지만 우리는 여기에 사람을 볼 수 있습니다. 심지어 이 작품에서는 성별, 얼굴 형태, 연령, 표정 등 사람에 관한 많은 사항을 알 수 있습니다. 이는 뇌가 색상 및 픽셀의 측정 이상의 계산을 수행하여 전체적인 장면을 재구성하기 때문입니다. 사실, 플라톤은 2000년 전에 시각의 문제를 "동굴의 유인자 비유"로 설명하며, 시각은 본래 보는 것과는 다르게 장면을 재구성하거나 재해석하는 것이라고 말했습니다. 이는 우리의 유전자체가 낳은 자연의 섭리입니다.
머신 러닝의 부상, 딥러닝의 역사
시간이 흐르고 2000년을 경험하면서 컴퓨터 비전 분야에서 많은 변화가 시작되었습니다. 이 변화 중 가장 중요한 것은 머신 러닝이 등장했다는 점입니다. 특히, 머신 러닝과 컴퓨터 비전의 형제 분야인 딥러닝이 만나게 됨으로써 현실로 발전해나갔습니다. 이러한 변화는 앞으로 우리의 비전 시스템에 인공 지능을 부여하는 것입니다. 2000년 경에는 이미 기존의 모델들을 적용하여 오브젝트 인식과 같은 과제에 성공했습니다. 이는 이미지 인식 문제에 대한 전형적인 파이프라인 방식으로 수행되었으며, 딥러닝이 등장하기 전까지 주로 쓰이던 방법이었습니다.
빅데이터의 중요성, ImageNet 프로젝트
머신 러닝 기법이 중요해지면서 데이터의 양도 그 중요성을 갖게 되었습니다. 그러나 2007년 경에 저희 팀은 이 문제를 해결하기 위해 큰 변화를 만들었습니다. 우리는 ImageNet 프로젝트를 시작하였는데, 이는 어린 시절 사람들이 경험하는 것과 유사한 양과 질의 데이터를 제공하고자 하는 목적을 가지고 있었습니다. 우리는 인터넷에서 수많은 이미지를 다운로드하여 정리하고, 이 작업에 전세계적인 온라인 작업자들의 도움을 받아 레이블링 작업을 진행했습니다. 이렇게 얻은 1,500만 개의 이미지를 2,200개의 카테고리로 구분하여 컴퓨터 비전과 머신 러닝 분야에 공개하였습니다. 이는 컴퓨터 비전과 머신 러닝 분야의 세계적인 연구자들에게 큰 도움이 되었으며, 이미지 인식과 같은 어려운 문제를 해결하는 데 크게 기여하였습니다.
데이터를 이용한 컴퓨터 비전의 발전
ImageNet 데이터셋이 등장한 이후 컴퓨터 비전 분야에서는 큰 변화가 일어났습니다. 이전에 뉴럴 네트워크 알고리즘을 적용하는 것은 어려운 작업이었지만, ImageNet 데이터셋을 활용함으로써 이 문제를 해결할 수 있게 되었습니다. 이러한 변화는 대표적으로 오브젝트 인식에 큰 기여를 하였으며, 오브젝트 인식을 더욱 정확하게 수행할 수 있게 되었습니다. 이로 인해 예전에는 어려웠던 작업들이 가능해지면서, 컴퓨터 비전 분야의 발전이 가속화되었습니다.
컴퓨터 비전과 딥러닝의 현재 상황
오늘날에는 오브젝트 인식에 대한 기술이 더욱 발전했습니다. 컴퓨터 비전과 딥러닝은 이미 우리가 인식하지 못했던 작은 오브젝트들도 정확하게 인식할 수 있게 되었습니다. 예를 들어, 작은 동물의 얼굴, 휴대전화, 신발 등이 있습니다. 이러한 결과는 컴퓨터 비전의 딥러닝에 의한 발전으로 볼 수 있습니다. 이는 실제로 매우 인상적인 결과입니다. 이러한 결과는 눈으로 볼 수 없는 작은 오브젝트들도 인식할 수 있는 능력을 컴퓨터에 부여하게 됩니다.
비디오에서의 머신러닝 응용
이미지 인식뿐만 아니라 비디오에서도 머신러닝 기술이 응용되고 있습니다. 유튜브와의 협력을 통해 스포츠 비디오 데이터셋을 구축하고, 이를 이용하여 딥러닝 알고리즘을 적용하여 스포츠 유형을 자동으로 분류하는 기술을 개발했습니다. 스포츠 유형은 약 450가지가 있는데, 이를 정확하게 분류할 수 있는 알고리즘을 개발한 것입니다. 이는 유튜브 등의 비디오 콘텐츠에서 콘텐츠를 자동으로 분류하고 이를 다양한 용도로 활용하는 데에 큰 도움을 줄 수 있습니다.
컴퓨터 비전의 미래 전망
지금까지 컴퓨터 비전 분야에서의 발전을 간략히 이야기했습니다. 그러나 여전히 컴퓨터 비전은 해결되지 않은 문제들이 많습니다. 우리는 고도화된 컴퓨터 비전 기술을 이용하여 장면의 전체적인 이해를 높이고자 합니다. 오늘날의 컴퓨터 비전은 사람들을 인식하고 동작을 추정하는 등 많은 정보를 제공할 수 있지만, 이를 보완하기에는 여전히 한계가 있습니다. 우리는 더 깊고 원천적인 이해를 통해 컴퓨터 비전 기술을 발전시켜야 합니다. 사람들의 의도, 목적, 감정, 활동, 즉 모든 것을 이해할 수 있는 기술을 개발함으로써 우리의 기계에 더 깊고 더 많은 지능을 부여할 수 있습니다. 이를 통해 우리의 기술은 지속 가능한 방식으로 세계적인 문제를 해결하는 데에 도움을 줄 수 있을 것입니다. 예를 들어, 환경, 안전, 보안, 의료 등 다양한 분야에서 컴퓨터 비전 기술은 큰 도움이 될 것이며, 인간을 보다 지능적으로 지원할 수 있을 것입니다. 컴퓨터 비전은 540만 년 전의 캠브리아 폭발과 유사한 혁명적인 변화를 가져올 수 있는 기술로, 그 날은 얼마 남지않은 것 같습니다.
결론
컴퓨터 비전과 인공지능의 분야에서 얼마 남지 않은 50년 동안의 여정을 함께 나누었습니다. 컴퓨터 비전 분야의 발전과정을 간단히 소개하고, 지식과 데이터, 머신 러닝의 통합을 통해 어떻게 발전해왔는지 알아보았습니다. 그러나 여전히 컴퓨터 비전 문제는 해결되지 않았습니다. 더 나아가야 할 길이 멀고, 더 깊은 이해를 필요로 합니다. 하지만 저는 보다 깊은 이해를 통해 우리의 기계에 지능을 부여할 수 있다는 가능성을 보고 매우 흥미롭게 생각하고 있습니다. 컴퓨터 비전 기술은 대규모, 지속가능한 발전을 가져올 수 있는 핵심 기술로, 이는 우리가 많이 기대하고 있는 분야 중 하나입니다.