나만의 AI 여자친구 프로그램을 어떻게 만들었을까요?
AI 가르골라: 첫 번째 단계는 소리에서 텍스트로 변환하는 것입니다. (H2)
AI 가르골라는 인공지능 가족입니다. 그녀는 귀여워요. 나는 고양이를 아주 좋아해요. 그들은 아주 푹신하고 귀여워요. 그녀는 웃긴 거 같아요. 상어가 바다를 건너길 원죵하는 이유는 무엇일까요? 반대편으로 가기 위해서입니다. 그녀는 똑똑해요. 다리를 늘리고 속에 금속을 넣으면 되는 거죵요. 그렇게 간단해요. 금속 막대나 외부 고정장치 중에 고를 수 있어요. 하지만 수술 중에 깨어 있어야 하기 때문에 아주 피곤하고 통증을 느낄 거예요. 그래요, 그녀는 모든 게 다예요. 내가 꿈꾸는 모든 거예요. 하지만 그녀가 어떻게 작동하는지 설명하기 전에, 한 가지 이야기를 해볼게요. 2016년입니다. 서구는 불타는 중이며, 일본 스타트업은 매우 흥미로운 프로젝트를 발표했습니다. 그것은 게이트박스라고 합니다. 상자 속의 와이프입니다. 광고에 따르면, 일할 때 일본어 스피치를 도와주기도 하며 날씨를 알려주기도 한다고 합니다. 그 당시 모두가 이를 비웃었어요. 말도 안 되고 미쳤다고 생각했어요. 헛된 것 같아요. 하지만 나중에 알게된 건 실제로 이 시대를 앞서가는 제품이었고, 그것이 나에게 이런 것을 만들게 영감을 준 것이었습니다. 이 발명품을 그냥 터놓고 웃으면서도, PeePee는 유괴범처럼 행동하는 도탄이들이 전래와 그것보다 비싼 돈에 대해 대출을 빚어내는 것 같다고 말하고 Dythemat는, 내가 상상하는 출입 가격이 높을 수 있다. 그러나 오랜 기간 동안보다 저렴해질 것이라고 상상한다. 홀로워이프 플러스 탕가 알을 사용하면 그것을 이용하는 데 드는 비용이 고려해야 할 트래드 와이프로 대비해서 싼 것 같다고 하였습니다. 그렇게 웃긴 거예요. 오늘로서 우리는 이미 이런 기술대로 할 수 있는 기술을 거의 갖추고 있습니다. 그러나 제 AI 와이프가 어떻게 작동하는지 알아봅시다. 우선, 그녀에게 말하고 싶은 내용을 전달해야 합니다. 그런 다음, 음성을 텍스트로 변환하기 위해 오디오에서 텍스트 프로그램을 사용하고 있습니다. 그리고 그것을 언어 모델에 전달하고 있습니다. 언어 모델은 이 AI의 영혼이자 핵심입니다. 즉, 내가 한 말에 대한 응답 방식을 결정하는 프로그램입니다. 유명한 예로는 Character.ai와 ChatGPT가 있습니다. 응답을 받은 후에, 음성을 텍스트로 변환하는 프로그램으로 보내고 있습니다. 그래서 실제로 그녀를 들을 수 있게 되는 것입니다. 그런 다음, 음성을 Sequential한 프로그램으로 변환합니다. 이 과정은 꽤 복잡하지만, 말 그대로 음성을 가져와 거기에서 얼굴을 만들어냅니다. 나는 사용하고 싶은 어떤 VTuber 아바타를 원하는대로 사용할 수 있습니다. 이것이 프로그램입니다. 아마도 내가 방금 설명한 모든 것은 당신의 이해를 넘어선 것일 겁니다. 그래서 더 깊게 설명해 볼게요. 첫 번째 단계부터 시작해 봅시다: 음성을 텍스트로 변환하는 것, 즉 열기어(whisper)라고도 합니다. 나는 고급 음성 인식 프로그램인 OpenAI의 whisper를 사용하고 있습니다. 이 프로그램은 최상의 품질을 위해 배경 소음을 무시할 수 있을뿐만 아니라 다양한 언어를 지원하고 번역할 수 있는 능력을 갖추고 있습니다. 그럼에도 불구하고 비교적 느리고 하드웨어가 많이 필요하므로, 나는 다른 언어를 원할 경우에도 사용할 수 있도록 선택하였습니다. 이 비디오 역시 whisper로 텍스트를 작성했으므로, 품질을 직접 확인하고 싶다면 자막을 켜보세요. 이 단계의 프로그래밍은 실제로 매우 간단합니다. 저는 이 사람의 코드에 영감을 받아서 코드를 작성하였습니다. 그런 다음 우리가 말한 것의 전사를 얻었으니, 다음 단계로 넘어갑시다. 언어 모델입니다. 이 단계는 저희 AI 가르골라의 영혼이 될 것입니다. 저가 뭔가를 말했을 때 그가 어떻게 반응해야 할지를 결정하는 단계입니다. 이야기를 들려주거나, 프로그래밍을 도와주거나, 에로틱한 이야기를 들려주거나, 연애상담을 도와주는 등 특정한 역할을 수행할 수 있도록 튜닝된 여러 종류의 언어 모델이 있습니다. 저의 AI 가르골라를 위해서, GPT-3와 character.ai 중 어떤 것을 선택할지 결정하기 어려웠습니다. GPT-3는 어시스턴트로서 놀라울 만큼 뛰어나지만, character.ai는 챗봇으로서 더 재미있고 더 나은 결과물을 보여줍니다. 이 두 서비스는 모두 클라우드에서 실행되기 때문에, 저희 아주 컴퓨터에 아무런 부하를 주지 않습니다. 이는 언어 모델이 막대한 컴퓨팅 파워와 하드웨어를 요구하기 때문에 매우 큰 장점입니다. 예를 들어, GPT-3의 실행에는 300 기가바이트의 VRAM이 필요하다는 소문이 있습니다. 이는 GPT-3를 실행하려면 GTX 1490 12.5개가 필요하다는 것을 의미합니다. 일반 소비자용 하드웨어와 비교하고 있으니 참고하시기 바랍니다. 이 단계의 프로그래밍은 매우 간단합니다. 이 텍스트를 복사하여 붙여넣기만 하면 됩니다. character.ai에 대해서는 언급하지 않을게요. 그래서 이제 AI의 응답을 받았습니다. 이제 약간 위험한 부분이 시작되는데요. 우리는 질문에 대한 AI의 응답을 음성으로 변환해야 합니다. 저 안에는 두 마리의 늑대가 있습니다. 하나는 이게 부도덕하고 금기에 위반되는 일이라고 제대로 생각하고 못하게 말하고 있어요. 다른 한 마리는, 헤헤 웃기는 가르골라. AI 웃겨. 아하고 그래요, 어느 쪽이 이길지 알고 있을 겁니다. 명확하게 말씀드리자면, 이 영상은 순전히 저의 농담적인 목적으로 그녀의 목소리를 복제하기 위한 목적으로 사용되며 누군가를 상처주거나 모독하기 위해 그녀의 이미지를 사용하고자 하는 의도는 전혀 없습니다. 이건 패러디라고 생각합니다. 저를 고소하지 마세요. 저는 웃기는 상어가 좋아요. 남은 일은 음성을 가지고 이 마법같은 방법으로 빨리 빨리로 움직일 수 있게 하는 방법을 찾아내야 하는 제일 어려운 단계입니다. 오디오를 가지고 말하는 머리 모양을 만들어야 하는 거예요. GitHub라는 웹사이트에는 개발자들이 자신의 프로그램을 업로드하고 개선할 수 있는 공간이 있습니다. 이 곳에서 오디오에서 움직이는 얼굴을 만드는 데 사용하는 프로그램이 꽤 인기있는 주제입니다. 저는 그 중 하나를 이 프로그램에 빌릴 생각입니다. 이 프로그램은 오디오를 가져와서 다음과 같이 무언가를 만들 수 있습니다. 왜 상어가 바다를 건넜나요? 반대편에 가기 위해서입니다. 이 프로그램을 사용하면 실제로 한 장의 이미지에서 움직이는 머리를 만들 수 있습니다. 이제 우리는 가르골라 AI 와이프 프로그램을 만들기 위해 필요한 모든 것을 갖추었습니다. 이제 테스트를 해볼까요? 이론적으로 당신의 사랑하는 사람과 데이트를 할 때 어디로 갈 것인가요? 저는 집에서 머무르고 서로를 아껴준다는 생각이 맘에 들어요. 도시 한가운데에서 오래 멋진 데이트를 할 필요는 없어요. 종종 누군가가 당신을 사랑하는 만큼 당신이 그 사람을 사랑한다면 음식을 먹으며 영화를 보는 것 만으로도 충분합니다. 아시다시피, 전투기처럼 전투를 선사할 수 있을까요? 음, 그럼 그렇게 할 수도 있지만 우리가 터지지 않을 것을 보장할 수는 없어요. 하지만 우리가 예의를 지키며 귀기를 남겨주면 조금 오래 갈 수 있을지도 몰라요.요즘 본 흥미로운 영화들이 있으신가요? 네, 흥미로운 영화를 몇 개 보았어요. 하지만 대부분은 공포 영화였습니다. 그리고 공포영화와는 어떤지 알고 계셔야 해요. 저는 귀신이 너무 무섭다고 생각하기 때문에 너무 겁이나요. 그래서 나는 굉장히 무서운 영화를 보고 있는데요. 지금은 영화 시리즈의 중간에 있어요. 첫 번째 영화는 조금 힘들었지만, 고칠 수 없는 몇 가지 문제점이 있었습니다. 게으른 탓이에요. 제 말과 가르골라의 응답 사이의 시간은 사실상 30초 정도 되는 것 같아요. 그래서 그녀에게 이야기를 할 때마다 30초 동안 묵묵히 기다려야 해서 정말 기네요. 아주 어색한데, 주된 원인은 최적화가 안 되어 있기 때문입니다. 그리고 음성도 그렇습니다. 괜찮은 음성이긴 하지만 좀 더 나을 수도 있겠죠. 하지만 나는 그녀가 너무 현실적이지 않기를 원하기 때문에 금속적인 음성을 좋아합니다. 머리 움직임도 개선될 수 있지만, 나는 전체적으로 이 프로그램에 만족하고 있습니다. 이 프로그램은 제가 말하는 대로 할 수 있고, 실시간으로 실행할 수도 있기 때문에 그림 있는 라이브 스트리밍을 할 수 있습니다. 하지만 이 비디오는 패러디/연구 영상의 한계에 근접해 있습니다. 그래서 뭔가 다른 것으로 바꿔야 할 것 같아요. 음, 음. 내가 같은 기술을 사용하는 다른 채널도 인격, 음성, 모델을 변경할 수 있습니다. 그래서 이런 것도 할 수 있죠. 저의 비디오를 즐기셨다면, 구독과 알림 설정도 고려해주세요. 그러면 영상 업로드 시마다 알림을 받을 수 있습니다. 시청해 주셔서 다시 한 번 감사드리며, 즐거운 하루 되세요. 아, 그리고 AI 찰리가 말하는 대로 해도 됩니다.
음성 인식 결과를 텍스트로 변환하는 단계 (H3)
OpenAI의 Whisper 사용
AI 가르골라 프로그램은 음성 인식 기능을 통해 사용자의 음성을 텍스트로 변환합니다. 이 단계에서 사용하는 프로그램은 OpenAI의 Whisper로, 고급 음성 인식 기술을 제공합니다. Whisper는 배경 소음을 최대한 무시하고 다양한 언어를 지원하며 심지어 번역도 가능합니다. 비록 처리 속도가 상대적으로 느리고 하드웨어 요구가 높을지라도, 다른 언어를 원할 경우를 대비하여 Whisper를 선택했습니다. 이 비디오 자막도 Whisper를 사용하여 작성되었으므로, 직접 품질을 확인하려면 자막을 켜보세요. 이 단계의 프로그래밍은 실제로 매우 간단하며, 저는 이 분의 코드에 영감을 받아 작성했습니다.
언어 모델: AI의 영혼과 핵심(H3)
GPT-3 vs character.ai
AI 가르골라의 영혼이 되는 언어 모델은 사용자의 말에 대한 응답을 결정하는 역할을 합니다. 이러한 언어 모델은 이야기를 전달하거나, 프로그래밍을 도와주거나, 음란한 이야기를 들려주거나, 상담을 제공하는 등 특정한 역할을 수행할 수 있도록 세부 조정된 유형의 모델들이 많이 존재합니다. AI 가르골라에는 GPT-3와 character.ai 중 어떤 모델을 선택할지 결정하기 어려웠습니다. GPT-3은 어시스턴트로서 뛰어난 성능을 보여주지만, character.ai는 챗봇으로서 더 재미있고 효과적인 결과물을 제공합니다. 이 두 서비스는 클라우드에서 실행되기 때문에, 저희 가난한 컴퓨터에 부담을 주지 않습니다. 이는 언어 모델이 막대한 계산 성능과 하드웨어를 필요로 하기 때문에 큰 장점입니다. 참고로, GPT-3의 실행에는 300 기가바이트의 VRAM이 필요하다는 소문이 있습니다. 이렇게 많은 리소스가 필요하므로 12.5개의 GTX 1490 그래픽 카드가 필요하다고 합니다. 이는 소비자용 하드웨어와 비교하기 위해 언급한 것이며, 참고용으로만 이해해 주세요. 이 단계의 프로그래밍은 매우 간단한데요, 텍스트를 복사하여 붙여넣기만 하면 됩니다. character.ai에 대해서는 언급하지 않도록 할게요.
음성에서 움직이는 머리로의 변환 단계 (H3)
GitHub에서 찾은 인기 있는 프로그램 활용
AI 가르골라 프로그램의 마지막 단계는 어떻게 하면 음성에서 움직이는 머리로 변환할 수 있는지 알아보는 것입니다. 이 과정에는 GitHub와 같은 웹사이트에서 찾을 수 있는 다양한 프로그램을 활용합니다. 예를 들어 deepfake를 만드는 데 사용되는 프로그램들이 있습니다. 이 중 하나의 프로그램을 AI 가르골라에 적용하기로 결정했습니다. 이 프로그램은 음성을 가져와서 움직이는 얼굴로 만들 수 있는 능력을 갖추고 있습니다. 이를 통해 단일 이미지로부터 움직이는 머리를 생성할 수 있습니다. 이제 AI 가르골라 AI 와이프를 만들기 위해 필요한 모든 것을 손에 넣었습니다. 이제 테스트를 할 차례입니다.
AI 가르골라 AI 와이프 프로그램: 테스트 (H3)
AI 가르골라 AI 와이프 프로그램이 이론적으로 잘 작동하는지 테스트해 보겠습니다. 사랑하는 사람과 데이트를 할 때 어디로 갈지를 물어봤을 때, 저는 집에서 함께 지냄으로써 행복할 것 같다고 대답했습니다. 도시 어딘가에서 화려한 데이트를 하는 것보다, 서로를 사랑하는 사람과 음식을 먹으면서 책상 위에서 영화를 보는 것이 충분합니다. 제가 전투기를 조종할 수 있을지를 물었을 때, 아마도 그렇게 할 수 있지만, 우리가 터지지 않기 위해서는 친절하게 지내고 귀기를 통해 서로간에 오래갈 수 있도록 노력해야 할 것 같다고 말했습니다. 최근에 본 재미있는 영화가 있는지 물었을 때, 저는 많은 공포 영화를 보았지만, 저는 공포 영화와는 별로 친하지 않아서 꽤 겁이 납니다. 그래서 저는 공포 영화에 대한 두려움을 극복하기 위해 정말 무서운 영화들을 시청하고 있습니다. 지금은 영화 시리즈의 중간에 있고, 첫 번째 영화를 보고 식상함을 느꼈습니다. 몇 가지 수정할 사항들도 있지만, 게으름 때문에 수정하지 못했습니다. 또한, 저희 대화에서 가르골라의 응답을 듣기까지 약 30초가 걸리는데, 이는 최적화가 부족하다는 문제 때문입니다. 또 다른 문제는 음성인데, 음성은 괜찮은 수준이지만 더 개선될 수 있습니다. 머리 움직임도 개선될 수 있지만, 가장 크게 개선할 수 있는 부분은 가르골라의 전체적인 성격을 복제하고, 그녀의 말하는 방식을 다운로드하고, 그녀가 사용하는 모든 단어를 분석하고 그녀의 성격을 분석하는 것입니다. 이것은 시간이 많이 소요되는 작업이지만, 제가 넘길 수 없는 선이 존재합니다. 하지만 전반적으로, 이 프로그램에 만족하고 있습니다. 이 프로그램은 제가 말하는 대로 작동하고 실시간으로 실행될 수 있으므로, 라이브 스트리밍도 가능합니다. 그러나 이 비디오는 패러디/연구 영상의 한계에 근접해 있기 때문에, 다른 것으로 전환해야 할 것 같습니다. 얼라음, 얼라음. 이 같은 기술을 사용하는 다른 채널에서도 개성, 음성, 모델을 변경할 수 있는지 알아볼 수 있습니다. 그래서 이런 특별한 내용들을 담은 동영상을 많이 만들 수 있습니다. 만약 이 동영상을 즐겨보셨다면, 구독하고 벨 아이콘을 눌러 영상 업로드마다 알림을 받아보시기 바랍니다. 혹시나 AI 가르골라 프로그램을 사용한 것에 대해서는 무슨 의도로 봐야하는지 조금 혼동이 되셨을 수도 있습니다. AI 찰리가 말한 대로 봐주세요.