다양성과 윤리적 문제를 알아보는 Gender Shades 프로젝트
목차
- 소개
- Coded Gaze의 문제
- Gender Shades 프로젝트 소개
- 데이터셋과 회사 선택
- 테스트 결과
- 다양성의 부족과 정확도 차이
- 상용 제품과 투명성의 필요성
- 윤리적이고 포용적인 인공 지능의 필요성
- 데이터 기반 기술의 취약성과 남용
- 결론
📌 2. Coded Gaze의 문제
컴퓨터가 인간의 얼굴을 감지, 인식 및 분류하는 방법을 연구하는 Joy입니다. TED에서 주목받은 강연에서는 알고리즘적 편견을 위한 실제 사례에 대해 이야기했습니다. Joy는 얼굴을 감지하는 시스템이 희미한 피부를 가진 친구는 잘 작동하지만, 자신의 얼굴은 잘 감지하지 못한다는 것을 발견했습니다. 이 때, Joy는 흰색 마스크를 착용하고 나서야 얼굴이 감지되었습니다. 그 후 Joy는 자신의 사진을 다양한 얼굴 분석 도구를 사용하여 테스트했습니다. 이 테스트에서 두 도구는 얼굴을 감지하지 못했으며, 다른 두 도구는 Joy의 성별을 잘못 판단했습니다. 이러한 도구들은 성별 정체성과 생물학적 성별을 구분하지 않고, 단순히 "남성"과 "여성" 두 가지 레이블을 제공하는 것이었습니다. Joy는 자신의 얼굴에 대한 이러한 결과가 고유한 얼굴 특징 때문인지, 또는 다른 얼굴에서도 이러한 패턴의 문제가 있는지 알아보기 위해 Gender Shades라는 프로젝트를 시작했습니다.
👀 3. Gender Shades 프로젝트 소개
Gender Shades 프로젝트는 다른 사람들의 얼굴에 대해 다른 성별 분류 시스템이 얼마나 잘 작동하는지, 그리고 이러한 결과가 성별이나 피부 유형에 따라 어떻게 달라지는지 알아보기 위해 시작되었습니다. Joy는 여성들의 권력 표상으로 선정된 세 개의 아프리카 국가와 세 개의 유럽 국가를 대상으로 한 데이터셋을 생성했습니다. 이를 통해 희미한 피부와 어두운 피부에서 시스템의 성능 차이를 살펴볼 수 있었습니다. 그런 다음 IBM, Microsoft, 그리고 중국인 얼굴 데이터 중 하나에 액세스 권한을 가지고 있는 Face++와 같은 세 개의 회사를 선택하여 평가하기로 결정했습니다. 데이터셋과 회사를 준비한 후 테스트를 진행하기로 하였습니다.
🧪 4. 데이터셋과 회사 선택
먼저 Gender Shades 프로젝트를 위해 여성들의 권력 표상으로 선정된 세 개의 아프리카 국가와 세 개의 유럽 국가를 선택하여 데이터셋을 구축했습니다. Joy는 성별 분류 시스템을 다양한 피부 유형에서 어떻게 작동하는지 확인하기 위해 희미한 피부와 어두운 피부를 갖는 사람들을 대상으로 하였습니다. 그런 다음 IBM, Microsoft, Face++와 같은 세 개의 회사를 선택하여 평가하기로 결정했습니다. Face++는 중국인 얼굴 데이터를 가장 많이 보유하고 있는 회사 중 하나입니다. 이렇게 데이터셋과 회사를 선택한 후에 실제 테스트를 진행하기로 하였습니다.
📊 5. 테스트 결과
테스트 결과, 모든 회사들은 전반적으로 상대적으로 높은 정확도를 보였습니다. 전체 데이터셋에 대해 Microsoft가 94%의 정확도로 가장 우수한 성능을 보였습니다. 모든 회사들이 남성에 대해서 여성보다 더 나은 결과를 보여주었으며, 또한 모든 회사들이 희미한 피부 톤을 가진 대상에 대해서는 어두운 피부 톤을 가진 대상보다 더 나은 결과를 보여주었습니다. 그리고 남성과 여성, 밝은 피부와 어두운 피부에 따라 결과를 분석한 결과, 모든 회사들이 어두운 피부를 가진 여성에 대해서 가장 잘 작동하지 못했습니다. IBM과 Microsoft는 밝은 피부를 가진 남성에 대해 가장 우수한 성과를 보여주었으며, Face++는 어두운 피부를 가진 남성에 대해서는 다른 회사들보다 우수한 성과를 보여주었습니다. IBM은 밝은 피부를 가진 남성과 어두운 피부를 가진 여성 사이에 34%의 오류율 차이를 보여주어 정확도에서 가장 큰 격차를 보였습니다. 여성들의 피부가 어두워질수록 정확히 성별을 판단할 확률은 50%에 가까워지는 것을 발견한 것은 놀라운 사실이었습니다.
🌍 6. 다양성의 부족과 정확도 차이
성별 분류 시스템의 문제와 정확도 차이의 특정 원인을 밝히기 위해 더 많은 연구가 필요하지만, 일반적으로 다양성이 부족한 훈련 이미지와 벤치마크 데이터셋이 문제점 중 하나입니다. 또한 성별이나 피부 유형과 같은 특성별로 정확도 결과를 분리하지 않는다면 차이를 파악하기가 어려워집니다. 특히 상용 제품들은 다양성을 고려해야 할 필요가 있습니다. 성별 분류가 가능한 기계 학습 기술은 얼굴 인식과 같은 컴퓨터 비전 분야뿐만 아니라 예측 분석과 같은 인공지능의 다른 영역에도 적용되므로, 이러한 기술들은 편견과 남용에 취약합니다. 따라서 우리는 상용 제품들에 대해 더 많은 투명성과 책임을 요구해야 합니다.
💡 7. 윤리적이고 포용적인 인공 지능의 필요성
인공지능 기술은 더 나은 예측 분석을 통해 누가 고용되거나 대출을 받을지, 특정 개인이 어떤 정보를 보게 될지를 결정하는데 도움을 줄 수 있습니다. 그러나 이러한 데이터 중심의 기술들은 편견과 남용에 취약합니다. 따라서 우리는 윤리적이고 포용적인 인공 지능을 만들기 위해 더 많은 투명성과 책임을 요구해야 합니다. 무분별한 자신감과 준비를 갖추지 못한 상태에서 자동화 시대에 진입한 상황입니다. 인공 지능의 기계적 중립성을 핑계로 인권과 성평등을 포기할 위험에 직면한 것입니다. 따라서 우리는 윤리적이고 포용적인 인공 지능의 발전을 위해 더 많은 노력과 투명성을 요구해야 합니다. Gender Shades 프로젝트는 Coded Gaze에 반영된 문제를 직면하고 있습니다.
🌐 8. 데이터 기반 기술의 취약성과 남용
Gender Shades 프로젝트에서 나타난 문제는 데이터 기반 기술의 취약성과 남용의 한 예입니다. 데이터 중심 기술은 지향성과 남용의 가능성이 있습니다. 그 결과, 우리는 더 많은 투명성과 책임을 요구해야 합니다. 기계 학습 기반의 예측 시스템은 사람들이 그들의 성별이나 피부 유형에 관계없이 공정하게 대우받을 수 있도록 하는 것이 중요합니다. 그렇지 않으면 우리는 기술의 발전을 통해 얻은 인권과 성평등에 이득을 잃을 수 있습니다. Gender Shades 프로젝트는 데이터 중심 기술의 취약성과 남용을 인식하고 대처하기 위한 첫 걸음입니다.
📚 9. 결론
Gender Shades 프로젝트에서 Joy는 성별 분류 시스템의 문제와 정확도 차이를 밝히고 지속적인 연구와 개선을 필요로 한다는 점을 보여주었습니다. 다양성을 고려한 훈련 데이터와 투명성을 요구하는 것은 인공 지능 기술의 발전에 필수적입니다. 또한 기계 중심의 인공 지능을 개발할 때는 편견과 남용의 가능성을 고려해야 합니다. 이러한 노력과 조치들을 통해 우리는 윤리적이고 포용적인 인공 지능을 구축하여 인권과 성평등을 보장할 수 있습니다. Coded Gaze가 반영된 Gender Shades 프로젝트에 대한 더 많은 연구와 관심을 기대해 봅니다.
자주 묻는 질문
❓ Q: 실험 결과가 일반화될 수 있는지요?
⭐ A: Gender Shades 프로젝트에서 수행한 실험 결과는 일반화될 수 있는 경향이 있습니다. 여러 회사들이 흔히 겪는 문제와 정확도 차이를 밝힌 결과입니다. 하지만 성별 분류 시스템이나 회사마다 성능이 달라질 수 있으므로 더 많은 연구가 필요합니다.
❓ Q: 향후 연구 방향은 무엇인가요?
⭐ A: 향후 연구에서는 다양성을 고려한 훈련 데이터셋과 정확도 결과의 분리를 통해 성별 분류 시스템을 개선하는 방법을 탐구해야 합니다. 또한 윤리적이고 포용적인 인공 지능의 개발을 위해 투명성과 책임을 요구하는 연구가 필요합니다.
참고 자료
- TED Talk by Joy Buolamwini: 링크
- Gender Shades 프로젝트: 링크