Label Studio Generative AI 템플릿으로 RLHF의 인간의 선호도 수집하기
목차
- 소개
- Generative AI 템플릿 사용하기
- 데이터 레이블링과 인간의 선호도 수집하기
- generative AI와 데이터 레이블링 소개
- A~Z에서 generative AI 사용하기
- Docker와 VS Code를 활용한 환경 설정하기
- Docker와 VS Code 소개
- Docker와 VS Code 설치하기
- Docker와 VS Code 연동하기
- 기본적인 파이썬 문법과 JSON 파일 다루기
- 파이썬 기본 문법 소개
- JSON 파일 다루기 소개
- Label Studio를 사용하여 데이터 레이블링하기
- Label Studio 소개
- Label Studio 설치하기
- 데이터 레이블링을 위한 프로젝트 생성하기
- 데이터 레이블링을 위한 작업 소개
- 인간의 선호도 및 RLHF(Reinforcement Learning from Human Feedback) 소개
- RLHF 개념 소개
- RLHF에서 인간의 선호도 수집의 중요성
- 콘텍스트와 전문성의 중요성
- 데이터 준비와 작업 내용 실행하기
- 데이터 파일 준비하기
- 파이썬을 사용하여 데이터 불러오기
- Label Studio를 통해 데이터 레이블링하기
- 레이블링된 데이터 내보내기
- 결과 확인 및 활용하기
- FAQ
generative AI 템플릿을 사용한 인간의 선호도 수집하기
1. 소개
안녕하세요! Label Studio의 Aaron입니다. 오늘은 우리의 generative AI 템플릿, 특히 human preference collection에 대해 안내 드리도록 하겠습니다. generative AI나 데이터 레이블링, 대규모 generative 모델의 파인 튜닝에 처음 접하거나 어려워하신다면 걱정 마세요. 저희 템플릿은 generative AI 생태계와 데이터 레이블링 생태계의 입문자분들을 위해 가능한 쉽게 시작할 수 있도록 설계되었습니다. 오늘의 튜토리얼에서는 Docker, VS Code, Json 파일 및 몇 가지 기본적인 파이썬 기술을 사용할 예정입니다. 처음 접하는 것이라면 걱정하지 마세요. 제가 복사하여 붙여넣기할 수 있는 스크립트를 제공하므로 모든 자료는 여기뿐만 아니라 저희의 문서 및 GitHub에서도 찾아볼 수 있습니다. 그래도 아직 복잡하다면 저희의 "Label Studio로 처음부터 작업하기" 튜토리얼을 참고하시면 Docker를 시작하는 방법과 기본 원리에 대해 자세히 배울 수 있습니다. 그럼 시작해보죠!
2. generative AI 템플릿 사용하기
여기 작업에 사용할 화면입니다. 상단에는 terminatl, 상단 좌측에는 Docker, 가운데에는 문서 페이지로 저희 human preference collection에 대한 자세한 내용, 하단에는 VS Code가 열려 있습니다. 먼저 RLHF에 대해 좀 더 자세히 알아보고 왜 우리는 인간의 선호도 수집이 필요한지에 대해 알아보겠습니다.
RLHF(Reinforcement Learning from Human Feedback)와 인간의 선호도 수집의 중요성
RLHF는 기존의 모델(GPT나 LLAMA 같은)을 사용하고 인간의 피드백을 기반으로 추가적인 컨텍스트 층을 구축하는 방법입니다. 인간의 피드백을 얻기 위해서는 주석 작업자(annotators)와 협력하여 팀에게 알맞은 콘텍스트를 정의해야 합니다. 이것은 모두 데이터 세트 개발에 해당하며, 즉 이 예시에서는 데이터 세트를 설계하는 것입니다. 이에 더해, 인간의 선호도 수집에서는 주석 작업자가 콘텍스트에 대해 훈련받는 것이 매우 중요합니다. 이 작업에서는 주어진 문맥이 얼마나 어려울 수 있는지에 대해 강조하고 있으며, 적절한 문맥이 없으면 선호도 수집이 얼마나 까다로울 수 있는지 보여줍니다. 선호도와 의견은 매우 주관적이므로, 실제 활용에 대해 선호도를 맞추고 성급한 결론을 내릴 수 없습니다. 예를 들어, 금융 훈련을 위한 목표와 이니셔티브가 있는 파인튜닝에 적용하는 것은 의료와는 다른 두 가지 매우 다른 분야입니다. 이 두 분야는 특정 독자적인 지식과 자원이 필요합니다. 하지만 오늘의 튜토리얼에서는 굉장히 근거 없고 바보같은 예시를 사용하지만, 선호도 수집의 중요성을 잘 보여줄 수 있습니다. 그럼 이 과정이 어떻게 진행되는지 알아보죠.
실제 과정
시작하기 전에 먼저 Label Studio를 설치해야 합니다. 모든 자료는 GitHub 파일과 튜토리얼에 제공되며, 언제든지 문의할 수 있습니다. 첫 번째로, 단순한 예시로 내 터미널 창에서 Docker 컨테이너를 작동시키겠습니다. Label Studio와 Docker를 사용하여 작업하기 위해 미리 준비된 명령어를 사용하겠습니다.
그러면 컨테이너가 준비되며, 도커 컨테이너를 닫고 전체 화면으로 돌아가면 상단에 세 번째 컨테이너가 나타납니다. 이 컨테이너를 클릭하여 localhost:8080
에 연결됩니다. 이제 Label Studio에 새 프로젝트인 human preference collection
또는 RLHF를 만들어 보겠습니다. 이미 존재하는 데이터 세트를 가져올 경우 여기에 업로드하거나 기존 클라우드 스토리지에서 동기화할 수 있습니다. 그러나 이번 튜토리얼에서는 API를 통해 데이터를 추가할 것이므로 API를 선택하겠습니다. 대형 데이터 세트나 파인 튜닝에는 대체로 API를 통해 데이터를 추가하는 것이 가장 쉽습니다. 또한 레이블 스튜디오 SDK를 사용할 것입니다. 이후에 자세히 알아보겠습니다. 그 전에 레이블링을 위한 설정과 작업을 수행해야 합니다.
Docker와 VS Code를 활용한 환경 설정
1. Docker와 VS Code 소개
먼저 Docker와 VS Code에 대해 간단히 소개하겠습니다.
2. Docker와 VS Code 설치하기
Docker와 VS Code를 설치하는 방법을 알아보겠습니다.
3. Docker와 VS Code 연동하기
Docker와 VS Code를 연동하여 작업환경을 설정하는 방법에 대해 알아보겠습니다.