맥에서 Hadoop 설치하기
목차
- Hadoop란 무엇인가요?
- Hadoop 설치 전 필요한 사항
- Java 8 설치하기
- Java 환경 변수 설정하기
- SSH 로컬 호스트 활성화하기
- Hadoop 다운로드하기
- Hadoop 환경 변수 설정하기
- Hadoop 설정 파일 수정하기
- Hadoop 서비스 시작하기
- Hadoop에 파일 추가하기
👉 Hadoop란 무엇인가요?
Hadoop은 대용량의 데이터를 효율적으로 저장하고 처리하기 위해 사용되는 오픈 소스 프레임워크입니다. 이 프레임워크는 단일 대형 컴퓨터 대신 여러 컴퓨터의 클러스터를 사용하여 대규모 데이터 세트를 병렬로 분석하고 빠르게 처리할 수 있도록 도와줍니다.
👉 Hadoop 설치 전 필요한 사항
Hadoop을 설치하기 전에 시스템에 Java 8이 설치되어 있는지 확인해야 합니다. 설치된 Java JDK의 버전을 확인하려면 터미널을 열어 java -version
명령어를 실행해 보세요. 만약 해당 명령어가 작동하지 않는다면 Java JDK가 설치되지 않은 것입니다. 다른 Java 버전이 표시된다면 Java JDK를 제거한 후 Java JDK 8을 설치해야 합니다. Java JDK 8을 설치하려면 Oracle 공식 웹사이트에서 다운로드해야 합니다.
장점:
- 대용량 데이터 세트를 효율적으로 저장하고 처리할 수 있습니다.
- 병렬 처리를 통해 데이터를 더 빠르게 분석할 수 있습니다.
- 오픈 소스이고 무료로 사용할 수 있습니다.
단점:
- Hadoop은 복잡한 설정과 관리를 필요로 합니다.
- 높은 성능을 위해서는 클러스터 컴퓨터가 필요합니다.
- 사용자가 적은 규모의 데이터 세트에는 불필요하고 비효율적일 수 있습니다.
👉 Java 8 설치하기
Java 8은 Hadoop을 실행하기 위해 필요한 환경입니다. Java JDK 8을 설치하려면 다음 단계를 따르세요.
- 웹 브라우저에서 Oracle 공식 웹사이트로 이동합니다.
- Java 8 다운로드 페이지로 스크롤하여 Mac OS 버전을 찾습니다.
- 다운로드 링크를 클릭합니다.
- 라이선스 동의 후 DMG 파일을 다운로드합니다.
- 다운로드한 DMG 파일을 더블 클릭하여 설치 프로세스를 시작합니다.
- 설치를 완료하고 패스워드를 입력합니다.
- 설치가 완료되면 패키지를 휴지통으로 이동시킵니다.
👉 Java 환경 변수 설정하기
Java JDK 8이 설치되었다면 Java 환경 변수를 설정해야 합니다. 이를 위해 VS Code를 사용할 것입니다. VS Code에서 터미널을 열고 다음 명령어를 입력하세요.
code ~/.zprofile
이 명령어를 통해 VS Code에서 .zprofile
파일을 열어 Java 환경 변수를 설정할 수 있습니다. 만약 다른 텍스트 에디터를 선호한다면 이를 사용해도 됩니다. .zprofile
파일을 열고 다음 코드를 추가하세요.
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_301.jdk/Contents/Home
저장한 후 파일을 닫습니다. 이제 터미널에서 다음 명령어로 Java 환경 변수가 제대로 설정되었는지 확인할 수 있습니다.
echo $JAVA_HOME
위 명령어를 실행하면 Java 환경 변수가 출력됩니다.
👉 SSH 로컬 호스트 활성화하기
Hadoop을 설치한 로컬 호스트로 SSH를 활성화해야 합니다. 이를 위해 시스템 환경설정에서 공유 탭을 열고 원격 로그인을 활성화하세요.
👉 Hadoop 다운로드하기
Hadoop을 다운로드해야 합니다. Hadoop의 공식 웹사이트에 접속하여 원하는 버전을 다운로드할 수 있습니다. 다운로드한 tar 파일을 다운로드한 위치에 압축 해제한 다음 설치할 폴더로 이동시킵니다.
👉 Hadoop 환경 변수 설정하기
Hadoop 설치 폴더에 있는 .bashrc 파일을 열어 환경 변수를 설정하세요. 다음 명령어를 사용하여 .bashrc 파일을 엽니다.
sudo code $HADOOP_HOME/etc/hadoop/hadoop-env.sh
추가해야 하는 환경 변수가 있는데, Java 환경 변수에 추가한 $JAVA_HOME
이 그 중 하나입니다. 다음 코드를 .bashrc
파일에 추가해주세요.
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_301.jdk/Contents/Home
저장한 후 파일을 닫습니다.
👉 Hadoop 설정 파일 수정하기
Hadoop의 설정 파일을 수정해야 합니다. 다음 명령어를 사용하여 수정할 파일을 엽니다.
sudo code $HADOOP_HOME/etc/hadoop/core-site.xml
파일을 열고 다음 구성을 추가합니다.
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
저장한 후 파일을 닫습니다. 이제 다음 명령어로 Hadoop의 설정 파일을 열어 수정합니다.
sudo code $HADOOP_HOME/etc/hadoop/hdfs-site.xml
파일을 열고 다음 구성을 추가합니다.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///Users/YourUsername/hadoop_data/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///Users/YourUsername/hadoop_data/hdfs/datanode</value>
</property>
</configuration>
YourUsername
부분은 사용자 이름으로 변경해야 합니다.
저장한 후 파일을 닫습니다.
👉 Hadoop 서비스 시작하기
Hadoop 서비스를 시작해야 합니다. 다음 명령어를 사용하여 Hadoop을 시작합니다.
start-dfs.sh
모든 서비스가 정상적으로 시작되었다면 다음 명령어로 확인할 수 있습니다.
jps
명령어를 실행하면 다음과 같은 출력이 나와야 합니다.
NameNode
DataNode
SecondaryNameNode
ResourceManager
NodeManager
👉 Hadoop에 파일 추가하기
Hadoop에 파일을 추가해보겠습니다. 터미널에서 다음 명령어를 사용하여 파일을 추가합니다.
hdfs dfs -put demo.csv /user/YourUsername
YourUsername
부분은 사용자 이름으로 변경해야 합니다.
이제 Hadoop 클러스터에서 파일을 추가한 위치로 이동하여 확인하거나 웹 브라우저에서 확인할 수 있습니다.
🌟 요약
Hadoop은 대용량 데이터를 저장하고 처리하기 위한 오픈 소스 프레임워크입니다. Java 8을 설치하고 환경 변수를 설정한 후 Hadoop을 다운로드하고 설치하였습니다. 또한 Hadoop의 설정 파일을 수정하여 Hadoop 서비스를 시작하고 파일을 추가하는 방법을 배웠습니다.
자주 묻는 질문
Q: Hadoop을 사용하여 대용량 데이터를 더 빠르게 처리할 수 있는 이유가 무엇인가요?
A: Hadoop은 병렬 처리를 통해 여러 컴퓨터에서 대규모 데이터 세트를 동시에 분석할 수 있기 때문에 더 빠르게 처리할 수 있습니다.
Q: Hadoop의 단점은 무엇인가요?
A: Hadoop은 복잡한 설정과 관리를 필요로 하며 클러스터 컴퓨터가 필요합니다. 또한 작은 규모의 데이터 세트에는 비효율적일 수 있습니다.
Q: Hadoop을 사용하기 위해 필요한 환경은 무엇인가요?
A: Hadoop은 Java 8과 SSH가 활성화된 로컬 호스트가 필요합니다.
참고 자료