반응형
목록 bigdata/spark (9)
KEEP GOING

AWS EMR 기반 클러스터를 생성하여 스파크 쉘을 통해 실습하는 도중 발생한 문제이다. hdfs에서 데이터를 가져와야 하는데 로컬 파일 시스템 경로에 접근하여 문제가 발생하였다. $ hdfs dfs -put 다음 명령어를 통해 로컬 파일 시스템 경로의 데이터를 hdfs로 옮겨야 한다. 우선 hdfs에 디렉터리를 생성해 주었는데 이 명령어는 아래와 같다. $ hdfs dfs -mkdir -p /dataset 확인 결과, hdfs에 디렉터리가 잘 생성됨을 알 수 있었다. 그리고 나서 로컬 파일 시스템에 bigdata-input.txt을 다운 받았다. 위에서 언급한대로, 로컬 파일 시스템의 데이터를 hdfs 상의 디렉터리로 옮겨주었다. 스파크 쉘에 접속하여 다시 sc.textFile()을 다시 실행하면 문제..
bigdata/spark
2021. 12. 1. 23:29