반응형
목록 스파크 textFile 오류 (1)
KEEP GOING

AWS EMR 기반 클러스터를 생성하여 스파크 쉘을 통해 실습하는 도중 발생한 문제이다. hdfs에서 데이터를 가져와야 하는데 로컬 파일 시스템 경로에 접근하여 문제가 발생하였다. $ hdfs dfs -put 다음 명령어를 통해 로컬 파일 시스템 경로의 데이터를 hdfs로 옮겨야 한다. 우선 hdfs에 디렉터리를 생성해 주었는데 이 명령어는 아래와 같다. $ hdfs dfs -mkdir -p /dataset 확인 결과, hdfs에 디렉터리가 잘 생성됨을 알 수 있었다. 그리고 나서 로컬 파일 시스템에 bigdata-input.txt을 다운 받았다. 위에서 언급한대로, 로컬 파일 시스템의 데이터를 hdfs 상의 디렉터리로 옮겨주었다. 스파크 쉘에 접속하여 다시 sc.textFile()을 다시 실행하면 문제..
bigdata/spark
2021. 12. 1. 23:29