[error] sc.textFile: Input path does not exist

bigdata/spark

jmHan 2021. 12. 1. 23:29

AWS EMR 기반 클러스터를 생성하여 스파크 쉘을 통해 실습하는 도중 발생한 문제이다. hdfs에서 데이터를 가져와야 하는데 로컬 파일 시스템 경로에 접근하여 문제가 발생하였다.

$ hdfs dfs -put <localsrc> <dst>

다음 명령어를 통해 로컬 파일 시스템 경로의 데이터를 hdfs로 옮겨야 한다.

우선 hdfs에 디렉터리를 생성해 주었는데 이 명령어는 아래와 같다.

$ hdfs dfs -mkdir -p /dataset

확인 결과,

hdfs에 디렉터리가 잘 생성됨을 알 수 있었다.

그리고 나서 로컬 파일 시스템에 bigdata-input.txt을 다운 받았다.

위에서 언급한대로, 로컬 파일 시스템의 데이터를 hdfs 상의 디렉터리로 옮겨주었다.

스파크 쉘에 접속하여 다시 sc.textFile()을 다시 실행하면

문제 없이 정상 작동되는 것을 확인할 수 있다.

textFile()을 통해 경로를 지정할 때, HADOOP_HOME 환경 변수를 따로 설정해두지 않았다면 "hdfs://" 같은 스키마 정보 없이 hdfs 경로에 바로 접근할 수 있다.