KEEP GOING
[error] sc.textFile: Input path does not exist 본문
반응형
AWS EMR 기반 클러스터를 생성하여 스파크 쉘을 통해 실습하는 도중 발생한 문제이다. hdfs에서 데이터를 가져와야 하는데 로컬 파일 시스템 경로에 접근하여 문제가 발생하였다.
$ hdfs dfs -put <localsrc> <dst>
다음 명령어를 통해 로컬 파일 시스템 경로의 데이터를 hdfs로 옮겨야 한다.
우선 hdfs에 디렉터리를 생성해 주었는데 이 명령어는 아래와 같다.
$ hdfs dfs -mkdir -p /dataset
확인 결과,
hdfs에 디렉터리가 잘 생성됨을 알 수 있었다.
그리고 나서 로컬 파일 시스템에 bigdata-input.txt을 다운 받았다.
위에서 언급한대로, 로컬 파일 시스템의 데이터를 hdfs 상의 디렉터리로 옮겨주었다.
스파크 쉘에 접속하여 다시 sc.textFile()을 다시 실행하면
문제 없이 정상 작동되는 것을 확인할 수 있다.
textFile()을 통해 경로를 지정할 때, HADOOP_HOME 환경 변수를 따로 설정해두지 않았다면 "hdfs://" 같은 스키마 정보 없이 hdfs 경로에 바로 접근할 수 있다.
반응형
'bigdata > spark' 카테고리의 다른 글
[Spark] Spark Configuration 적용 방식(SparkConf, spark-shell, spark-default.conf)과 주 (0) | 2023.05.09 |
---|---|
[Spark][Tibero] ClassNotFoundException: com.tmax.tibero.jdbc.tbdriver 에러 해결 (0) | 2023.05.08 |
[Spark] 스파크 버전 확인하기 (0) | 2023.01.10 |
[Spark] Pyspark Dataframe 주요 메서드 샘플 정리(concat_ws, regexp_replace, explode, withColumnRenamed) (0) | 2022.12.21 |
[Spark] 스파크 데이터프레임(DataFrame) 개념 파악하기 (0) | 2022.10.26 |
Comments