[error] sc.textFile: Input path does not exist

Recent Posts

Recent Comments

관리 메뉴

KEEP GOING

bigdata/spark

jmHan 2021. 12. 1. 23:29

AWS EMR 기반 클러스터를 생성하여 스파크 쉘을 통해 실습하는 도중 발생한 문제이다. hdfs에서 데이터를 가져와야 하는데 로컬 파일 시스템 경로에 접근하여 문제가 발생하였다.

$ hdfs dfs -put <localsrc> <dst>

다음 명령어를 통해 로컬 파일 시스템 경로의 데이터를 hdfs로 옮겨야 한다.

우선 hdfs에 디렉터리를 생성해 주었는데 이 명령어는 아래와 같다.

$ hdfs dfs -mkdir -p /dataset

확인 결과,

hdfs에 디렉터리가 잘 생성됨을 알 수 있었다.

그리고 나서 로컬 파일 시스템에 bigdata-input.txt을 다운 받았다.

위에서 언급한대로, 로컬 파일 시스템의 데이터를 hdfs 상의 디렉터리로 옮겨주었다.

스파크 쉘에 접속하여 다시 sc.textFile()을 다시 실행하면

문제 없이 정상 작동되는 것을 확인할 수 있다.

textFile()을 통해 경로를 지정할 때, HADOOP_HOME 환경 변수를 따로 설정해두지 않았다면 "hdfs://" 같은 스키마 정보 없이 hdfs 경로에 바로 접근할 수 있다.

[Spark] Spark Configuration 적용 방식(SparkConf, spark-shell, spark-default.conf)과 주 (0)	2023.05.09
[Spark][Tibero] ClassNotFoundException: com.tmax.tibero.jdbc.tbdriver 에러 해결 (0)	2023.05.08
[Spark] 스파크 버전 확인하기 (0)	2023.01.10
[Spark] Pyspark Dataframe 주요 메서드 샘플 정리(concat_ws, regexp_replace, explode, withColumnRenamed) (0)	2022.12.21
[Spark] 스파크 데이터프레임(DataFrame) 개념 파악하기 (0)	2022.10.26

'bigdata/spark' Related Articles

Comments