목록 bigdata/hadoop (4)
KEEP GOING
목차 oozie w/f에서 sqoop 액션 실행 시 아래와 같은 에러가 발생했습니다. [main] ERROR org.apache.sqoop.tool.ImportTool - Import failed: org.apache.hadoop.mapred.FileAlreadyExistException: Output directory hdfs://nameservice1/user/hive/warehouse/***db.****table already exists FileAlreadyExistException 오류 원인 FileAlreadyExistsException 오류는 sqoop import 사용 시 --target-dir 옵션으로 디렉터리를 지정했을 때, 지정된 디렉토리가 hdfs에 이미 존재하는 경우에 발생합니다...
목차 yarn이란 YARN은 Hadoop 클러스터의 자원을 효율적으로 관리하고 분배하는 시스템입니다. 클러스터 전체 리소스 사용률을 모니터링하고 자원을 요청하고 할당을 조절하면서 애플리케이션 성능을 최적화합니다. YARN은 리소스 매니저(ResourceManager)와 노드 매니저(NodeManager)로 구성되어 있습니다. yarn과 하둡과의 관계 하둡(Hadoop)은 대용량 데이터를 분산 처리할 수 있는 오픈 소스 프레임워크입니다. 이때 하둡 클러스터에서 자원을 효율적으로 관리하고 분배하기 위해 사용되는 것이 바로 YARN입니다. 즉, YARN은 하둡의 하위 컴포넌트 중 하나이며 분산 컴퓨팅 애플리케이션을 실행하기 위한 자원 관리 시스템입니다. yarn의 구성요소 1)리소스매니저(Resource Ma..
hdfs 명령어 정리 hdfs는 하둡에서 대용량 데이터를 저장하고 처리할 수 있는 파일 시스템입니다. hdfs에 접근하는 다양한 CLI 명령어들이 존재하는데 이를 정리하고자 게시글을 작성하였습니다. hdfs에서 파일을 확인하는 방법, hdfs에서 로컬로 파일을 복사하는 방법, 역으로 로컬에서 hdfs로 파일을 복사하는 방법, hdfs 내에서 파일을 복사하는 방법 등을 배워보겠습니다. 현재 디렉터리 내 파일 확인 check hdfs files in working directory hadoop fs -ls hdfs에서 로컬로 파일 복사 copy from hdfs to the local file sytem hadoop fs -get hadoop fs -copyToLocal hdfs dfs -copyToLoca..
우지의 워크플로는 action 노드와 control 노드로 구성된다. action 노드란 각각의 실제 작업단위(workflow task)를 말하며 control 노드는 여러 action들이 어떤 조건에 의해 어떤 순서로 진행될 것인지를 지정한다. 유의할 것은 action 노드에 의해 실시되는 모든 작업(computation task)은 기본적으로 하둡의 맵리듀스 프레임워크 속에서 진행되므로 실제 작업은 우지와는 별개의 것으로 수행된다는 점이다. 즉 우지의 워크플로 action은 원격 시스템에서의 작업(job) 형태로 수행되고, 작업이 완료되면 해당 원격시스템은 우지를 호출(callback)해 그 작업이 완료됐음을 알려준다. 우지는 이러한 작업완료 통보를 받은 후 지정돼있던 다음 작업을 진행하도록 조치한다..