목록 분류 전체보기 (301)
KEEP GOING
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/chpdl5/btrXmykOv9Y/8LbUiPL4BTk5PXtwqIvbp1/img.png)
Intro 처음 키보드를 구매하려는 입문자라면 키보드마다 축, 키캡, 키압, 글자 유무 등이 천차 만별이기에 선택을 내리기 난감할 수 있습니다. 고민이 많으신 분들께 레오폴드 키보드 내돈내산 소비자로서 입문용으로 자신있게 레오폴드 키보드를 추천드리고 싶습니다. 레오폴드는 2006년도부터 시작된 키보드 기업으로 키보드계의 끝판왕인 리얼포스를 수입하여 유통한 회사로 유명합니다. 막상 사이트에 들어가 키보드를 구매하려 하니 모델명마다 무슨 뜻인지 모르겠고 어려움이 많으실 겁니다. 그래서 레오폴드 키보드를 종류별로 소개하면서 사용자별로 적합한 키보드를 추천해 드리고자 합니다. 기계식 키보드 기계식 키보드는 축의 종류에 따라 청축, 적축, 갈축, 저소음적축으로 나뉩니다. 각 축마다 키압이 다른데, 30g이라면 가..
hdfs 명령어 정리 hdfs는 하둡에서 대용량 데이터를 저장하고 처리할 수 있는 파일 시스템입니다. hdfs에 접근하는 다양한 CLI 명령어들이 존재하는데 이를 정리하고자 게시글을 작성하였습니다. hdfs에서 파일을 확인하는 방법, hdfs에서 로컬로 파일을 복사하는 방법, 역으로 로컬에서 hdfs로 파일을 복사하는 방법, hdfs 내에서 파일을 복사하는 방법 등을 배워보겠습니다. 현재 디렉터리 내 파일 확인 check hdfs files in working directory hadoop fs -ls hdfs에서 로컬로 파일 복사 copy from hdfs to the local file sytem hadoop fs -get hadoop fs -copyToLocal hdfs dfs -copyToLoca..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/kwSkv/btrV1VhkSIl/kwyasOVLPpXAA7Ko7fvoUk/img.png)
1. 커맨드 라인(CLI)에서 버전 확인 spark-submit --version spark-shell --version spark-sql --version spark-submit: CLI에서 spark 프로그램을 실행하기 위한 명령어 spark-shell: CLI에서 스칼라를 이용하여 spark 처리시 사용하는 명령어 (pyspark: CLI에서 파이썬으로 saprk 처리시 사용하는 명령어) spark-sql: CLI에서 Hive 쿼리 실행시 사용하는 명령어 세 명령어에 --version 옵션을 줘서 spark 버전을 확인할 수 있습니다. spark-version으로 실행해보니 2.4.4 버전임을 알 수 있습니다. 동시에 scala 버전과 자바개발환경을 갖추기 위해 필요한 OpenJDK 버전도 확인 가..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bgZBlP/btshAzdGBH9/96TThb3hLFzygFlJHxxmMK/img.png)
1. concatenate to columns with null values 널 값을 포함하는 컬럼 간에 concat하는 방법 from pyspark.sql.functions import concat_ws, col, concat spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame([["1", "2"], ["2", None], ["3", "4"], ["4", "5"], [None, "6"]]).toDF("a", "b") df = df.withColumn("concat", concat(df.a, df.b)) #잘못된 접근 사례1 df = df.withColumn("concat + cast", concat(df.a.cast('string..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/8Qo3Q/btrSHXqINpO/USYQc6kK9K1g0VU48h8PN0/img.png)
SQLD 자격증은 합격일 기준으로 2년이라는 자격증 유효기간이 존재한다. 하지만 이 자격 유효기간을 영구적으로 갱신하는 방법이 있는데, 바로 시험 등록을 했었던 데이터 자격 검정 사이트에서 보수 교육을 듣는 방법이다! * 유효기간을 넘겼을지라도 보수 교육을 통해서 SQLD 자격증을 영구적으로 갱신 할 수 있다 (예를 들어 유효기간이 2023년 4월 16일까지고, 오늘이 2023년 4월 17일이더라도 보수교육 이수시 영구 갱신 가능!) 1. 먼저 데이터 자격 시험 사이트로 이동하자 https://www.dataq.or.kr/www/main.do 데이터자격시험 카드결제/계좌이체 환불 환불 요청시 즉시환불 www.dataq.or.kr 2. 그리고 나서 마이페이지 > 보수교육으로 이동하여 신청하기 버튼을 클릭한..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cDWiq1/btrPymG4zgz/lwTwugkiEvlSSDOwzzbO71/img.png)
목차 DataFrame이란 Spark는 자료구조로 RDD와 Datafame도 지원합니다. Spark Dataframe은 R의 DataFrame, Python pandas의 DataFrame과 비슷한 구조를 가지고 있습니다. Spark의 DataFrame은 정형 데이터를 효과적으로 다룰 수 있는 방법을 제공합니다. DataFrame의 장점 DataFrame을 사용할 경우 칼럼명으로 데이터를 참조할 수 있고 SQL 쿼리를 이용하여 데이터에 접근할 수 있습니다. Spark는 Spark의 DataFrame을 pandas의 DataFrame 형태로 바꿔주는 기능도 지원합니다. RDD와 DataFrame의 차이 RDD는 mapreduce 작업을 수행하고 transformation과 action이라는 두가지 방식으로..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cvdDjt/btrPukinWzF/LEDZIvPtLGOAh4kSOlWOF1/img.png)
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv' df = pd.read_csv(src_path, sep=',', encoding='CP949') print(df.head(3)) sample_df = df[['RAD', 'TAX']] print(sample_..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dzu9h4/btrPwZEgsJk/W0DdK6dVEAly50jzuGncAk/img.png)
데이터 전처리 기업 데이터베이스 상에서 관리하는 raw data는 기업 운영과 관리를 위해 최적화된 형태로 관리된다. 통계 분석에 적합한 형태로 전환하거나 분석 목적에 맞게 새로운 정보로 변환시키기 위함이다. 1. 라이브러리 및 csv 파일 불러오기 import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv' df = pd.read_csv(src_path, sep..