목록 전체 글 (304)
KEEP GOING

목차 DataFrame이란 Spark는 자료구조로 RDD와 Datafame도 지원합니다. Spark Dataframe은 R의 DataFrame, Python pandas의 DataFrame과 비슷한 구조를 가지고 있습니다. Spark의 DataFrame은 정형 데이터를 효과적으로 다룰 수 있는 방법을 제공합니다. DataFrame의 장점 DataFrame을 사용할 경우 칼럼명으로 데이터를 참조할 수 있고 SQL 쿼리를 이용하여 데이터에 접근할 수 있습니다. Spark는 Spark의 DataFrame을 pandas의 DataFrame 형태로 바꿔주는 기능도 지원합니다. RDD와 DataFrame의 차이 RDD는 mapreduce 작업을 수행하고 transformation과 action이라는 두가지 방식으로..

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv' df = pd.read_csv(src_path, sep=',', encoding='CP949') print(df.head(3)) sample_df = df[['RAD', 'TAX']] print(sample_..

데이터 전처리 기업 데이터베이스 상에서 관리하는 raw data는 기업 운영과 관리를 위해 최적화된 형태로 관리된다. 통계 분석에 적합한 형태로 전환하거나 분석 목적에 맞게 새로운 정보로 변환시키기 위함이다. 1. 라이브러리 및 csv 파일 불러오기 import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv' df = pd.read_csv(src_path, sep..

파생변수: 분석 목적에 따라 필요한 정보 생성 기존 척도에서 새로운 척도를 만들어 내는 것 !주의 - 수치형 > 범주형 데이터로 변환 불가 # numpy as np # np.where(condition, x, y): 파생변수 만들때 자주 사용 1. 라이브러리 및 csv 파일 불러오기 import pandas as pd import numpy as np import warnings import matplotlib.pyplot as plt import seaborn as sns warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-r..

logging 소프트웨어 실행 시 문제가 발생할 경우, 그 상황에 대한 정보를 얻기 위해 로그를 남겨야 한다. 이러한 파이썬 로그 라이브러리를 logging이라 한다. 각 이벤트는 부여한 중요도를 가지고 있으며 이 중요도를 수준(level) 또는 심각도(severity)라고 부른다. log level debug: 상세한 정보. 문제 진단 시 사용 info: 예상대로 동작하는지 확인 warning: 예상치 못한 일이 발생했거나 미래에 발생할 문제를 표시. 소프트웨어는 그대로 동작 error: 심각한 문제로 인해 소프트웨어가 일부 기능을 수행하지 못한 경우 critical: 프로그램 자체가 계속 실행되지 않을 수 있음 def main(): # 출력되지 않음 logging.debug('debug') loggi..

모바엑스텀 기본 폰트 사이즈가 너무 작아서 폰트 사이즈를 조절해 주었습니다. 폰트 사이즈를 조절하기 위해서는 상단의 Settings > Configuration 클릭 후 Default terminal font settings를 클릭합니다. 그리고 나서 Terminal font 박스에 있는 Size를 조절해주면 됩니다. 폰트 사이즈로 14를 설정했더니 딱 알맞았습니다. 그리고 원래 기본 font는 MobaFont인데 바꾸는 김에 폰트도 Arial monospaced for SAP로 바꿔버렸습니다. 그리고 나서 ok 버튼을 눌러 확인을 눌러주면 되는데 여기서 잠깐! 왜 폰트 사이즈가 바뀌지 않았지? 생각하는 분들이 있을 것입니다. 변경한 폰트 사이즈를 default 값으로 설정하기 위해서는 SSH Sessi..

git 작업 환경 Working Directory: 현재 작업 중인 폴더 Staging Area: 버전 관리할 파일들을 기록하는 장소(깃이 감시하는 대상들) Local Repository: pc에 파일이 저장되는 저장소(내려받는 곳) Remote Repositoty: 원격 서버에서 파일이 관리되며 여러 사용자와 공유할 수 있는 저장소(깃에 올리는 곳) git init 일반 폴더를 깃 저장소로 초기화하는 명령어 해당 명령어 실행 후, 추가적인 깃 명령어 사용 가능 .git이란 폴더가 생기는데 파일 history가 저장되므로 삭제해서는 안 됨 # 현재 디렉터리를 git을 통해 버전 관리한다고 지정 $ git init # 깃 닉네임 등록 $ git config --global user.name "깃 닉네임" ..

(1) 셀 선택 모드(Command Mode) : esc 또는 ctrl + m을 눌러 진입 가능 셀 위로 추가 a 셀 아래로 추가 b 선택 셀 삭제 dd 선택 셀 복사 c 선택 셀 아래 셀과 합치기 shift + m markdown으로 변경 m code로 변경 y 파일 저장 ctrl + s (2) 코드 입력 모드(Edit Mode) enter을 눌러 진입 가능 입력 셀 실행 ctrl + enter 입력 셀 실행 후 아래 셀로 이동(없으면 새로운 셀 추가) shift + enter 입력 셀 실행 후 아래 셀로 이동(없으면 새로운 셀 추가) alt + enter * shift enter 와 alt enter의 차이점 shift + enter는 셀을 실행 후 그 다음셀이 비활성화 상태(Command Mode)..