목록 python (17)
KEEP GOING
목차 1. 정규 표현식 [0-9]: 숫자 [a-z]: 영어 소문자 [A-Z]: 영어 대문자 ^: not |: or ?:하나 혹은 아예 없음(1개 또는 0개) *:없거나 하나 이상 있는 경우(0개 또는 1개 이상) +:하나 이상 있는 경우(1개 이상) .: 어떤 문자나 기호나 숫자 대괄호 밖의^: 맨 앞 .$: 문자열 맨 뒤의 문자나 기호, 숫자 2. 정규표현식 연습해보기 좋은 사이트(regex101) https://regex101.com/ regex101: build, test, and debug regex Regular expression tester with syntax highlighting, explanation, cheat sheet for PHP/PCRE, Python, GO, JavaScri..
목차 Intro 데이터 전처리 과정은 분석 결과/ 모델 성능에 중요한 영향을 미치기에, 데이터 전처리 과정에서 데이터 정제에 속하는 문자열을 치환하는 방법을 제대로 이해하고자 합니다. 파이썬 문자열 내장 함수인 str.translate(), str.replace(), 그리고 re 모듈을 활용한 re.sub을 이용한 문자열 치환 방법을 알아보겠습니다. * 데이터 전처리: 데이터 정제 > 결측값 처리 > 이상값 처리 > 분석 변수 처리순으로 진행됨 * 데이터 정제: 결측값(missing value)을 채우거나 이상값(outlier)을 제거하는 과정으로 데이터의 신뢰도를 높이는 작업 str.translate s = '\nNew Jeans\t' table = s.maketrans({'\n':'', '\t':''..
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv' df = pd.read_csv(src_path, sep=',', encoding='CP949') print(df.head(3)) sample_df = df[['RAD', 'TAX']] print(sample_..
데이터 전처리 기업 데이터베이스 상에서 관리하는 raw data는 기업 운영과 관리를 위해 최적화된 형태로 관리된다. 통계 분석에 적합한 형태로 전환하거나 분석 목적에 맞게 새로운 정보로 변환시키기 위함이다. 1. 라이브러리 및 csv 파일 불러오기 import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-resourse/python_da/kaggle_boston_price.csv' df = pd.read_csv(src_path, sep..
파생변수: 분석 목적에 따라 필요한 정보 생성 기존 척도에서 새로운 척도를 만들어 내는 것 !주의 - 수치형 > 범주형 데이터로 변환 불가 # numpy as np # np.where(condition, x, y): 파생변수 만들때 자주 사용 1. 라이브러리 및 csv 파일 불러오기 import pandas as pd import numpy as np import warnings import matplotlib.pyplot as plt import seaborn as sns warnings.filterwarnings("ignore") src_path = 'https://codepresso-online-platform-public.s3.ap-northeast-2.amazonaws.com/learning-r..
logging 소프트웨어 실행 시 문제가 발생할 경우, 그 상황에 대한 정보를 얻기 위해 로그를 남겨야 한다. 이러한 파이썬 로그 라이브러리를 logging이라 한다. 각 이벤트는 부여한 중요도를 가지고 있으며 이 중요도를 수준(level) 또는 심각도(severity)라고 부른다. log level debug: 상세한 정보. 문제 진단 시 사용 info: 예상대로 동작하는지 확인 warning: 예상치 못한 일이 발생했거나 미래에 발생할 문제를 표시. 소프트웨어는 그대로 동작 error: 심각한 문제로 인해 소프트웨어가 일부 기능을 수행하지 못한 경우 critical: 프로그램 자체가 계속 실행되지 않을 수 있음 def main(): # 출력되지 않음 logging.debug('debug') loggi..
(1) 셀 선택 모드(Command Mode) : esc 또는 ctrl + m을 눌러 진입 가능 셀 위로 추가 a 셀 아래로 추가 b 선택 셀 삭제 dd 선택 셀 복사 c 선택 셀 아래 셀과 합치기 shift + m markdown으로 변경 m code로 변경 y 파일 저장 ctrl + s (2) 코드 입력 모드(Edit Mode) enter을 눌러 진입 가능 입력 셀 실행 ctrl + enter 입력 셀 실행 후 아래 셀로 이동(없으면 새로운 셀 추가) shift + enter 입력 셀 실행 후 아래 셀로 이동(없으면 새로운 셀 추가) alt + enter * shift enter 와 alt enter의 차이점 shift + enter는 셀을 실행 후 그 다음셀이 비활성화 상태(Command Mode)..
https://ecos.bok.or.kr/ 한국은행경제통계시스템 ecos.bok.or.kr 한국은행경제통계시스템에서 가져온 2000년도 1월부터 2022년 4월까지의 기준 금리 csv 파일입니다. 아래와 같은 순서로 진입하면 기준 금리 데이터와 그래프를 볼 수 있습니다. 통계검색 → 복수통계검색 → 한국은행 주요계정 및 기준금리 → 한국은행 기준금리 및 여수신금리 → 한국은행 기준금리 여기서 csv 파일을 저장하여 pandas 실습을 진행하려고 합니다. 저장된 csv 파일을 그대로 사용하지 않고 파일 안에 연도, 금리 숫자 데이터를 제외한 부가적인 내용들은 삭제해주었습니다. [csv 파일 불러오기] import pandas as pd df = pd.read_csv('C:/Users/dkwlw/Downlo..