'pyspark' 태그의 글 목록

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

« 2025/06 »

일

월

화

수

목

금

토

목록 pyspark (2)

KEEP GOING

[pyspark] 한 column 내에서 중복인 value들을 확인하고 싶을 때

예를 들어 다음과 같이 spark dataframe이 있다고 가정합니다. df = spark.createDataFrame([(1,), (1,), (4,), (4,), (4,), (5,), (6,), (8,), (3,)], ('col1',)) df.show() find duplicate values in spark dataframe 한 컬럼 안에서 중복인 값을 확인하고 싶을 때 df.groupBy('col1').count().where('count > 1').show() 만약 count 값은 확인하고 싶지 않다면 drop('count')를 추가합니다. df.groupBy('col1').count().where('count > 1').drop('count').show()

bigdata/spark 2023. 6. 17. 12:46

[spark] pyspark datframe: filter 메서드 총 정리

목차 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() columns = ['id', 'phone_number', 'name', 'sex'] df = spark.createDataFrame([['1', "010-3333-4234", 'Jisu', 'female'], ['2', '010-9999-3231', 'Karina', 'female'], ['3', '010-6653-5888', 'Winter', 'female'], ['4', '010-7732-0029', 'Eunwoo', 'male']], columns) df.show() 우선 실습을 진행하기 앞서 샘플 spark dataframe을 생성합니다. 1. fi..

bigdata/spark 2023. 6. 9. 22:41

Prev 1 Next

목록 pyspark (2)

KEEP GOING

티스토리툴바