'find duplicate values in spark dataframe' 태그의 글 목록

본문 바로가기

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Recent Posts

Recent Comments

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록 find duplicate values in spark dataframe (1)

KEEP GOING

[pyspark] 한 column 내에서 중복인 value들을 확인하고 싶을 때

예를 들어 다음과 같이 spark dataframe이 있다고 가정합니다. df = spark.createDataFrame([(1,), (1,), (4,), (4,), (4,), (5,), (6,), (8,), (3,)], ('col1',)) df.show() find duplicate values in spark dataframe 한 컬럼 안에서 중복인 값을 확인하고 싶을 때 df.groupBy('col1').count().where('count > 1').show() 만약 count 값은 확인하고 싶지 않다면 drop('count')를 추가합니다. df.groupBy('col1').count().where('count > 1').drop('count').show()

bigdata/spark 2023. 6. 17. 12:46

Prev 1 Next

목록 find duplicate values in spark dataframe (1)

KEEP GOING

티스토리툴바