'Spark Dataframe' 태그의 글 목록

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Recent Posts

Recent Comments

Today

Total

관리 메뉴

목록 Spark Dataframe (3)

KEEP GOING

[pyspark] 한 column 내에서 중복인 value들을 확인하고 싶을 때

예를 들어 다음과 같이 spark dataframe이 있다고 가정합니다. df = spark.createDataFrame([(1,), (1,), (4,), (4,), (4,), (5,), (6,), (8,), (3,)], ('col1',)) df.show() find duplicate values in spark dataframe 한 컬럼 안에서 중복인 값을 확인하고 싶을 때 df.groupBy('col1').count().where('count > 1').show() 만약 count 값은 확인하고 싶지 않다면 drop('count')를 추가합니다. df.groupBy('col1').count().where('count > 1').drop('count').show()

bigdata/spark 2023. 6. 17. 12:46

[Spark] Pyspark Dataframe 주요 메서드 샘플 정리(concat_ws, regexp_replace, explode, withColumnRenamed)

1. concatenate to columns with null values 널 값을 포함하는 컬럼 간에 concat하는 방법 from pyspark.sql.functions import concat_ws, col, concat spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame([["1", "2"], ["2", None], ["3", "4"], ["4", "5"], [None, "6"]]).toDF("a", "b") df = df.withColumn("concat", concat(df.a, df.b)) #잘못된 접근 사례1 df = df.withColumn("concat + cast", concat(df.a.cast('string..

bigdata/spark 2022. 12. 21. 09:03

[Spark] 스파크 데이터프레임(DataFrame) 개념 파악하기

목차 DataFrame이란 Spark는 자료구조로 RDD와 Datafame도 지원합니다. Spark Dataframe은 R의 DataFrame, Python pandas의 DataFrame과 비슷한 구조를 가지고 있습니다. Spark의 DataFrame은 정형 데이터를 효과적으로 다룰 수 있는 방법을 제공합니다. DataFrame의 장점 DataFrame을 사용할 경우 칼럼명으로 데이터를 참조할 수 있고 SQL 쿼리를 이용하여 데이터에 접근할 수 있습니다. Spark는 Spark의 DataFrame을 pandas의 DataFrame 형태로 바꿔주는 기능도 지원합니다. RDD와 DataFrame의 차이 RDD는 mapreduce 작업을 수행하고 transformation과 action이라는 두가지 방식으로..

bigdata/spark 2022. 10. 26. 15:20

Prev 1 Next

목록 Spark Dataframe (3)

KEEP GOING

티스토리툴바