'spark tuning' 태그의 글 목록

본문 바로가기

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Recent Posts

Recent Comments

Today

Total

관리 메뉴

목록 spark tuning (1)

KEEP GOING

[spark][nlp] 대규모 텍스트 유사도 성능 개선하기 : spark broadcast and parallelize

개요 sklearn의 tfidfVectorizer를 통해 tfidf matrix를 생성하고 행렬 간 코사인 유사도를 구해 문서 간 유사도를 산출할 수 있습니다. 하지만 문제가 되는 점은 문서가 대용량 dataset일 경우입니다. 단일 서버로는 감당하기 힘들 정도로 매우 느린 속도로 지연이 발생합니다. 이때 브로드캐스트와 parallelize라는 spark의 분산 처리 기능을 활용하여 대규모 dataset에 대한 처리 속도를 개선할 수 있습니다. tfidftfidf는 단어 빈도 tf(term frequency)를 역문서빈도 idf(inverse document frequency)로 곱한 값입니다.tfidf는 문장 내에서 중요한 단어에 높은 가중치를 주기 위한 방법입니다. 우리가 적는 말들은 컴퓨터가 이해할..

bigdata/spark 2023. 10. 29. 13:49

Prev 1 Next

목록 spark tuning (1)

KEEP GOING

티스토리툴바