반응형
목록 spark tuning (1)
KEEP GOING

개요 sklearn의 tfidfVectorizer를 통해 tfidf matrix를 생성하고 행렬 간 코사인 유사도를 구해 문서 간 유사도를 산출할 수 있습니다. 하지만 문제가 되는 점은 문서가 대용량 dataset일 경우입니다. 단일 서버로는 감당하기 힘들 정도로 매우 느린 속도로 지연이 발생합니다. 이때 브로드캐스트와 parallelize라는 spark의 분산 처리 기능을 활용하여 대규모 dataset에 대한 처리 속도를 개선할 수 있습니다. tfidftfidf는 단어 빈도 tf(term frequency)를 역문서빈도 idf(inverse document frequency)로 곱한 값입니다.tfidf는 문장 내에서 중요한 단어에 높은 가중치를 주기 위한 방법입니다. 우리가 적는 말들은 컴퓨터가 이해할..
bigdata/spark
2023. 10. 29. 13:49