Hadoop (1) 썸네일형 리스트형 MapReduce - 간단개념소개 및 wordcount 사용해보기 MapReduce는 Hadoop 클러스터의 데이터를 처리하기 위한 시스템으로 총 2개(Map, Reduce)의 phase로 구성된다. Map과 Reduce 사이에는 shuffle과 sort라는 스테이지가 존재한다. 각 Map task는 전체 데이터 셋에 대해서 별개의 부분에 대한 작업을 수행하게 되는데, 기본적으로 하나의 HDFS block을 대상으로 수행하게 된다. 모든 Map 태스크가 종료되면, MapReduce 시스템은 intermediate 데이터를 Reduce phase를 수행할 노드로 분산하여 전송한다. 실제로 그러면 wordcount를 사용해보도록 하자. Wordcount는 해당 텍스트에 어떤 단어가 얼마나 들어가있는지를 key value꼴로 나타낼 수 있는 라이브러리이다. 자연어처리 tok.. 이전 1 다음