본문 바로가기

전체 글170

Hadoop setPartitionerClass & setGroupingComparatorClass - setPartitionerClass & setGroupingComparatorClass * setPartitionerClass 파티셔너는 맵 태스크의 출력 데이터를 리듀스 태스크의 입력 데이터로 보낼지 결정하고, 이렇게 파티셔닝된 데이터는 맴 태스크의 출력 데이터의 키의 값에 따라 정렬된다. MapReducer에서 사용하는 파티셔너는 반드시 org.apache.hadoop.mapreduce.Partitioner를 상속받아서 구현해야 한다. 이때 파티셔너 설정하는 두 개의 패러미터는 Mapper의 출력 데이터 키와 값에 해당하는 패러미터이다. 예) import org.apache.hadoop.mapreduce.Partitioner; public class RecPartitioner extends Par.. 2014. 6. 16.
Hadoop Chain - Chain 하둡은 하나의 랩리듀스 잡에서 여러 개의 매퍼와 리듀서를 실행할 수 있게 체인매퍼(ChainMapper) 와 제인리듀서 (ChainReduce애를 제공한다. 두 클래스는 체인 방식으로 매퍼와 리듀서를 호출하게 된다. 체인매퍼의 경우 첫 번째 매퍼를 실행한 후 그 출력을 두 번째 매퍼의 입력 파라미터로 전달하 고, 두번째 매퍼의 출력은 그 다음 순서의 매퍼의 입력으로 전달된다. 이렇게 순차 적으로 매퍼가 실행 되다가 마지막에 있는 매퍼의 출력이 매퍼의 최종 출력 데이터가 된다. 체인리듀서도 위와같은 방식으 로 출력 데이터가 만들어진다. 예) Configuration conf = new Configuration(); //MapReduce job 이름 설정 conf.setJobName("chai.. 2014. 6. 16.
Hadoop Output Format - 출력 데이터 포멧은 setOutputFormatClass 매서드로 설정한 포맷대로 만들어진다. 사용자가 별도의 OutputFormat을 설정하지 않을 경우 TextOutputFormat * TextOutputFormat 텍스트 파일에 레코드를 출력할 때 사용한다. 레코드를 출력할 때 키와 값의 구분자는 tab을 사용한다. * SequenceFileOutputFormat 시퀀스 파일을 출력물로 쓸 때 사용한다. * SequenceFileAsBinaryOutputFormat SequenceFileOutputFormat을 상속받아 구현됐으며, 바이너리 포맷의 키와 값을 SequenceFile 컨테이너에 쓴다. * FilterOutputFormat OutputFormat 클래스의 Wrapper(래퍼) 클래스.. 2014. 6. 13.
Swift Numeric Types - Boolean Types - Integer Types - Floating Point Types 2014. 6. 12.