본문 바로가기

Hadoop13

Hadoop Output Format - 출력 데이터 포멧은 setOutputFormatClass 매서드로 설정한 포맷대로 만들어진다. 사용자가 별도의 OutputFormat을 설정하지 않을 경우 TextOutputFormat * TextOutputFormat 텍스트 파일에 레코드를 출력할 때 사용한다. 레코드를 출력할 때 키와 값의 구분자는 tab을 사용한다. * SequenceFileOutputFormat 시퀀스 파일을 출력물로 쓸 때 사용한다. * SequenceFileAsBinaryOutputFormat SequenceFileOutputFormat을 상속받아 구현됐으며, 바이너리 포맷의 키와 값을 SequenceFile 컨테이너에 쓴다. * FilterOutputFormat OutputFormat 클래스의 Wrapper(래퍼) 클래스.. 2014. 6. 13.
Reducer - Reducer 클래스에서는 맵 태스크의 출력 데이타를 입력 데이터로 전달받아-집계 연산을 수행한다. - public class Reducer 예) public static class MyReduce extends Reducer { private LongWritable sumWritable = new LongWritable(); public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException{ long sum = 0; for(LongWritable val : values) { sum += val.get(); } sumWritable.set(sum); context.write(key,.. 2014. 6. 9.
Partitioner - Partitioner는 맵 태스크의 출력 데이터가 어떤 리듀스 태스크로 전달될지 결정한다. 2014. 6. 9.
Mapper - Mapper는 맴리듀스 프로그래밍 모댈에서 뱀 메서드의 기능을 수행한다. Mapper는 키와 값으로 구성된 입력 데이터를 전달받아 이 데이터를 가공하고 분류해서 새로운 데이터 목록을 생성한다. - public class Mapper 예) public class TokenCounterMapper extends Mapper{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { StringTokenizer itr = ne.. 2014. 6. 9.