본문 바로가기
Hadoop

Hadoop Output Format

by 언덕너머에 2014. 6. 13.

  출력 데이터 포멧은 setOutputFormatClass 매서드로 설정한 포맷대로 만들어진다.

  사용자가 별도의 OutputFormat을 설정하지 않을 경우 TextOutputFormat


  * TextOutputFormat

    텍스트 파일에 레코드를 출력할 때 사용한다. 

    레코드를 출력할 때 키와 값의 구분자는 tab을 사용한다.

  

  * SequenceFileOutputFormat

    시퀀스 파일을 출력물로 쓸 때 사용한다.


  * SequenceFileAsBinaryOutputFormat

    SequenceFileOutputFormat을 상속받아 구현됐으며, 바이너리 포맷의 키와 값을 

    SequenceFile 컨테이너에 쓴다.


  * FilterOutputFormat

    OutputFormat 클래스의 Wrapper(래퍼) 클래스이다. OutputFormat 클래스를

    편리하게 사용할 수 있는 매서드를 제공한다.


  * LazyOutputFormat

    FileOutputFormat을 상속받은 클래스는 출력할 내용이 없더라도 리듀스의 출력 파일을

    생성한다. LazyOutputFormat을 사용하면 첫번째 레코드가 해당 파티션(part-nnnnn)으로

    보내질 때만 출력 파일을 생성한다.


  * NullOutputFormat

    출력 데이터가 없을 때 사용한다.

'Hadoop' 카테고리의 다른 글

Hadoop setPartitionerClass & setGroupingComparatorClass  (0) 2014.06.16
Hadoop Chain  (0) 2014.06.16
Reducer  (0) 2014.06.09
Partitioner  (0) 2014.06.09
Mapper  (0) 2014.06.09