본문 바로가기
Hadoop

Inputformat 유형

by 언덕너머에 2014. 6. 9.

- TextInputFormat

  텍스트 파일을 분석할 때 사용하며, 캐리지 리턴 값(\r\n)을 기준으로 례코드를 분류한다.

  키는 라인 번호이며, LongWritable 타입을 사용한다. 값은 라인의 내용이며, Text 타입을 사용한다.


- KeyValueTextInputFormat

  텍스트 파일을 입력 파일로 사용할 때 라인 번호가 아닌 임의의 키값을 지정해서 키와 값의 목록으로

  사용한다.


- NLineInputFormat

  맵 태스크가 입럭 받을 텍스트 파일의 라인 수를 제한하고 싶을 때 사용한다.


- DelegatingInputFormat

  여러 개의 서로 다른 입력 포뱃을 사용하는 정우에 각 경로에 대한 작업 을위임한다.


- CombineFileInputFormat

  이 표에 있는 다른 InputFormat들은 파일당 스플릿을 샘성하지만 CombineFilelnputFormat은

  여러 개의 파일을 스플릿으로 묶어서 사용한다. 이때 각 노드와 랙의 위치를 고려해서 스플릿을

  결정하게 된다.


- SequenceFileInputFormat

  시뭔스 파일을 입력 데이터로 쓸 때 사용한다. 시뭔스 파일은 바이너리 형태의 키와 값의 목록으로

  구성된 텍스트 파일이다. 시뭔스 파일은 압축과 직렬화 프레임워크를 이용해 다양한 유형을 저장할

  수 있다.


'Hadoop' 카테고리의 다른 글

Partitioner  (0) 2014.06.09
Mapper  (0) 2014.06.09
Hadoop 시스템 구성도  (0) 2014.06.09
FS(FieSystem) 명령어  (0) 2014.06.05
hadoop 데몬 실행하기  (0) 2014.06.05