- TextInputFormat
텍스트 파일을 분석할 때 사용하며, 캐리지 리턴 값(\r\n)을 기준으로 례코드를 분류한다.
키는 라인 번호이며, LongWritable 타입을 사용한다. 값은 라인의 내용이며, Text 타입을 사용한다.
- KeyValueTextInputFormat
텍스트 파일을 입력 파일로 사용할 때 라인 번호가 아닌 임의의 키값을 지정해서 키와 값의 목록으로
사용한다.
- NLineInputFormat
맵 태스크가 입럭 받을 텍스트 파일의 라인 수를 제한하고 싶을 때 사용한다.
- DelegatingInputFormat
여러 개의 서로 다른 입력 포뱃을 사용하는 정우에 각 경로에 대한 작업 을위임한다.
- CombineFileInputFormat
이 표에 있는 다른 InputFormat들은 파일당 스플릿을 샘성하지만 CombineFilelnputFormat은
여러 개의 파일을 스플릿으로 묶어서 사용한다. 이때 각 노드와 랙의 위치를 고려해서 스플릿을
결정하게 된다.
- SequenceFileInputFormat
시뭔스 파일을 입력 데이터로 쓸 때 사용한다. 시뭔스 파일은 바이너리 형태의 키와 값의 목록으로
구성된 텍스트 파일이다. 시뭔스 파일은 압축과 직렬화 프레임워크를 이용해 다양한 유형을 저장할
수 있다.
'Hadoop' 카테고리의 다른 글
Partitioner (0) | 2014.06.09 |
---|---|
Mapper (0) | 2014.06.09 |
Hadoop 시스템 구성도 (0) | 2014.06.09 |
FS(FieSystem) 명령어 (0) | 2014.06.05 |
hadoop 데몬 실행하기 (0) | 2014.06.05 |