Inputformat 유형

- TextInputFormat

텍스트 파일을 분석할 때 사용하며, 캐리지 리턴 값(\r\n)을 기준으로 례코드를 분류한다.

키는 라인 번호이며, LongWritable 타입을 사용한다. 값은 라인의 내용이며, Text 타입을 사용한다.

- KeyValueTextInputFormat

텍스트 파일을 입력 파일로 사용할 때 라인 번호가 아닌 임의의 키값을 지정해서 키와 값의 목록으로

사용한다.

- NLineInputFormat

맵 태스크가 입럭 받을 텍스트 파일의 라인 수를 제한하고 싶을 때 사용한다.

- DelegatingInputFormat

여러 개의 서로 다른 입력 포뱃을 사용하는 정우에 각 경로에 대한 작업 을위임한다.

- CombineFileInputFormat

이 표에 있는 다른 InputFormat들은 파일당 스플릿을 샘성하지만 CombineFilelnputFormat은

여러 개의 파일을 스플릿으로 묶어서 사용한다. 이때 각 노드와 랙의 위치를 고려해서 스플릿을

결정하게 된다.

- SequenceFileInputFormat

시뭔스 파일을 입력 데이터로 쓸 때 사용한다. 시뭔스 파일은 바이너리 형태의 키와 값의 목록으로

구성된 텍스트 파일이다. 시뭔스 파일은 압축과 직렬화 프레임워크를 이용해 다양한 유형을 저장할

수 있다.

개발개발개발