Hadoop13 Inputformat 유형 - TextInputFormat 텍스트 파일을 분석할 때 사용하며, 캐리지 리턴 값(\r\n)을 기준으로 례코드를 분류한다. 키는 라인 번호이며, LongWritable 타입을 사용한다. 값은 라인의 내용이며, Text 타입을 사용한다. - KeyValueTextInputFormat 텍스트 파일을 입력 파일로 사용할 때 라인 번호가 아닌 임의의 키값을 지정해서 키와 값의 목록으로 사용한다. - NLineInputFormat 맵 태스크가 입럭 받을 텍스트 파일의 라인 수를 제한하고 싶을 때 사용한다. - DelegatingInputFormat 여러 개의 서로 다른 입력 포뱃을 사용하는 정우에 각 경로에 대한 작업 을위임한다. - CombineFileInputFormat 이 표에 있는 다른 InputForm.. 2014. 6. 9. Hadoop 시스템 구성도 - Client Client는 사용자가 실행한 맵리듀스 프로그램과 하둡에서 제공하는 맵리듀스 API를 의미한다. - Job Tracker Client가 하둡으로 실행을 요청하는 맵리듀스 프로그램은 Job이라는 하나의 작업 단위로 관리된다. Job Tracker는 하둡 클러스터에 등록된 전체 Job의 스케줄링을 관리하고 모니터링 한다. - Task Tracker Task Tracker는 사용자가 설정한 맵리듀스 프로그램을 실행하며, 하둡의 데이타노드에서 실행되는 데몬이다. Task Tracker는 Job Tracker의 작업을 요청받고, Job Tracker가 요청한 맵과 리듀스 개수 만큼 Map Task와 Reduce Task를 생성한다. 여기서 Map Task와 Reduce Task란 사용자가 설정한 .. 2014. 6. 9. FS(FieSystem) 명령어 - hadoop fs -ls hadoop 홈디렉토리 내용을 보여준다. - hadoop fs -lsr hadoop 홈디렉토리 이하의 모든 내용을 보여준다. - hadoop fs -ls input hadoop input디렉토리의 내용을 보여준다. - hadoop fs -mkdir input hadoop 홈디렉토리에 input디렉토리를 생성한다. - hadoop fs -du [디렉터리|파일 경로] 디렉터리의 용량을 출력 경로를 지정하지 않을 경우 사용자 홈디렉터리에 있는 모든 디렉터리를 출력 - hadoop fs -dur [디렉터리|파일 경로] 디렉터리의 합계용량을 출력 경로를 지정하지 않을 경우 홈디렉터리의 모든 용량을 출력 - hadoop fs -cat [파일] 지정한 파일의 내용을 화면에 출력 - had.. 2014. 6. 5. hadoop 데몬 실행하기 - 5개의 데몬을 일괄 실행하기 start-all.sh - 5개의 데몬을 일괄 종료하기 stop-all.sh - JobTracker, TaskTracker 실행 start-mapred.sh - namenode, datanode, secondarynamenode 실행 start-dfs.sh 2014. 6. 5. 이전 1 2 3 4 다음