인크레파스의 새로운 소식과 교육관련 다양한 정보들을 알려드립니다
하둡은 빅데이터를 분산 처리할 수 있는 오픈소스 자바 프레임워크입니다.
하둡은 크게 분산 저장과 병렬처리 2개의 프레임워크로 구성되어 있습니다.
분산저장은 클러스터 환경에서 대용량 데이터를 분산해서 안정적으로 저장하는 프레임워크입니다. = HDFS (Hadoop Distributed File System)
병렬처리는 저장환경 위에서 병렬로 데이터를 처리하는 프레임워크, 맴리듀스(MapReduce)라는 분산 소프트웨어를 사용하여 대용량 데이터처리를 분산 병렬 컴퓨팅에서 처리합니다.
오라클을 예로 들수 있는 시중의 관계형 데이터베이스(RDBMS)는 대부분 고가의 장비들이죠.
그런데 빅데이터처럼 계속 늘어나는 데이터를 소화하려면 계속해서 저장소를 늘리는 것은 무리죠.
하둡은 오픈소스이기 때문에 라이선스 비용도 없고 x86 CPU에 리눅스 서버라면 얼마든지 하둡을 설치해서 사용 할 수 있습니다.
기존 RDBMS는 데이터가 저장된 서버에서 데이터를 처리하는 방식이지만, 하둡은 여러대의 서버에 데이터를 저장하고 데이터가 저장된 각 서버에서 동시에 데이터를 처리하는 방식입니다.
1990년대부터 전형적인 드라이브 1,370MB 저장공간 4.4MB/s 전송속도 전체 드라이브를 읽어오는데 걸리는 시간 약 5분 현재의 드라이브 1TB 저장공간 100MB/s 수준의 전송속도 전체 드라이브를 읽어오는데 걸리는 시간 2시간 반 이상 이렇듯 데이터를 읽어오는데 걸리는 시간이 많이 걸리기 때문에 이를 극복하기 위해 여러대의 서버에 분산 저장을 하고 동시에 병렬로 데이터를 처리하는 방식을 선택하였습니다.
실생활의 예. 뉴욕타임즈가 2008년에 130년 분량의 신문기사 1,100만 페이지를 아마존 EC2, S2, 하둡을 이용해서 단 하루만에 단돈 200만원에 PDF로 변환시키는 것을 성공했습니다.

-
재직자교육
-
교육생프로젝트
-
상담예약
-
국비무료교육
-
취업현황
-
취업지원절차
-
우리들의 이야기
-
공지사항
-
스터디 자료