Media Cloud/Hadoop2012. 12. 26. 18:38

하둡 (Hadoop)


분산 방식으로 대규모의 정형 또는 비정형 데이터를 분석하기 위한 오픈소스 기반 데이터 관리 기술


오라클로 대표되는 관계형 데이터베이스관리시스템(RDBMS)과 달리 하둡은 통상 비관계형 DBMS 로 분류되지만 SQL 쿼리를 사용하지 못하는 것은 아니며, SQL 뿐 아니라 다른 쿼리 시스템도 사용될 수 있는 NoSQL 데이터베이스


정형 데이터뿐 아니라 수 페타바이트에 달하는 웹로그, 클릭스트림, 소셜 미디어 콘텐츠 등 비정형 데이터 분석에 사용되고 있으며, 대표적인 기업은 야후로서 이미 5만개의 노드로 구성된 하둡 네트워크를 구축 중


하둡은 본질적으로 빅데이터 등 대용량 환경에만 베타적으로 사용되는 기술은 아니며, 활용 범위는 빅데이터보다 훨씬 광범위함


하둡이 페이스북과 야후의 빅데이터 분석에 사용되는 것은 강력한 확장성을 가지고 있기 때문이며, 데이터양이 작은 기업이라면 원하는 수준으로 규모를 축소시켜 자신들의 요구에 알맞게 하둡을 사용할 수 있음


하둡이 빅데이터를 처리할 수 있는 이유 

- 확장성을 기반으로 간단히 모든 데이터를 저장할 수 있기 때문

- 하둡이 모든 데이터를 저장할 수 있는 것은 경제적 비용이 매우 낮기 때문

- 연혁 데이터가 아닌 모든 데이터를 이용할 수 있다는 사실은 데이터를 인식하고 활용하는데 있어 엄청난 변화를 가져오고 있음

- 하둡 기술은 이러한 확장성 외에 유연성도 갖추고 있기 때문에 다양한 소스들로부터 보다 복잡한 분석을 수행할 수 있는 장점을 갖춤

- 하둡은 현재 오픈소스 플랫폼이지만 리눅스와 마찬가지로 상용 버전이 등장하면서 기업의 도입 속도를 촉진




'Media Cloud > Hadoop' 카테고리의 다른 글

MapReduce 정의  (0) 2013.02.27
Posted by 하늘_