빅데이터 기술과 플랫폼 구축과 관련된 학습 내용을 정리하는 중.
빅데이터 시스템과 전통적인 RDBMS(관계형 데이터베이스 시스템),
이 둘은 초기 도입목적이나 용도에 있어 유사할 수 있으나 동일한 것으로 고려하고 활용해서는
오히려 효과적인 성과를 내기 어렵거나 당혹스러움을 경험할 수 있다고 한다.
빅데이터는 높은 데이터 정합성을 고집하고 데이터의 오류 및 누락을 말끔히 해결해야만 활용할 수 있는 성질의 것이 아니라
그보다는 큰 틀에서 패턴과 인사이트를 찾아 현상을 이해하고
새로운 시도와 의사결정을 끌어낼 수 있는 실마리를 찾기 위한 것이기 때문이다.
하드웨어 측면에서 저가의 장비, 오픈소스 소프트웨어 등의 발전방향으로
대규모의 데이터를 다루는 분석이 가능해졌다.
현재 빅데이터 기술은 대용량 데이터 수집부터 고급분석, 데이터서비스로 범위가 넓혀지고 있는 상황이다.
빅데이터 인프라를 구축하고 실제로 파일럿 분석을 진행하는 실습을 통해 직접 경험해보았다.
Oracle VMbox를 활용해 3대의 가상머신을 활용하고,
CentOS(linux) 서버를 설치하였다.
관리툴로는 Cloudera를 활용하고
하둡 생태계에 포함된 여러 소프트웨어를 필요에 따라 설치했다.
모니터링 : 주키퍼(Zookeeper)
실시간 로그수집 : 플럼(Flume), 스톰(Storm), 카프카(Kafka, 버퍼링/트랜잭션 처리)
적재/처리탐색/분석 : 하둡(Hadoop), HBase
처리/탐색: 휴(Hue) - 하이브(Hive), 스파크(Spark), 우지(Oozie)
분석응용: 임팔라(Impala), 제플린(Zeppelin)
리눅스도 익숙지 않았던데다....
여러 대의 가상머신에 서버를 설치해 오가며 환경을 셋업하는 일부터 어려움이 많았다.
그 과정에서 네트워크, 메모리, 방화벽에 대해서도 학습하는 계기가 되었고,
기업에서 수십수백개의 노드를 가진 원하는 빅데이터 플랫폼을 구축하는 일이 여러 모로 쉽지않겠다는 생각이 들었다.
명령어는 머릿속에서 거의 날아간듯, 초기셋팅 정말 고생스러웠다.
Flume을 따라 떠내려오는 Log와 데이터들이 쌓이는 Sink가 장면으로 머리 속에 그려진다.
인상깊었다.
'분석하는 마케터' 카테고리의 다른 글
Python - 아스키코드 문자 <-> 숫자 변환 (0) | 2019.11.04 |
---|---|
Python - 리스트 내포(List Comprehension) (0) | 2019.11.04 |
Python - 형태소 분석(BeautifulSoup, konlpy) (0) | 2019.10.29 |
csv/txt 파일 행으로 구분하기, 합치기 (0) | 2019.04.15 |
Sublime text 줄바꿈/탭 공백 제거하기 (0) | 2019.04.03 |
댓글