본문 바로가기

카테고리 없음

도서) 빅데이터를 지탱하는 기술 - 챕터 1 요약

챕터 1.

-'빅데이터의 기초' 지식 은 도입 부분으로 빅데이터 기술이 태어난 역사적 배경부터 시작해서 기본적인 용어들을 정리

-빅데이터와 대비하여 이전부터 존재하는 '스몰 데이터 기술'에 대해 설명

-간단한 파이썬 스크립트에 의한 데이터 처리와 데이터 디스커버리를 다뤄 이에 대한 개념을 이해

 

1-1. 빅데이터 정착

 1) 분산 시스템에 의한 데이터 처리의 고속화

    i) Hadoop은 '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템

       - 수천 대 단위의 컴퓨터를 관리하기위한 프레임워크

    ii) NoSQL 데이터 베이스

       a) 키 밸류 스토어

       b) 도큐먼트 스토어(JSON)

       c) 와이드 칼럼 스토어

    iii) Hadoop과 NoSQL 데이터베이스의 조합 (현실적인 비용으로 대규모 데이터 처리 실현)

       - NoSQL 데이터베이스에 기록하고 Hadoop으로 분산 처리

 2) 분산 시스템의 비즈니스 이용 개척

       - 데이터 웨어하우스와의 공존

 3) 직접 할 수 있는 데이터 분석 폭 확대

       - 클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용

 

 1-2. 빅데이터 시대의 데이터 분석 기반

  1) [재입문] 빅데이터의 기술

     - 분산 시스템을 활용해서 데이터를 가공해 나가는 구조

      i) 데이터 파이프라인

         - 데이터 수집에서 워크플로 관리까지

      ii) 데이터 수집

         - 벌크 형과 스트리밍 형의 데이터 전송

      iii) 스트림 처리와 배치 처리

         - 시계열 데이터 베이스와 같은 실시간 처리를 지향한 데이터베이스가 자주 사용 됨.

      iv) 분산 스토리지

         - 객체 스토리지, NoSQL 데이터베이스

          a) 분산 스토리지는 여러 컴퓨터와 디스크로부터 구성된 스토리지 시스템

          b) 객체 스토리지는 한 덩어리로 모인 데이터에 이름을 부여해서 파일로 저장 함. ex) 클라우드 서비스인 Amazon s3

       v) 분산 데이터 처리 (쿼리 엔진, ETL 프로세스)

         - 분산 데이터 처리 프레임 워크 필요

       vi) 워크플로 관리

         - 전체 데이터 파이프라인의 동작을 관리

           a) ETL

           b) ELT

   2) 데이터 웨어하우스와 데이터 마트

      - 데이터 파이프라인 기본형

   3) 데이터 레이크

      i)데이터를 그대로 축적 (CSV or JSON 대표적)

      ii) 데이터 레이크와 데이터 마트 (필요한 데이터는 데이터 마트에 정리)

   4) 데이터 분석 기반을 단계적으로 발전시키기

      i) 팀과 역할 분담, 스몰 스타트와 확장

      ii) 애드 혹 분석 및 대시보드 도구

      iii) 데이터 마트와 워크플로 관리

   5) 데이터를 수집하는 목적 

      i) 데이터 검색

      ii) 데이터의 가공

      iii) 데이터 시각화

    6) 확증적 데이터 분석과 탐색적 데이터 분석

1-3. [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임

 1) 데이터 처리와 스크립트 언어

      - 인기 언어인 파이썬과 데이터 프레임

 2) 데이터 프레임, 기초 중의 기초

      - '배열 안의 배열'로부터 작성

 3) 웹 서버의 엑세스 로그의 예

      - pandas의 데이터 프레임으로 간단히 처리

      - 데이터의 전처리에서 사용할 수 있는 pandas의 함수

 4) 시계열 데이터를 대화식으로 집계하기

      - 데이터 프레임을 그대로 사용한 데이터 집계

 5) SQL의 결과를 데이터 프레임으로 활용하기

      - 실행 결과를 확인하는 부분에서는 데이터 프레임을 사용한다

1-4. BI 도구와 모니터링

 1) 스프레드시트에 의한 모니터링

      - 프로젝트의 현재 상황 파악하기

 2) 데이터에 근거한 의사 결정

      i) KPI 모니터링 (KPI 모니터링에서 의식하고 싶은 것은 그것이 '행동 가능' 한 것인가이다.

      ii)자신의 행동을 결정할 때 직감에 의지하는 것이 아니라 객관적인 데이터를 근거하여 판단하는 것을

         '데이터 기반 의사 결정'이라고 한다.

      iii) 월간 보고서 (스프레드시트에 의한 보고서 작성과 그 한계)

 3) 변화를 파악하고 세부 사항을 이해하기

      i) BI 도구의 활용

      ii) 모니터링의 기본 전략 및 BI 도구 (정기적인  보고서에 의한 변화 파악과 재집계)

 4) 수작업과 자동화해야 할 것의 경계를 판별하기

     i) 수작업으로 할 수 있는 것은 수작업으로 해두기

     ii) 자동화하려는 경우에는 데이터 마트를 만든다.

       a) BI 도구에서 직접 데이터 소스에 접속하기

          - 장점: 시스템 구성이 간단하다.

          - 단점: BI 도구 측에서 지원하지 않는 데이터 소스에는 접속할 수 없다.

       b) 데이터 마트를 준비하고, 그것을 BI 도구로부터 열기

          - 장점: 어떤 테이블이라도 자유롭게 만들 수 있다.

          - 단점: 데이터 마트의 설치 및 운영에 시간이 걸린다.

       c) 웹 방식의 BI 도구를 도입하여 CSV 파일을 업로드하기

          - 장점: 스크립트로 자유롭게 데이터를 가공할 수 있다.

          - 단점: 데이터의 생성 및 업로드에 프로그래밍이 필요하다.

  

1-5. 요약

 i) Hadoop과 NoSQL '데이터베이스 분산 시스템 기술이 확립되어 기존의 데이터 웨어하우스를 보완, 대체하기 시작했다. 

    데이터 웨어하우스 -> 빅데이터 (비지니스화)

 ii) 클라우드 서비스 및 BI 도구의 보급

    a)데이터 수집

    b)쿼리 엔진

    c)워크플로 관리

 iii) 데이터레이크

     a) 축적된 데이터는 분산시스템에서 가공, 집계된 후 '데이터 마트'에 기록 됨.

     b) BI 도구 등을 이용해 엑세스하여 원할 때 필요한 정보를 활용 가능.

 iv) 파이썬등의 스크립트 언어를 사용하여 데이터 프레임을 이용

     a) 테이블 형식의 데이터를 처리 가능 함.

     b)  raw data 를 다루는데 용이

     c)  SQL 활용에도 유리

*빅데이터도 스몰데이터의 연장선이지만, 확실히 빅데이터를 다루는것은 더 어렵다.