AWS 빅데이터 서비스

Elastic MapReduce (정적인 데이터)

  • 대량의 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있게 해주는 웹 서비스
  • 빅데이터 처리를 간소화함으로써, 동적으로 확장할 수 있는 EC2 인스턴스에 대량으로 데이터를 쉽고, 빠르고, 비용효율적으로 배포하고 처리할 수 있는 관리형 하둡 프레임워크를 제공
  • 수집 - 온프라미스 구성 / 가공 - Elastic MapReduce 활용


EMR 구성요소

  • 클러스터 : 가상 컴퓨팅 분석 환경
  • 소프트웨어 구성 : Hadoop, Spark, Prestro 등 분석 엔진이 구성된 템플릿
  • 하드웨어 설정 : 분석을 위한 컴퓨팅 자원의 개수 및 용량
  • 보안 및 접근 : 구성할 분석 리소스에 필요한 접근 역할 및 접근을 위한 보안적인 키

Hadoop MapReduce 분석 방법


병렬적인(동시석) EMR 구성 사례


AWS 분석 서비스

Kinesis (실시간)

  • 대용량의 실시간 스트리밍 데이터를 손쉽게 로드하고 분석 처리 할 수 있게 해주는 플랫폼이다.
  • 웹사이트 클릭 스트림, 금융 거래, 소셜 미디어 피드, IT 로그 및 위치 추적 이벤트와 같은 수십만 개의 소스에서 시간당 테라 바이트급 데이터를 지속적으로 캡쳐 및 저장 가능하며 모니터링, 대시보드와 연동할 수 있도록 라이브러리를 제공
  • 실시간 데이터 분석
  • 로그 , 데이터  수집 및 처리
  • 실시간 계측 및 레포팅

kinesis의 구성 요소

  • Stream : 실시간 데이터를 수용하는  1개 이상의 shared 의 묶음이며 Shard는 2MB/s 읽기, 1MB/s 쓰기 용량을 제공
  • Firehose : 실시간으로 유입되는 데이터를 S3, RedShift에 저장
  • Analytics : SQL을 통해 실시간 데이터를 간편하게 분석

Machine Learning

  • 시각화 도구와 마법사를 제공하여 복잡한 기계 학습 알고리즘과 기술을 쉽게 사용할 수 있게 해주는 서비스이다.
  • Amazon 노하우를 통해 다양한 알고리즘 모델을 제공하며 서비스 확장성이 높고 매일 수십억 개의 예측을 생성할 수 있으며 ,이러한 예측을 높은 처리량과 함께 실시간으로 제공한다.
  • 의심되는 거래 데이터 표시
  • 상품 주문량 예측
  • 컨텐츠 개인화 추천
  • 사용자 패턴 예측

ML 모델 타입

  • 이분법적 분류 모델 : 이분법적인(둘중의 하나) 결과를 예측
  • 다분법적 분류 모델 : 다분법적인(다수개 중 두 개 이상) 결과를 예측
  • 회귀(상관) 모델 : 과거 데이터를 통해 상관관계를 예측 (선형회귀)


Kinesis, Machin Learning 병렬적인 (동시성) 구성 사례


AWS 모바일 서비스

Mobile Analytics

  • 신규 사용자 대 기존 사용자, 앱 수익, 사용자 유지, 인 앱 이벤트와 같은 핵심 트렌드를 추적하여 앱 사용량과 수익에 대한 측정을 해주는서비스
  • 데이터를 자동으로 S3 및 Redshift 로 저장하여 추후에 커스텀 분석을 할 수 있으며 AWS console, API를 통해 핵심적인 지표를 확인 가능하며 비용효율적이다.
  • 구글 Analytics 와 비슷하다.

분석 지표

  • Active Users : Daily, Monthly, New, Sticky Factor (특정 날 유저중 월별 유저 사용량)
  • Sessions : Total, Average
  • Revenue (비용) : Paying Daily Active User
  • Retention (재구매) : Daily, Weekly Retention
  • Custom Event : LifeTime Event (Per Session)

Device Farm

  • 안드로이드, IOS 플랫폼 기반의 스마트폰 및 태블릿에서 어플리케이션 테스트와 상호작용을 확인할 수 있게 해주는 앱 테스팅 서비스
  • 다양한 테스팅 프레임워크를 통해 어플리케이션의 테스팅을 자동화 할 수 있으며 실시간으로 데이터를 로드, 실행 및 테스크 처리할 수 있다.

+ Recent posts