Introduction
- 인도; 아마존 클라우드 서비스는 뭄바이에 있고 MS웨저는 벵갈로에 있다. → 지역에 따른 차이가 생김.
- 아마존이 1위이기 때문에 구글이나 ms는 다양한 좋은 조건을 제시를 한다.
- 클라우드를 개발 할 때 자신이 편리한 것을 사용하겠지만 데이터를 저장하는데 아주 fancy한 최신 클라우드를 사용할 필요는 없음.
- 클라우드와 빅데이터는 굉장히 밀접한 관련이 있음.
클라우드의 장점
- 원하는 양을 원하는 시기에 자유롭게 사용할 수 있다.
- 빅데이터?
- 우리가 노트북을 산다고 하면, 3-5년에서 사용할 것을 생각하고 구매함. 전통적인 기업에서 데이터 저장소는 예전에는 하드 웨어를 살 때 5년 치 이런식으로 고민해서 구매함.
- 손해 공간.
- 예전에 장비를 사면 노트북을 사면 1-2주가 걸린다.
- 예전에는 하드웨어가 사면 오는데 3달정도 걸린다.
- 새로 디스크를 사는데 3달이 걸린다면 엄청 화가 날 것이다. ⇒ sizing
- 클라우드의 장점은 원하는 대로 늘릴 수 있다는 것이다.
- 예를 들어서 60%가 찼다면 추가로 확보하고 하지 않는것.
- 이게 가능해진 비용적인 이점.
- 그러다 보니 예전에는 예상한 데이터만 넣을 수 있었다면, (5년 동안 무슨 일이 일어날지 예상을 해야 함)
- 사용자가 연간 20% 씩 증가한다고 하면,
- 요즘은 글로벌 서비스를 많이 한다. 요즘은 데이터가 J 커브 형식으로 증가한다.
- 이를 대응하기 위해서는 클라우드 밖에 없다.
- 클라우드가 굉장히 활발해 지기 시작함.
- 사람이 머신러닝을 할 때 gpu를 한다고 하면 모델을 만드는데 하루 종일 걸리진 않는다.
- 클라우드 엔지니어와 사용할 수 있는 환경이 크다.
데이터의 형태: 정형, 반정형, 비정형
전통적 데이터 저장 방법: 정규화
데이터 저장 전략
정규화 이론 톱아보기
데이터 베이스의 다양성
DW와 튜닝[TPC-DS]