데이터의 종류
- 비정형: 이미지, 동영상 ?
- 이것들도 포함이긴 하지만 다를 수도 있음.
- 실습하고 데이터를 끌고 오는 것은 대부분 비정형에 속함.
- 워드 카운트라던지 (어떤 단어가 몇개씩 있더라)
- 반정형: json, xml, nosql
- 형식은 있으나 완전한 형식을 가지고 있지는 않음.
- 정형
- 완전한 구조
- 엑셀의 테이블과 가장 유사한 구조
⇒ 구분하는 이유?
- ETL; 이동/ 변형이 있어야 함.
- 이동; 만들어진 데이터 소스
- 데이터 소스가 무엇이냐에 따라서 크게 달라짐.
- 데이터 소스가 달라진다는 것은 원천이 다르고, 데이터의 사용 목적이 달라진다는 것을 의미함.
- 유용한 때가 다름.
- 반정형은 몽고디비, 정형은 mysql할 때 유리함.
- 내가 자동 매매 프로그램을 만들었다. 어제 대비 10%가 빠지면 나에게 알림이 온다. 실시간 적으로 이 데이터를 보기만 하면 된다.
- price가 얼마 이하면 sell /notify를 한다.
- 반도체는 온도, 습도, 공정이 굉장히 중요함 → 실시간성이 중요
- threshold가 있어서 이 선을 넘어갈 때만 알려주면 된다. 분석을 가지고 평균 나이를 구할 때는 데이터 저장 구조만 봐도 column별로 프로세싱하는 것이 훨씬 빠르다.
- 정형 ; 고급 분석 (ADW; advanced data warehouse)
- 반정형 ; RDW
- 데이터의 종류는 다음과 같고, 특징에 따라 다르다고 함.
- 비정형 데이터를 정형 데이터로 바꾸어야 할 수도 있음. 학습을 해서 데이터를 뽑아내는 머신러닝 코드를 짠다고 한다면 머신 러닝 코드를 짜는 것이다.
- 고급 분석은 우리가 AI라고 생각했을 때 하는 대단한 tensor는 아닐 수도 있지만 경영 리코드를 뽑는 것일 수도 있음
- 플랫폼과 목적이라는 것은 난이도가 가장 높다.
- 학생에 대한 보고서를 학교별로 취합하는 작업을 한다고 하면 정통적으로 이러한 정형 비정형 반정형 분석은 이미 있을 것이다. (학사시스템이 사례가 있을 것)
- 내가 데이터 분석을 하거나 ai를 적용한다고 하면 여기가 아니라 어떤 땅에서 어떤 작업을 해야 하는가가 중요함.
- 데이터를 변형하는데도 머신 러닝을 많이 사용함.
- 입력받을 데이터가 5개인데 뒤에 3개는 예전에는 강제로 텍스트로 받았다면, 중요도를 고려