기계학습 1강
인공지능 > 머신러닝 > 딥러닝 포함관계
딥러닝 - 모델이 고차원적으로 입력 데이터를 파악하여 인간 수준까지 판단할 수 있는 영역
string AI - 공상과학영화 수준의 강한 ai
weak AI - 공장 자동화, 특정 일 수행하는 로봇들
빅데이터 3요소 - 3V
Volume(기가바이트 이상의 대용량 데이터 구성)
Variety(여러 형태의 데이터, 텍스트, 이미지, 숫자 등의 데이터를 다룸)
Velocity(데이터를 처리하는 속도가 실시간으로 빠르게)
5V로 표현할 경우엔 Value와 Veracity(진실정, 정확성) 포함
매개변수를 잘 찾는 것이 데이터를 잘 설명하는 수식을 찾는 과정 - 학습 혹은 훈련 트레이닝
기계학습 활용사례 - 구글 번역, 네이버 파파고, 쇼핑몰의 추천 시스템
기계 학습의 초기에 기여한 3가지 공개 데이터베이스
Iris, MNIST, ImageNet
지식 추출
데이터 입력
데이터 전처리(데이터 통합, 정규화, 속성 선택, 자원 축수)
데이터 마이닝(패턴 검색, 연관성 & 상관관계, 분류, 클러스터링
데이터 후처리(패턴평가, 패턴선택, 패턴 해석, 패턴 시각화)
패턴 추출
이상치(Outlier)
- 변수가 가질 수 없는 값 또는 아주 희귀한 값
ex : 나이가 900살, 키 400cm
결측치
- 운영상의 오류, 사람의 실수 등으로 변수가 실제 값을 가져아 하지만 누락된 경우
둘 다 데이터 정화 작업에서 처리
정성적 변수 - 특정한 속성을 가진 자료, 일반적으로 사칙 연산 적용 불가능
ex : 성별, 혈액형
정량적 변수 - 많고 적음을 나타내는 수치로 된 자료, 사칙 연산 가능
ex : 속도, 온도, 나이
단변수 - 히스토그램, 박스플로
다변수 - 상관관계표, 산점도행렬
차원 감소 방법
1. 변수 감소
2. 변수 추출
모델의 과소적합
- 모델의 용량이 작아 오차가 클 수 밖에 없는 현상
- 비선형 모델을 사용하는 대안
모델의 과잉적합
- 모델이 데이터를 설명하기에 너무 복잡한 형태
- 규제 등을 사용하여 모델 복잡도 감소
댓글
댓글 쓰기