기계학습 2강
기계학습에 필요한 세 가지
수학 - 목적함수 - 최적화
알고리즘 - 제어
사람 - 데이터 수집
수학은 선형대수, 확률과 통계, 최적화
3차원 이상의 구조를 가진 숫자 배열 - 텐서
스칼라(0차원 텐서), 벡터(1차원), 행렬(2차원)
전치행렬 - transpose 연산을 통해 가로 벡터 형태의 벡터형태로 나타낼 수 있음
행렬 - 분배법칙과 결합법칙은 성립하지만 교환버칙은 비성립
내적 - 차원이 같은 벡터에서 스칼라 값을 얻을 수 있는 연산(dot)
역행렬 - 정사각행렬에 대해서만 정의
확률분포 - 다수의 변수에 관한 확률분포
- 동시에 x = x이고 y = y일 확률
베이즈 정리 - x와 y가 같이 일어날 결합확률 = y와 x가 같이 일어날 결합확률
기계학습에서 최대 우도법
신경망이 784 - 100 - 100 - 100 - 10 구조일 때
784 * 100 + 100 * 100 + 100 * 100 + 100 * 10 = 99400(바이어스 무시)
엔트로피 - 확률분포의 무질서도 또는 불확실성 측정
최적화
목적함수가 최저값을 갖는 지점 = 기계학습의 분류 및 예측 오류가 가장 적을 곳
기계학습에서는?
훈련집합만 주어지고 미분을 계산하면서 최저점 f(x1, x2) 찾는 문제
최적화 알고리즘 - J(세타)를 최소로 하는 최적해 세타^를 찾는 알고리즘
미분(Differentiation) - 1차 도함수는 x가 미세하게 증가하였을 때 함숫값의 변화율을 알려줌
전역 최적해 - x의 정의역 전체에 걸쳐 최소인 점
지역 최적해 - 주변에서는 최적이지만 정의역 전체로 보면 최적해가 아닌 것
높은 차원의 공간에서 전역 최적해를 찾는 일은 매우 어려우므로 실제로는 지역 최적해로 만족하는 경우도 많음
실제 문제에서는 지역 최적해를 찾는 것으로 만족하는 경우가 많음
야코비안 행렬 - d개의 매개변수와 m개의 함수가 존재할 때 m개의 함수 각각을 d개의 매개변수로 편미분한 도함수를 행렬로 표현한 것
경사 하강법 - 샘플의 그레이디언트를 평균한 후 한꺼번에 갱신
댓글
댓글 쓰기