1.1 기계 학습이란

💡 기계학습: 임의의 입력 값(x)에 대한 결과(y)를 예측하는 것

회귀란? 입력데이터 x를 기반으로 출력 데이터 y를 가질 수 있는 연속적인 수치 값(실숫값)을 예측하는 데 사용한다.

예를 들면, 주택 크기에 따라 집값을 예측하는 것이다.

분류란? 입력 데이터 x를 기반으로 출력 데이터 y가 어떤 이산적인(연속적이지 않은) 클래스 값을 가지는지 예측하는데 사용된다.

예를 들면, 사진 속 동물이 개, 고양이, 새 중에 무엇인지 분류하는 것이다.

기계 학습에서 x는 특징을 나타내고, y는 목표값을 나타낸다. 물론, x와 y는 스칼라가 아니라 벡터이다. 즉, 여러 개이다.

따라서, 이런 집합을 훈련 집합이라고 부르고 아래와 같이 표기한다.

데이터들이 선형 분포를 이룬다고 가정하고, 모델을 직선으로 선택하면 아래와 같은 식이 나올 수 있다.

[매개변수 w & b]

w(가중치, weight) : 입력 데이터 x가 출력 y에 미치는 영향을 수치화하여 모델의 예측 능력을 결정하는 역할을 한다.
- 역할: 그래프의 기울기를 결정한다.
b(편향, Bias) : 그래프에서 x가 0일 때 y의 값. 즉, y 절편을 나타낸다.
- 역할: 전체적인 에측값을 상하로 이동시켜 모델의 유연성을 높인다.

이제 현재까지 배운 지식을 근거로 기계 학습을 설명한다면 아래와 같다.

💡 기계학습: 가장 정확하게 예측할 수 있는, 즉 최적의 매개변수 값을 찾는 작업이다.

처음에는 랜덤한 매개변수로 f1 모델을 만들어 내지만, 점점 학습을 하면서 최적의 매개변수를 찾아 f3 모델을 만들어낸다.

이렇게 적합한 매개변수를 가진 모델을 찾아내면, 예측을 할 수 있다. 하지만 아직 학습이 끝난 것이 아니다.

학습 데이터에는 없는 데이터에 대한 예측 또한 잘해내야 제대로된 모델이라고 할 수 있다. 이러한 것을 일반화 능력이라고 한다.

kim.zip