Data/Ai

머신러닝의 분류 - 지도와 비지도, 강화 학습

재은초 2023. 6. 18. 12:41
반응형

지도 학습(Supervised Learning)

  • 지도 학습이란 여러가지 문제와 정답을 같이 학습시킴으로써 모르는 문제에 대한 답을 예측하는 방법이다. 따라서 지도 학습을 위한 데이터에는 문제와 그 정답까지 함께 있는 데이터가 선택된다.
  • 사람이 직접 개입하므로 정확도가 높은 데이터를 사용할 수 있지만, 대신에 사람이 직접 레이블을 달아야 하므로 인건비와 구할 수 있는 데이터 양도 적은 문제가 있다.
  • 지도 학습을 위한 모델은 크게 분류(Classification)와 예측(Prediction) 모델로 구분된다. 둘 다 모두 지도 학습 모델이므로 데이터와 레이블을 함께 학습시킨다는 공통점을 가진다. 하지만 분류 모델은 학습 데이터의 레이블 중 하나가 결괏값이 되고, 예측 모델은 학습 데이터에서 도출된 함수식에서 계산된 임의의 값이 결괏값이 되는 점이 서로 다르다.
레이블(label)이란?: 데이터와 함께 입력되는 정답을 말하며 레이블의 유무에 따라 지도학습과 비지도학습으로 나뉜다.

https://www.engineersgarage.com/wp-content/uploads/2022/03/TCH45-01.png

분류(Classification) 모델

  • 분류 모델은 사용하는 알고리즘에 따라 또다시 KNN(K Nearest Neighbor), 서포트 벡터 머신 (SVM, Support Vector Machine), 의사결정 트리(Decision Trees) 등의 모델로 구분된다.
  • 분류 모델은 레이블이 달린 학습 데이터로 학습한 후에 새로 입력된 데이터가 학습했던 어느 그룹에 속하는 지를 찾아내는 방법으로, 분류 모델의 결괏값은 언제나 학습했던 데이터의 레이블 중 하나가 된다.

예측(Prediction) 모델

  • 예측 모델로는 회귀(Regression) 모델이 대표적으로 사용되고 있다.
  • 예측 모델은 레이블이 달린 학습 데이터를 가지고 특징과 레이블 사이의 상관 관계를 함수식으로 표현하므로, 분류 모델처럼 특정 값이 지정되는 것이 아니라 주가 분석 등과 같이 연속적인 범위 내의 값에서 그 결괏값을 예측한다.
  • 각각 하나의 종속변수와 독립변수 사이의 관계를 분석할 경우를 단순 회귀 분석이라 구분하여 부른다. 단순 회귀 분석에서 하나의 방정식은 독립변수와 종속변수의 상관관계를 보여주는 분포구성을 통해 중심을 지나가는 하나의 선으로 표시할 수 있으며, 바로 이것을 이용하여 머신러닝에서는 특징량에 따른 구분선을 찾아낼 수 있다.
회귀 분석에서 독립변수란 결괏값에 영향을 주는 입력값을 가리키며, 종속변수는 우리가 알고 싶어 하는 결괏값을 가리킨다.

 

비지도 학습(Unsupervised Learning)

  • 문제와 함께 정답까지 알려주는 지도 학습과는 다르게 비지도 학습은 문제는 알려주되 정답은 알려주지 않는다. 그래서 여러 문제를 학습함으로써 해당 데이터의 패턴과 특성 및 구조를 스스로 파악하여, 이를 통해 새로운 데이터에서 일정한 규칙성을 찾는다.
  • 정답이 없는 문제를 푸는 것이라 학습이 맞게 됐는지 확인할 수 없지만, 거의 모든 데이터가 레이블이 없는 형태이므로 앞으로 많이 사용될 가능성이 높다.

군집화(Clustering) 모델

  • 군집화는 서로 동일하거나 유사한 특징을 가진 데이터끼리 그룹화 함으로써 레이블이 없는 학습 데이터를 그룹(Cluster)으로 분류한다. 그리고 새로운 데이터가 입력되면 지도 학습의 분류 모델처럼 학습한 군집을 가지고 해당 데이터가 어느 군집에 속하는지를 분석한다.
  • 분할 기법(Partitioning Methods)의 군집화: 각 그룹은 적어도 하나의 데이터를 가지고 있어야 하며 각 데이터는 정확히 하나의 그룹에 속해야 한다는 규칙을 가지고 데이터 집합을 작은 그룹으로 분할하는 방식이다. 이 기법에는 K-means, K-medoids, DBSCAN 등이 있다.
  • 계층적 기법(Hierarchical Methods)의 군집화: 데이터 집합을 계층적으로 분해하는 방식으로 그 방식에 따라 집괴적(Agglomerative)과 분할적(Divisive) 군집화로 나뉜다.
  • 군집의 타당성 평가: 군집의 지름과 분산도, 군집간의 거리 등을 고려하여 군집의 타당성이 평가되는데 비지도 학습 데이터는 레이블이 없어 그 정확도를 평가할 수는 없으므로 최적의 군집 모양과 개수를 파악하기 어렵다. 그래서 보통 군집 간 분산이 최대가 되고 군집 내 분산이 최소가 될 때, 최적의 군집 모양과 개수라고 판단한다.

http://www.tcpschool.com/deep2018/deep2018_machine_unsupervised

 

강화 학습(Reinforcement Learning)

  • 강화 학습은 정의된 주체가 주어진 현재 상태에서 선택할 수 있는 행동들 중에서 가장 최대의 보상을 가져다주는지 행동이 무엇인지를 학습하여, 보다 더 많은 보상을 얻을 수 있는 방향으로 행동을 학습하는 것을 말한다.
  • 강화 학습은 사람이 지식을 습득하는 방식 중 하나인 시행착오를 겪으며 학습하는 것과 매우 흡사하여 인공지능을 가장 잘 대표하는 모델로 알려져 있다.
  • 강화 학습에서의 ‘관찰–행동–보상’에 이르는 일련의 과정을 경험(Experience)이라고 부를 수 있다.
  • 강화 학습은 주체가 환경으로부터 보상을 받음으로써 학습하기 때문에 지도 학습과 유사해 보이지만, 사람으로부터 학습을 받는 것이 아니라 변화되는 환경으로부터 보상을 받아 학습한다는 점에서 차이를 보인다.

http://www.tcpschool.com/deep2018/deep2018_machine_reinforcement

  • 보상을 최대화하기 위해 이용과 탐험 사이의 적절한 균형을 맞추는 것이 강화 학습의 핵심인데, 이용과 탐험 사이의 적절한 균형을 맞추는데 마르코프 결정 프로세스(Markov Decision Process, MDP)가 사용된다.
  • MDP에서 행위의 주체는 어떤 상태를 만나면 행동을 취하는데, 각 상태에 맞게 취할 수 있는 행동을 연결해 주는 함수를 정책(Policy)이라 한다. 따라서 MDP는 행동을 중심으로 가치 평가가 이루어지며 MDP의 가장 큰 목적은 행동에 따른 가치의 합이 가장 큰 의사결정 정책을 찾아내는 것이다.

 

Reference

반응형