ecsimsw

머신러닝/ 지도, 비지도, 강화 / 혼동 행렬 / 과적합, 과소적합 본문

머신러닝/ 지도, 비지도, 강화 / 혼동 행렬 / 과적합, 과소적합

JinHwan Kim 2020. 2. 28. 09:54

개요

 

   - 텐서플로우, 사이킷 런, 케라스 등, 라이브러리로 혼자 예제를 만들어보고 학습해보았다. 그렇지만 사실, 어떤 라이브러리에 무슨 기능이 있고, 그것을 사용하면 어떤 마법이 벌어진다. 정도로 경험한거지, 어떤 모델이 어떤 학습 유형에 효과적인지, 어떤 원리인지 전혀 모르는 상태이다. 

 

   - 지금까지 학습을 어플리케이션단에서 어떻게 사용되는지 활용해보면서 공부했다면, 이번에는 학습 요소, 알고리즘 원리, 보다 효율적인 학습을 위한 방법을 공부해볼 생각이다.

 

지도 학습 (Supervised) / 비지도 학습 (Un-supervised) / 강화 학습 (Reinforcement)

 

   - 지도 학습 : 지도 학습은 학습 데이터와 그 데이터에 대한 레이블이 지정된 상황에서 학습하는 것이다. 예를 들어 강아지, 고양이 사진을 데이터로 준비하고 그 사진에 대한 답, 고양이 사진에는 고양이, 강아지 사진에는 강아지라는 레이블을 지정한 상태로 학습하여, 새로운 데이터는 어떤 레이블에 더 가까운 특성을 갖는지 학습하는 것이다.

 

      = 분류 (classification) : 레이블이 정해진 데이터를 학습하여 새로운 데이터가 어떤 클래스에 속하는가 나눈다.

 

      = 회귀 (regression) : 연속적인 데이터를 받아, 경향을 파악하고, 새로운 데이터가 들어올 시, 그 경향에 따라 어떤 값을 갖을지 예측한다. 

 

   - 비지도 학습 : 비지도 학습은 지도 학습과 달리, 학습 데이터에 대한 답이 존재하지 않은 상태에서 학습한다. 서로 다른 학습 데이터에서 특성이 비슷한 단위로 집합을 정해 군집화 한다. 

 

      = 클러스터링 (clustering) : 개체들을 맴버간 거리 분포에 따라 부분 집합으로 나누는 과정이다.

 

   - 강화 학습 : 상황에 따른 보상을 주어 더 나은 방향에 가까워지도록 하는 학습 방식이다. 옳은 방향으로는 플러스 점수, 틀린 방향으로는 마이너스 점수를 주되 그 가중치를 바꿔가면서 학습 결과의 점수가 최대가 될 수 있도록 한다. 

 

혼동 행렬 (Confusion Matrix)

 

   - 정밀도 (Precision) : 모델이 예측을 성공한 비율이다. True라고 예측한 것 중에 실제 True의 비율을 말한다.

 

   - 재현율 (Recall) : 실제 True 중에, 모델이 True라고 맞춘 비율을 말한다. 

 

과적합 (Overfitting) / 과소적합 (Underfitting)

 

   - 머신러닝에서 학습 과정을 적합(fitting)이라고 한다. 과적합과 과소적합은 말그대로 너무 많이 학습되고 너무 적게 학습된 것을 말한다. 예를 들어 과일을 학습하는 과정에서, 과일 데이터의 99%가 사과로 채워질 정도로 데이터의 불균형이 일어난다면, 입력된 바나나를 과일로 판단하지 않게 될 것이다. 과소 적합은 반대로 훈련 자체가 부족하여 판단의 정확성이 낮은 상황이다. 

Comments