본문 바로가기
Artificial Intelligence/Machine Learning

머신 러닝 워크 플로우

by YUNZEE 2023. 12. 22.
728x90

https://wikidocs.net/217160

1. 수집(Acquisition)

머신 러닝을 하기 위해서는 기계어 학습 시켜야 할 데이터가 필요하다. 자연어 데이터를 코퍼스(corpus)라고 하는데, 코퍼스란 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말한다.(txt파일, csv파일, xm파일)

 

2. 점검 및 탐색(Inspection and exploration)

데이터가 수집되었다면, 여기서는 점검하고 탐색하는 단계 거친다. 데이터의 구조, 노이드 데이터, 머신 러닝 적용을 위해서 데이터를 어떻게 정제해야 하는지 등을 파악한다.

 

이 단계에서는 탐색적 데이터 분석 단계(Exploratory Data Analysis, EDA)단계라고도 하는데 이는 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하며 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정을 의미한다.

 

3. 전처리 및 정제(Preprocessing and Cleaning)

데이터 파악이 끝났다면, 머신 러닝 워크플로우에서 가장 까다로운 작업중 하나인 데이터 전처리 과정에 들어간다. 

 

4. 모델링 및 훈련(Modeling and Tranining)

데이터 전처리가 끝났다면, 머신 러닝에 대한 코드를 작성하는 단계인 모델링 단계에 들어간다. 전처기가 완료된 데이터를 머신 러닝 알고리즘을 통해 기계에서 학습시킨다. 이를 훈련이라고 하는데, (이 두 용어를 혼용해서 사용함)

 

기계가 데이터에 대한 학습을 마치고나서 훈련이 제대로 되었다면 그 후에 기계는 우리가 원하는 태스크인 기계 번역, 음성 인식, 텍스트 분류 등의 자연어 처리 작업을 수행할 수 있게 된다.

 

여기서 주의할 점은 모든 데이터를 기계에게 학습시켜서는 안 되고 일부는 테스트용으로 남겨두고 훈련용 데이터만 훈련에 사용해야 한다. 그래야만 데스트용 데이터를 통해서 현재 성능이 얼마나 되는지를 측정할 수 있으며 과적합 상황을 막을 수 있다.

검증용과 테스트용의 차이는?

수능 시험에 비유하자면 훈련용은 학습지, 검증용은 모의고사, 테스트용은 수능 시험이라고 불 수 있다. 학습지를 풀고 수능 시험을 볼 수도 있겠지만, 모의고사를 풀며 부족한 부분이 무엇인지 검증하고 보완하는 단계를 하나 더 놓는 방법도 있다.

검증용 데이터는 현재 모델의 성능. 즉, 기계가 훈련용 데이터를 얼마나 제대로 학습이 되었는지를 판단하는 용으로 사용되며 검증용 데이터를 사용하여 모델의 성능을 개선하는데 시용된다. 테스트용 데이터는 모델의 최종 성능을 평가하는 데이터로 모델의 성능을 개선하는 일에 사용되는 것이 아니라, 모델의 성능을 수치화하여 평가하기 위해 사용된다. 쉽게 말해 시험에 비유하면 채점하는 단계이다.

 

실습상황: 훈련용, 검증용, 테스트용 or 훈련용, 테스트용

현업: 훈련용, 검증용, 테스트용 + 검증용 데이터

 

5.평가(Evaluation)

기계가 학습이 다 되었다면 테스트용 데이터로 성능을 평가하게 된다. 평가 방법은 기계가 예측한 데이터가 테스트용 데이터의 실제 정답과 얼마나 가까운지를 측정한다.

 

6. 측정(Deployment)

평가 단계에서 기계가 성공적으로 훈련된 것으로 판단된다면 완성된 모델이 배포되는 단계가 된다. 다만, 여기서 완성된 모델에 대한 전체적인 피드백으로 인해 모델을 업데이트해야 하는 상황이 온다면 수집 단계로 돌아갈 수 있다.

 

다음장에서는 데이터의 분리 작업에 대해서 학습하도록 하겠습니다.

728x90