머신 러닝 워크 플로우
1. 수집(Acquisition) 머신 러닝을 하기 위해서는 기계어 학습 시켜야 할 데이터가 필요하다. 자연어 데이터를 코퍼스(corpus)라고 하는데, 코퍼스란 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말한다.(txt파일, csv파일, xm파일) 2. 점검 및 탐색(Inspection and exploration) 데이터가 수집되었다면, 여기서는 점검하고 탐색하는 단계 거친다. 데이터의 구조, 노이드 데이터, 머신 러닝 적용을 위해서 데이터를 어떻게 정제해야 하는지 등을 파악한다. 이 단계에서는 탐색적 데이터 분석 단계(Exploratory Data Analysis, EDA)단계라고도 하는데 이는 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하며 데이터의..
2023. 12. 22.