분류와 회귀의 차이

2019

분류 및 회귀는 일반적으로 데이터 마이닝에서 처리되는 두 가지 주요 예측 문제입니다. 예측 모델링은 과거 데이터를 사용하여 모델 또는 기능을 개발하여 새 데이터를 예측하는 기술입니다. 분류와 회귀 간의 중요한 차이점은 분류가 입력 데이터 객체를 일부 개별 레이블에 매핑한다는 것입니다. 반면, 회귀는 입력 데이터 객체를 연속적인 실수 값에 매핑합니다.

비교 차트

비교 근거	분류	회귀 분석
기본	객체의 매핑이 미리 정의 된 클래스 내에서 이루어지는 모델 또는 함수의 발견.	객체의 매핑이 값으로 이루어지는 고안된 모델입니다.
의 예측을 포함	이산 값	연속 값
알고리즘	의사 결정 트리, 로지스틱 회귀 등	회귀 트리 (랜덤 포레스트), 선형 회귀 등
예측 된 데이터의 본질	정렬되지 않은	주문 됨
계산 방법	측정 정확도	제곱 평균 제곱 오차의 측정

분류의 정의

분류 는 데이터를 여러 카테고리의 클래스로 분리하는 데 도움이되는 모델 (함수)을 찾거나 발견하는 프로세스입니다. 분류에서 문제의 그룹 구성원이 식별됩니다. 즉, 데이터가 일부 매개 변수에 따라 다른 레이블로 분류 된 다음 데이터에 대해 레이블이 예측됩니다.

파생 된 모델은 "IF-THEN"규칙, 의사 결정 트리 또는 신경 네트워크 등의 형태로 시연 될 수 있습니다. 의사 결정 트리는 근본적으로 트리 구조와 유사한 흐름도로, 각 내부 노드는 특성, 그 가지들은 시험 결과를 보여줍니다. 분류 프로세스는 데이터를 두 개 이상의 개별 레이블, 즉 두 개 이상의 분리 된 집합으로 나눌 수있는 문제를 처리합니다.

예를 들어, 일부 매개 변수를 기반으로 일부 지역에서 비가 올 가능성을 예측한다고 가정 해 봅시다. 그러면 비가오고 비가 내리지 않는 두 개의 라벨이있어 서로 다른 지역을 분류 할 수 있습니다.

회귀의 정의

회귀 는 클래스를 사용하는 대신 데이터를 연속적인 실수 값으로 구별하는 모델 또는 함수를 찾는 프로세스입니다. 수학적으로, 회귀 문제로, 최소 오차 편차를 가진 함수 근사를 찾으려고합니다. 회귀 분석에서 데이터의 수치 적 의존성은 그것을 구별 할 것으로 예측됩니다.

회귀 분석은 레이블 대신 숫자 데이터를 예측하는 데 사용되는 통계 모델입니다. 또한 사용 가능한 데이터 또는 기록 데이터에 따라 배포 이동을 식별 할 수 있습니다.

회귀 분석에서 유사한 예 를 취해 봅시다. 일부 매개 변수를 사용하여 특정 지역에서 비가 올 가능성을 찾아냅니다. 이 경우 비와 관련된 확률이 있습니다. 여기서 우리는 비와 비가 내린 지역을 분류하지 않고 관련 확률로 분류하고 있습니다.

분류와 회귀의 주요 차이점

분류 프로세스는 이산 클래스 레이블에서 데이터가 예측되는 함수를 모델링합니다. 반면, 회귀는 연속적인 양을 예측하는 모델을 만드는 과정입니다.
분류 알고리즘에는 의사 결정 트리, 로지스틱 회귀 등이 포함됩니다. 대조적으로 회귀 트리 (예 : 랜덤 포리스트) 및 선형 회귀가 회귀 알고리즘의 예입니다.
분류는 정렬되지 않은 데이터를 예측하고 회귀는 정렬 된 데이터를 예측합니다.
회귀는 평균 제곱 오차를 이용하여 평가할 수 있습니다. 반대로 분류는 측정 정확도로 평가됩니다.