Publié le

랜덤포레스트 예제

따라서 각 단계에서 임의 예측 변수의 하위 집합을 고려하여 더 많은 의사 결정 트리를 만들어야 합니다. 이렇게 하려면 1단계로 돌아가서 새 부트스트랩된 데이터 집합을 만든 다음 각 단계에서 변수의 하위 집합만 고려하여 의사 결정 트리를 작성합니다. 따라서 위의 단계를 수행하면 임의 포리스트가 다음과 같이 보일 것입니다: 더 복잡한 계산에 대한 수요로 는 단순한 알고리즘에 의존할 수 없습니다. 대신, 우리는 더 높은 계산 기능을 가진 알고리즘을 활용해야하며, 이러한 알고리즘 중 하나는 랜덤 포리스트입니다. R에서 랜덤 포리스트에 대한 이 블로그 게시물에서는 R 언어를 사용하여 구현과 함께 랜덤 포리스트의 기본 을 배웁니다. 따라서 임의의 포리스트 추정치는 모든 xθ [ 0 , 1 ] d {디스플레이 스타일 {x} 에서 [0,0,1]^{d}, M M , n ( x , Θ 1 , … , Θ j) {디스플레이 스타일 m_{M,n}(mathbf {x} , Theta _{1}, ldots, Theta _{M})={frac {1}{M}}{j=1}{M=1}{M=1}{M=1}{M=1}{frac {Y_{i}수학BF {1} _{mathbf {X} _{i}에서 A_{n}(mathbf {x} . 임의 회귀 포리스트는 두 가지 수준의 평균을 가지며, 먼저 트리의 대상 셀의 샘플 위에, 그 다음에 모든 트리에 걸쳐 있습니다. 따라서 데이터 포인트의 밀도가 높은 셀에 있는 관측값의 기여도는 덜 채워진 셀에 속하는 관측값보다 작습니다. 임의포지토리 방법을 개선하고 잘못된 추정을 보완하기 위해 Scornet[27] 직관적인 예제를 사용하여 임의 포리스트를 이해하여 KeRF를 정의했습니다. 아래 코드는 repl.it 생성되며 파이썬의 임의포지내비시 포리스트에 대한 완전한 대화형 실행 예제를 제공합니다.

자유롭게 코드를 실행하고 변경할 수 있습니다(패키지 로드에 몇 분 정도 걸릴 수 있음). 결론짓기 위해 의사 결정 트리는 모든 예측 변수를 사용하여 전체 데이터 집합에 빌드되는 반면 임의 포리스트는 여러 의사 결정 트리를 만드는 데 사용되며 각 의사 결정 트리는 데이터 집합의 일부에만 빌드됩니다. RStudio를 사용 하 여 R에서 아래 코드 조각을 실행 하 고 그래서 가서 RStudio를 엽니다. 이 데모의 경우, 당신은 캐리트 패키지와 랜덤 포레스트 패키지를 설치해야합니다. 위의 예에서는 1,000개의 데이터 요소가 있으며 그 중 500개는 높은 CTR입니다. 우리의 분류기는 제대로 400 높은 CtR을 잡는다. 분류기는 추가 50포인트가 높은 CCR을 나타내며, 실제로 CCR이 낮음을 나타냅니다. 이것은 우리가 50 거짓 경보가 의미. 이러한 결과 400/450 = 분류기가 정확하다고 말하는 항목88.88%의 정밀도가 생성됩니다(조회수 + 거짓 경보). bagging 모델의 다양한 구현이 있습니다. 임의의 포리스트는 그 중 하나이며 다음에 논의 할 것입니다. 임의 포리스트를 사용하여 회귀 또는 분류 문제에서 변수의 중요성을 자연스럽게 순위를 지정할 수 있습니다.

다음 기술은 Breiman의 원본 논문[7]에 설명되었으며 R 패키지 랜덤포레스트에서 구현됩니다. [8] 문제 진술: 타이타닉에 있던 개인의 특성을 연구하고 살아남을 가능성을 예측할 수 있는 무작위 숲 모델을 구축합니다. 임의 포리스트 모델을 이해하려면 먼저 임의 포리스트의 기본 구성 블록인 의사 결정 트리에 대해 알아보아야 합니다.