Publié le

r dplyr 예제

먼저 dplyr 패키지, 플롯릭스(끝에 있는 플롯용) 및 FSAdata 패키지(데이터 파일용)를 로드해야 합니다. select(), 필터(), 변이(), group_by(), 요약()과 같은 가장 일반적인 dplyr 함수중 일부를 배우겠습니다. 데이터 프레임의 열을 선택하려면 select()를 사용합니다. 이 함수의 첫 번째 인수는 데이터 프레임(메타데이터)이며 후속 인수는 유지할 열입니다. dplyr는 데이터 조작을 더 쉽게 하기 위한 패키지입니다. dplyr 패키지에는 선택을 위한 다양한 도우미가 포함되어 있습니다. 한 예로, 다음은 문자 “l”을 포함하는 모든 변수를 선택합니다. 그러나 선택하고 필터링하려면 어떻게해야합니까? 이 작업을 수행하는 방법에는 중간 단계, 중첩 함수 또는 파이프를 사용하는 세 가지가 있습니다. 중간 단계를 사용하면 기본적으로 임시 데이터 프레임을 만들고 다음 함수에 대한 입력으로 사용합니다. 이렇게 하면 많은 개체로 작업 영역이 복잡해지더일 수 있습니다. 함수(예: 한 함수가 다른 함수 내부에)를 중첩할 수도 있습니다. 이 기능은 편리하지만 너무 많은 함수가 내부에서 프로세스로 중첩되면 읽기 어려울 수 있습니다. 마지막 옵션인 파이프는 R.

파이프에 상당히 최근에 추가되어 한 함수의 출력을 가져 와서 다음 함수로 직접 보낼 수 있으므로 동일한 데이터 집합에 많은 것이 필요할 때 유용합니다. R의 파이프는 %>%처럼 보이며 dplyr의 일부로 설치된 마그리버 패키지를 통해 사용할 수 있습니다. dplyr의 많은 데이터 조작 작업은 전방 파이프 연산자(%>%)의 도움으로 수행할 수 있습니다. 파이프는 마그리버 패키지에 처음 도입되었으며 이후 dplyr 패키지에 포함되었습니다. 유동적인 데이터 조작에 매우 유용한 도구이며 읽기 가독성이 높은 코드입니다. 변이() 함수를 사용하여 data.frame에 새 변수를 추가할 수 있습니다. 원래 data.frame을 첫 번째 인수로 사용 하 고 인수 나머지 인수로 새 변수를 만들어야 합니다. 아래 예제는 길이 및 가중치 변수만 포함하는 위에 작성된 data.frame에 길이 및 가중치의 자연 로그를 추가합니다. dplyr 패키지는 결과의 간단한 집계를 허용하는 함수도 제공합니다. group_by() 함수는 먼저 데이터를 그룹화하는 방법을 설정합니다.

아래 코드에서 byMon data.frame은 월 변수별로 그룹을 만듭니다. 그런 다음 summarize() 함수는 첫 번째 인수 다음 함수에 의해 data.frame을 요약합니다. 또한 패키지는 개인 수를 계산하는 n()을 제공합니다. 따라서 아래 예제에서는 매월 원래 data.frame의 러프 수를 계산합니다. 몇 가지 유용한 도우미 함수는 dplyr에서 사용할 수 있으며 select() 동사와 함께 사용할 수 있습니다. 다음은 몇 가지 간단한 예입니다. dplyr 패키지에는 많은 유용한 기능이 포함되어 있습니다. 이 게시물은 모든 것을 다루려고 시도하지 는 않지만 데이터 조작 작업에 일반적으로 사용되는 주요 기능을 살펴봅니다. 이들은 : 그것은 내 끝에서 잘 작동합니다. 아래 코드를 확인 -library (dplyr)mydata = read.csv (“C:\사용자Deepanshusampledata.csv”)요약_all (mydata[“인덱스”]), 재미 (nlevels (nlevels(.), 합계 (is.na()))) ) 여러 컨디셔닝 문을 필터링할 추가 인수로 함께 묶을 수 있습니다(). 아래 의 예는 또한 익은 남성을 찾습니다.

이는 dplyr의 우수한 기능 중 일부에 대한 간략한 데모를 마무리합니다. 함수 및 해당 인수에 대한 자세한 내용은 템플릿을 사용하여 도움말 설명서를 확인하십시오. dplyr의 주요 “동사”가 소개되었습니다. 열별로 데이터 프레임을 필터링하는 select() 동사로 시작해 보겠습니다. 패키지 dplyr는 가장 일반적인 데이터 조작 작업에 대한 쉬운 도구를 제공하려고 시도하는 상당히 새로운 (2014) 패키지입니다. 데이터 프레임에서 직접 작동하도록 제작되었습니다. 그 뒤에 생각은 크게 몇 시간 동안 사용되어 왔다 패키지 plyr에 의해 영감을하지만, 어떤 경우에는 느린에서 고통.dplyr는 C ++에 계산의 대부분을 포팅하여이 해결.