본문 바로가기

통계: 이 또한 기본이라

(5)

R 데이터프레임: 관련 함수 정리 데이터프레임 생성data.frame(x1, x2, x3, ...) 예: DF_grade = data.frame(x1=c("A", "B", "C"), x2=c(1,2,3)) DF_grade = data.frame(c("A", "B", "C"), c(1,2,3)) 열 이름을 지정하지 않는 방식도 가능하지만, 권장하지 않음. 외부 데이터 읽어오기read.csv(file = "파일명 또는 파일경로") 데이터프레임 다루기str(DF_name) 데이터프레임과 관련된 기능View(DF): Script창에 데이터프레임을 출력dim(DF): 몇 행 몇 열로 구성되는지 차원을 출력length(DF): 길이 출력head(DF): 상위 6개 값 출력tail(DF): 하위 6개 값 출력summary(DF):..

데이터 구조(Data Structure): 벡터(Vector), 리스트(List) 벡터(Vector): R에서 이용하는 객체의 기본 단위 구성요소 - 한 가지 유형의 데이터 벡터에서 Matrix, Array 생성 가능함 하나 이상의 데이터를 갖는 벡터를 만들 때는 c() 함수를 사용함 c() 함수의 인자에 n:m 표현식을 활용하면 간단하게 수열을 생성할 수 있음. 예: 1~20 → c(1:20) seq(from, to, by): from부터 to까지 by씩 증가하는 수열을 생성하는 함수 rep(x, ..

EDA(탐색적 데이터 분석): 측정 지표와 추정값 통계학자들은 보통 데이터로부터 얻은 값과실제 상태를 나타내는 이론적인 참값을 구분하기 위해,데이터로부터 계산된 값들에 보통 추정값(estimate)이라는 용어를 사용한다. 반면,데이터 과학자나 비즈니스 분석가들은 이렇 값들을 측정 지표(metric)라고 부른다. 이러한 차이는 곧 통계학과 데이터 과학의 접근법의 차이를 반영한다. 통계학이라는 분야는 궁극적으로 불확실성을 이해하고자 하는 반면,데이터 과학은 구체적인 비지니스나 조직의 목표치에 관심을 둔다. 그러므로 통계학자들은 추정한다고 하고,데이터 과학자들을 측정한다고 한다. 통계학에서의 추정은 어떤 참값을 어림잡아 추측한다는 의미가 강한 반면,데이터과학에서의 측정 지표는 어떠한 기준값(혹은 목푯값)과의 거리(혹은 오차)를 표현하는 계측량이라고 할 수 있..

통계학의 기본(표본을 얻는 과정의 추상화 - 확률) 확률 - 어떤 데이터를 얻을 수 있는 확률은 P로 표기한다. probability - P라고 표기 확률분포: 확률변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것. 분포라고 하기도 함. 앞서 썼던 예시를 이어서 써보면, 어떤 호수에 5마리의 물고기가 있다고 가정해본다. 물고기의 각 길이는 반올림을 해서 2센티, 3센티, 4센티, 5센티, 6센티이다. 그러므로 호수에 물고기를 잡을 수 있는 물고기의 몸길이에 대한 확률분포는 아래와 같다. P(1.5≤몸길이

통계학의 기본(통계학이란, 표본과 모집단) 통계학을 공부하는 과정에서의 내용을 정리해본다. 어떠한 공부던 시작할 때 묻는 ~란? 1. 통계학이란? 통계학이란? 데이터를 잘 사용하는 방법을 알아내는 학문 여기서, 데이터라고 함은 두 가지로 나눌 수 있다. 바로 지금 가지고 있는 데이터와 가지고 있지 않은 데이터. 가지고 있는 데이터는 정리 요약하기 위해 기술 통계 또는 기술통계학을 사용하고 가지고 있지 않은 미지의 데이터를 추측할 목적으로 사용되는 통계학은 추측통계 또는 추측통계학이라고 한다. 정리를 하자면, 데이터 가지고 있는 데이터 기술 통계 또는 기술 통계학 가지고 있지 않은 데이터 추측 통계 또는 추측 통계학 2. 표본과 모집단 표본: 현재 가지고 있는 데이터 모집단: 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터 즉, 표본을 ..

이전 1 다음

티스토리툴바