오블완 21

(간단한 코드)리트코드 2239. Find Closest Number to Zero

이 문제는 0에 제일 가까운 숫자를 고르는 것이고, 만약에 0과 동일한 차이가 있는 숫자가 2개이면, 더 큰 쪽을 고르는 문제다.  문제 자체는 쉬워보이지만, 이것을 처음 접했을 때는 어떻게 접근해야 하는 막막함이 있었다.  class Solution: def findClosestNumber(self, nums: List[int]) -> int: min=float('inf') for num in nums: a = abs(min) if abs(num) min: min=num return min 이건 내가 짠 코드가 아니다, 나도 그냥 타인의 코드를 참조 했을 뿐이다.  우선 처음에 왜min=..

(연속분포-2)지수분포

어느덧 마지막 분포로 왔다(정규분포는 따로 정리할 생각이 없기 때문이다). 오블완 챌린지 덕분에 이렇게 짧은 시간에 이렇게 공부를 하고 정리를 하는 경험을 하게 되었다.  (1)소개 지수분포는 푸아송 분포에서 유도된 것이다.  푸아송 분포는 "어떤 사건이 단위 시간동안 평균 λ(람다)번 발생할 때, 그 사건이 발생하는 횟수 x를 변수로 하는 분포이다.  그렇다면 지수 분포는 다음과 같다.  단위 시간당 평균 발생횟수가 λ일 때(푸아송 분포를 알고 있을 때), 사건이 처음 발생할 때까지 걸리는 시간이 T 이하일 확률(여기서 T와 t는 모두 시간을 의미한다).  유도는 좀 길고 지저분하다 https://youtu.be/OywjNb4jmtc?feature=shared 그리고 유도 말고도 예시를 푸는 영상들도 ..

(연속분포-1)균등분포

균등분포는 이산분포에도 존재하니, 연속 균등분포라고 부르는 것이 더 정확하다(feat. 통계의 본질) 연속분포의 특징은 해당 함수식이 확률을 의미하는 것이 아닌, 확률밀도를 나타내는 것이다. 따라서 연속 분포에서는 함수식이 확률밀도함수를 나타낸다.  이 부분이 정말로 많이 헷갈렸다, 갑자기 뜬금없이 확률밀도라니, 그냥 특징만 설명을 하고, 어떻게 나왔는지, 그리고 이것이 딥러닝과 어떻게 연관이 있는것인지, 많이 헷갈렸지만, 이는 KDE(커널 밀도 함수)와 같은 응용에서 사용된다. 따라서 확률밀도함수 하나만 파는 것은 크게 의미가 없었다.   확률밀도 함수는 면적이 곧 확률이라는 말을 많이 들었을 것이다. 애초에 왜 면적을 통해서 구해야 하는가...?라는 의문도 많이 들었고, 면적이 확률이면, 적분을 하는..

(이산확률-7)다항분포

다항분포는 이항분포에서 약간의 변형만 준 상황을 의미한다.  우선 이항분포에 대해 복습을 하자면, 이항분포는 "사건의 결과가 2가지로 나뉘는 경우"(발생과 미발생)를 의미한다. 즉, 결과가 2가지로 나뉘기에 "이항"분포인데, "다항"분포는 결과가 여러가지로 나뉘는 것일 뿐이다. 다항분포는 사건의 결과가 3가지 이상을 의미한다. 다항분포의 특징은 모든 변수를 신경 써야 한다는 것이다.각 사건이 발생할 확률들을 다 더하면 1이 나오고, 각 사건이 발생할 확률 변수를 x로 둔다면, x의 합은 총 시행 횟수 n을 의미한다. 유도 과정은 다음과 같다.여기서 x_1은 사건 1이 발생한 횟수를 의미한다는 것을 헷갈리면 안된다, 이런 부분이 잘 헷갈리기 때문에 확률변수가 무엇을 의미하는지 잘 알아야 한다, 기초가 중요..

(이산분포-5) 푸아송 분포

시메옹 푸아송이 발견한 푸아송 분포는 이항분포를 특수한 상황으로 만들면 생기는 분포이다.  시행 횟수 n이 무한으로 많아지고, 발생할 확률 p는 무한히 작아지는 것을 뜻한다.  예시를 들자면, "하루(24시간) 거리에서 마주치는 길냥이의 수"라고 한다면 마주칠 확률 p는 한 없이 작을 것이고시행횟수 n은 24시간의 모든 순간을 의미하니(정각마다 한마리씩 나오는 것도 아니고), 거의 무한대에 가깝다고 할 수 있다. 다른 말로 하면, 푸아송 분포에서는 시행횟수 n과 발생 확률 p를 정의할 수 없다는 특징이 있다. 반대로 n*p는 정의할 수 있다는 특징이 있다. 참고로 n*p는 이항분포의 기대값이다. 이게 무슨 소리냐고 하면, 확률을 직관적으로 바라볼 수 없을 때는 결과를 통해서 바라보자는 것이라고 나는 생각..

(이산분포-4)음이항 분포

음이항 분포는 5가지 정의가 있다. 우선 전체 시행 횟수 n, 성공 횟수 k, 실패 횟수 r ---> n = k + r 이라는 관계를 만족시키는 변수가 있다. 여기서 무엇을 변수로 놓고, 무엇을 상수로 놓느냐에 따라 정의가 나뉜다. (1) r이 정해지고(r이 상수), k가 변수인 경우 (2) r이 정해지고(r이 상수), n이 변수인 경우 (3) k가 정해지고(k이 상수), r이 변수인 경우 (4) k가 정해지고(k이 상수), n이 변수인 경우 (5) n이 정해지고(n이 상수), k 혹은 r이 변수인 경우 (이 녀석은 n = k+r 에 의해 하나만 구하면 자동적으로 나머지가 구해진다) 여기서 1번을 기준으로 예시를 설명하면 농구 선수의 자유투 성공률이 30%라고 하자.Q) 3번의 실패가 나오기까지 발생할 ..

(이산분포-3)기하분포

기하 분포의 정의는 "n번의(n은 우리가 정하는 것이다) 베르누이 시행에서 처음 성공이 나올 때까지 시행한 횟수"이다. 기하 분포에는 2가지 정의가 있다. (무엇을 확률 변수로 둘 것인지에 따라 나뉜다)1. 처음 성공이 나올 때까지 시행한 횟수를 확률 변수로 하는 분포(이 글은 이것을 기준으로 할 것이다)2. 처음 성공이 나올 때까지 "실패"한 횟수를 확률 변수로 하는 분포 예시는 다음과 같다: 한 남여가 연애에서 결혼까지 갈 확률이 5%라고 하면, x번째 사귄 이성과 결혼하게 될 확률분포 p(x)는? p(1)은 첫번째 이성과 결혼할 확률이고 p(2)는 2번째 이성과 결혼할 확률을 나타내므로, 위와 같은 식을 얻을 수 있다. 그리고 기하분포는 다음과 같이 표시한다. 그리고 해당 평균과 분산의 유도식은 직..

(이산분포-2)이항 분포

1)이항분포는 "베르누이 시행을 여러번 한 것"이라고 한다, 그리고 각 시행은 독립적이다 -> 앞에 어떤 결과가 나왔든 다음 시행에 아무런 영향을 끼치지 않는다는 것이다. 이항분포는 다음 그림처럼 n번을 시행하고(각 시행의 성공 확률을 p라고 한다), 그중에서 몇번을 성공했는지(혹은 실패했는지)를 확률 변수로 둔다. 유튜브 "통계의 본질" 채널에서는 농구선수의 예시를 들었다.예) 한 농구 선수의 자유튜 성공 확률은 80%라고 하자, 그렇다면 성공확률을 0.8, 실패를 0.2라는 것을 알 수 있다.10번의 기회에서 자유투 성공 횟수를 X라고 두고, X라는 횟수만큼 성공할 확률을 P(X)라고 본다(통계를 처음 접하는 사람들은 여기서 부터 잘 놓친다) -> 우리는 농구선수에게 10번의 시도를 해보라고 제안하는..

(이산분포-1)베르누이 분포

지겹게도 듣게 되는 분포 중에 하나이다. 정의도 간단하다, "일어나냐" "안 일어나냐" 2가지 상황만 있으며, 발생할 확률을 의미한다. 예도 흔한 이야기들이다(동전 던지기, 주사위에서 짝수냐 홀수냐 등)왜 매번 이녀석이 항상 나오는 것일까? 이유는 간단하다, 이산분포는 거의 모두 베르누이를 통해 형성된 새로운 가능성이기 때문이다. 그래서 베르누이 분포가 아닌 베르누이 시행이라고 더 많이 말한다. 딥러닝에서는 이론적이 부문에서 베르누이를 자주 볼 수 있지만, 점점 잘 안보인다, 근데 없는게 아니라 항상 존재하기 때문에 그만큼 중요하다 이렇게 설명하면, 보통 초창기에 "제대로 하고 넘어가야지!"라고 하지만, 의미가 없었다, 결국은 다른 분포를 공부하면서 자연스럽게 외워졌다,하지만 다른 분포가 뭔가 잘 이해가..