전체 글 50

확률 변수와 확률 분포

딥러닝을 공부하면, 통계는 필수라고 할 수 있다. 당연히 실제로 통계학과에서 배우는 통계보다는 그 양이 적기는 하지만, 그럼에도 통계는 헷갈린다.  확률 분포의 정의: 확률 변수가 특정한 값을 가질 확률을 나타내는 "함수" 일단 확률 분포는 "함수"를 의미한다. 딥러닝에서 "확률 분포"를 나타낸다 라고 하는 말만 들으면, 전체적으로 n개 데이터중, 각 데이터가 나올 확률의 나열 이라고 착각을 했었다. 하지만 그냥 단순 나열과는 다르게, 함수라고 보면, 어떠한 식으로 정의가 된다는 것을 의미한다. p(X) 확률 변수의 정의: 어떠한 사건이 발생한다는 것을 특정 숫자로 바꾸는 것을 의미한다(이것도 변환 과정이 있는 "함수"이다).  어떻게 보면, 숫자의 크기에 의미를 두는게 아니라, 그냥 수 자체가 무엇을 ..

벡터의 특징

선형대수학이나 딥러닝을 공부할 때, 벡터는 필수 불가결한 개념이다.  그만큼 어떤 서적, 어떤 강의를 들어도 벡터를 복습하는 단계가 항상있는데, 벡터를 활용한 공식이나, 계산 방정식 같은것을 많이 접하게 되지만, 정작 벡터의 특징을 놓치는 경우가 많았다.  1. 벡터는 그 자체로도 의미가 있다그림을 잘 못 그리긴 했지만, 벡터를 사용해서 무엇가 구체적인 숫자를 만들어야 한다는 생각에 자주 빠졌다. 하지만, 벡터는 그 자체로도 의미가 있는 녀석이다. 컴퓨터가 어떠한 의미를 표현하는 숫자가 될 수도 있고(워드 임베딩이 대표적인 예이다), 벡터 내의 숫자들의 합이 1일 경우, 이를 확률 분포를 나타낸 것이라고 바라보는 경우도 적지 않다. 2. 벡터와 벡터는 곧바로 곱셈과 나눗셈이 성립하지 않는다.벡터의 값을 ..

그레디언트(gradient)는 항상 컨투어(contour)에 수직하다(기울기는 항상 등고선과 수직하다)

나는 한국에서 중고등학교를 나오지 않아서, 등고선이 뭔지 몰랐다. 옵티마이져가 최적의 미니멈을 찾아가는 과정을 그린 그림들도 제대로 알아본 적이 없었다는 것이다.  보통 기울기가 안정적이게 수렴하는 그림을 본다면 위에 2가지 그림을 자주 보게 된다. 내 입장에서 이건 매번 너무나도 불만족스러운 해설이었다, 모델이 실제로는 저렇게 간단한 구조도 아니고, 저렇게 간단한 이론처럼 최적화 되지도 않기 때문에, 더 복잡하더라도 더 자세히 설명하는 글을 찾아보고 싶었지만, 대부분이 저 두 그림을 떠 먹인다(애초에 3차원 이상은 보여주지도 못해서 의미없는 행위라고도 생각한다).   실제로 왼쪽의 그림은 이렇게 생겼다고 볼 수 있다. 여기에 내가 직접 그린 "검은색 선"이 등고선(contour)이라고 할 수 있다. 처..