no image
SVM에서의 Slack Variable
Slack Variable 이란? SVM에서는 일반적으로 분류를 위한 마진(Margin)을 설정하게 되는데, 이 때 마진과 학습 오류의 개수는 반비례 관계를 가지며 어떻게 분류할 것인지는 목적에 따라 결정된다. 여기서 선형적으로 분류할 수 없는 경우에는 분류를 위해 오차를 허용할 수 있다. 이 때 제약조건(constrraint)를 완화하여 오차를 허용할 때 사용하는 변수를 Slack Variable 이라고 한다. 즉 어느정도 에러가 발생하는 것을 허용하면서 초평면(hyperplane)을 찾는 방법을 말한다. Slack Variable은 각 관측치의 에러 정도를 나타내는 역할을 하게 되는데 각 관측치 마다 Slack Variable이 하나씩 존재한다. 분류가 올바르게 된 경우 Slack Variable =..
2022.08.13
no image
수학 기호 정리
최근 3개월 간 공부하면서 수식을 볼 일이 굉장히 많았는데, 여기에 나와있는 수식 80%는 모두 본 듯 하다.. 그래서 수학기호를 정리해보려고 했는데 리브레 위키에 정말 잘 설명되어있다. 리브레 위키 페이지에 들어가면 의미 부분에 관련된 항목에 대한 링크들이 모두 있어서 좋다. 참고자료 : https://librewiki.net/wiki/%EC%88%98%ED%95%99_%EA%B8%B0%ED%98%B8 수학 기호 수학에서 쓰이는 약어와 기호들을 모아놓은 문서. 수학 증명에서는 기호가 많이 나오기 때문에 기호의 의미를 알지 못한다면 증명을 이해할 수 없다. 반대로, 기호를 알지 못하면 증명이 쓸데없 librewiki.net 순서는 아래와 같다. 1. 수학에서 사용하는 약어 2. 수학에서 사용하는 알파벳 ..
2022.08.13
[선형대수학] 딥러닝에서의 노름 혹은 놈(Norm)
Norm 은 절대값에서 출발하여 추상화된 개념으로 벡터의 길이 혹은 크기를 측정하는 방법이라고 할 수 있다. Norm 이 측정한 벡터의 크기는 원점에서 벡터 좌표까지의 거리 혹은 Magnitude 라고 한다. 선형대수학에서의 Norm의 정의는 아래와 같다. $ V $를 $ F $상에서의 벡터공간이라고 하면, $ \left \| \cdot \right \| :V \rightarrow F $ 가 $ u, v\in V $ 와 $ k\in F $ 에 대해서 다음 세 조건을 만족시키면 $ \left \| \cdot \right \| $ 을 $ V $ 상에서 Norm 이라고 정의한다. (i) 정부호 : $ \left \| u \right \| \geq 0 $ 이고, $ u = 0 \Leftrightarrow \le..
2020.12.10
no image
[선형대수학 및 기타 수학] 최대 우도 추정 (Maximum Likelihood Estimation)
최대 우도 추정 (aximum Likelihood Estimation) 최대 우도 추정 (aximum Likelihood Estimation) 은 모수 (parameter)가 미지의 θ 인 확률분포에서 뽑은 표본 x 들을 바탕으로 θ를 추정하는 기법이다. 여기서 우도(likelihood)란 이미 주어진 표본 x 들에 비추어 봤을 때 모집단의 모수 θ 에 대한 추정이 그럴듯한 정도를 말한다. 우도 L( θ | x ) 는 θ 가 전제되었을 때 표본 x 가 등장할 확률인 p( x | θ ) 에 비례한다. 동전 던지기 100번을 수행하는 예시에서 반복적인 동전던지기는 성공 확률이 p 인 베르누이 시행을 n 번 반복 시행할 때 성공 횟수의 분포인 이항분포(binomial distribution)를 따른다. 이 예..
2020.06.07
P문제와 NP문제(NP-hard)
답이 YES 아니면 NO로 반환되는 문제를 결정 문제라고 한다. 예를 들어, 'a는 b의 배수인가?'와 같은 질문은 결정 문제이다. P와 NP 모두 결정 문제의 분류에 해당한다. P 문제는 결정 문제들 중에서 쉽게 풀리는 것을 모아 놓은 집합이다. 어떤 결정 문제가 주어졌을 때, 다항식(Polynomial) 시간 이내에 그 문제의 답을 YES와 NO 중의 하나로 계산해낼 수 있는 알고리즘이 존재한다면, 그 문제는 P 문제에 해당된다. n자리 이하의 수 a와 b가 주어졌을 때, a가 b의 배수인지를 판정하는 것은 유클리드 호제법을 사용하면 n에 대한 다항식 시간에 계산할 수 있으므로, 'a는 b의 배수인가?'하는 문제는 P 문제에 해당된다. 위의 정의는 결정적 알고리즘(deterministic algori..
2019.02.17
no image
수학기호 정리
2018.02.23
no image
[선형대수학] PCA & PPCA
논문 읽다가 PPCA Model 이라는 개념이 나와 정리해보고자 한다. 간단히 말하자면 PPCA는 Probablistic PCA(Principal Component Analysis) 이다. 영문에서도 알 수 있듯이 확률적으로 주성분 분석을 하겠다는 것이다. PPCA 를 위해 PCA 개념부터 차근차근 설명해보도록 한다. 1. 데이터 분석에서 차원 감소(Dimensionality Reduction)가 필요한 이유 데이터 분석과 관련된 학문에서는 차원의 저주 라는 문제가 있다. 차원의 저주는 관측한 데이터의 벡터 공간 차원이 엄청나게 크지만, 실제로 필요한 True Data는 작은 차원의 공간으로 표현해도 충분한 경우에 사용되는 용어이다. 차원의 저주는 데이터 과학에서는 차원이 증가함에 따라 차원 내의 부피도..
2018.02.06
[선형대수학] argmin, argmax
논문을 보다보면 아래와 같은 argmin, argmax 함수들이 나오는데 이 함수들의 의미는함수 f(x)를 최솟값으로 만들기 위한 x 값을 구한다 또는 함수 f(x)를 최댓값으로 만들기 위한 x 값을 구한다 라고 할 수 있다. 함수 f(x)가 무엇이냐에 따라 x 값이 달라지게 되며, 만족하는 값이 여러 개 일 수도 있다. 예를 들어 함수가 cosx 함수라면 이를 만족시키는 값은 pi, 3pi, 5pi, ... 이며이를 만족시키는 최솟값은 -1 이고, 최댓값은 1이다. 또한 argmin 값은 pi, 3pi, 5pi, ... 가 되며argmax 값은 0, 2pi, 4pi, ... 이다.
2018.01.23
[선형대수학] Frobenius norm
놈(노름) 이라고 읽는 Norm은 함수 f가 임의의 벡터 x, y 에 대해 아래와 같은 조건을 만족할 때 이 함수 f = ||x|| 를 놈 이라고 한다. 쉽게 말해서 벡터나 행렬의 크기를 일반화 시킨것이다. 일반적으로 부르게 되는 Norm은 L2-Norm 이고, 절대값 |.| 의 합이 L1-Norm 이다. 예를 들어, 벡터 x가 [1, -10, 2] 라고 하면, N1-Norm 은 |1| + |-10| + |2| = 13 이 된다. L2-Norm은 원점과의 거리를 말하고, 제곱값의 합에 루트를 취해 계산한다. 예를 들어, 아래와 같이 계산된다. 그러므로 Frobenius Norm (Euclidean Norm) 은 대표적으로 L2-Norm 의 형태는 다음과 같다. 서로 다른 노름 공간에서 정의된 단위원.임의..
2018.01.23
구글 파일 시스템 (GFS) vs 맵리듀스(MapReduce) vs 하둡 (Hadoop)
참고자료 1 : https://swalloow.github.io/map-reduce참고자료 2 : http://sycros.tistory.com/5 구글 파일 시스템 (GFS, Google File System) Google File System은 2003년 논문을 통해 소개되었다. 이전에 구글에서 사용하던 파일 시스템은 Big File 이었는데, 구글의 데이터가 급격히 늘어남에 따라 핵심 데이터 스토리지와 구글 검색 엔진을 위해 최적화 된 파일 시스템이 필요하게 된 것 이다. GFS는 크게 하나의 master node와 여러 개의 slave node로 구성되어 있다. 기능으로 보면 Master, Chunk Server, Client로 이루어져 있다. Master: GFS 전체를 관리하고 통제하는 중앙 ..
2017.09.26
[분산알고리즘] Hadoop(하둡) 이란 ?
참고자료 1 : https://aws.amazon.com/ko/emr/details/hadoop/참고자료 2 : http://over153cm.tistory.com/entry참고자료 3 : https://www.facebook.com/참고자료 4 : http://12bme.tistory.com/70참고자료 5 : http://yookeun.github.io/java/2015/05/24/hadoop-hdfs/ 하둡이란? 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임 워크이다. Apache™ Hadoop®은 대규모 데이터 세트를 효율적으로 처리하는 데 사용할 수 있는 오픈 소스 소프트웨어 프로젝트이고, 하나의 대형 컴퓨터를 사용하여 데이터를 처리 및 저장하는 대신, 하둡을 사용하면 상용 하..
2017.09.26
no image
[SQLD] 제22회 SQL 개발자 자격시험 합격후기 (SQLD, 공부법)
간단히 말하면 SQLD는 SQL 개발자 자격 시험이고, 접수비는 5만원, 1년에 시험 4번(3, 6, 9, 12월 시행), 필기 1번으로 끝, 합격자 발표 시험 보고 한달 후 발표, 책도 5만원, 자격증 발급 따로 없음(2016년도부터 온라인 자격증으로 대체), 정보처리기사보다 어려운 시험, 전공자라면 짧게는 2주, 넉잡아 4주 공부하길, 시험은 서울지역의 경우 동국대에서 봄, 수원사는데도 동국대가 제일 가까웠던 듯, 객관식 1과목 10문제 2과목 40문제, 그 중 주관식 8문제, 총 50문제 객관식+주관식 형식으로 출제된다. SQLD 시험 후기SQLD 시험을 본지도 어언 한달이 지났다. 개강하고서 9월 10일에 동국대(서울 지역)로 시험을 보러 갔는데 지하철에 사람이 어쩜 그렇게 많은지 지옥같다고 생각..
2016.10.12