본문 바로가기

Computer Science

(61)
[선형대수학 및 기타 수학] 최대 우도 추정 (Maximum Likelihood Estimation) 최대 우도 추정 (aximum Likelihood Estimation) 최대 우도 추정 (aximum Likelihood Estimation) 은 모수 (parameter)가 미지의 θ 인 확률분포에서 뽑은 표본 x 들을 바탕으로 θ를 추정하는 기법이다. 여기서 우도(likelihood)란 이미 주어진 표본 x 들에 비추어 봤을 때 모집단의 모수 θ 에 대한 추정이 그럴듯한 정도를 말한다. 우도 L( θ | x ) 는 θ 가 전제되었을 때 표본 x 가 등장할 확률인 p( x | θ ) 에 비례한다. 동전 던지기 100번을 수행하는 예시에서 반복적인 동전던지기는 성공 확률이 p 인 베르누이 시행을 n 번 반복 시행할 때 성공 횟수의 분포인 이항분포(binomial distribution)를 따른다. 이 예..
P문제와 NP문제(NP-hard) 답이 YES 아니면 NO로 반환되는 문제를 결정 문제라고 한다. 예를 들어, 'a는 b의 배수인가?'와 같은 질문은 결정 문제이다. P와 NP 모두 결정 문제의 분류에 해당한다. P 문제는 결정 문제들 중에서 쉽게 풀리는 것을 모아 놓은 집합이다. 어떤 결정 문제가 주어졌을 때, 다항식(Polynomial) 시간 이내에 그 문제의 답을 YES와 NO 중의 하나로 계산해낼 수 있는 알고리즘이 존재한다면, 그 문제는 P 문제에 해당된다. n자리 이하의 수 a와 b가 주어졌을 때, a가 b의 배수인지를 판정하는 것은 유클리드 호제법을 사용하면 n에 대한 다항식 시간에 계산할 수 있으므로, 'a는 b의 배수인가?'하는 문제는 P 문제에 해당된다. 위의 정의는 결정적 알고리즘(deterministic algori..
수학기호 정리
[선형대수학] PCA & PPCA 논문 읽다가 PPCA Model 이라는 개념이 나와 정리해보고자 한다. 간단히 말하자면 PPCA는 Probablistic PCA(Principal Component Analysis) 이다. 영문에서도 알 수 있듯이 확률적으로 주성분 분석을 하겠다는 것이다. PPCA 를 위해 PCA 개념부터 차근차근 설명해보도록 한다. 1. 데이터 분석에서 차원 감소(Dimensionality Reduction)가 필요한 이유 데이터 분석과 관련된 학문에서는 차원의 저주 라는 문제가 있다. 차원의 저주는 관측한 데이터의 벡터 공간 차원이 엄청나게 크지만, 실제로 필요한 True Data는 작은 차원의 공간으로 표현해도 충분한 경우에 사용되는 용어이다. 차원의 저주는 데이터 과학에서는 차원이 증가함에 따라 차원 내의 부피도..
[선형대수학] argmin, argmax 논문을 보다보면 아래와 같은 argmin, argmax 함수들이 나오는데 이 함수들의 의미는함수 f(x)를 최솟값으로 만들기 위한 x 값을 구한다 또는 함수 f(x)를 최댓값으로 만들기 위한 x 값을 구한다 라고 할 수 있다. 함수 f(x)가 무엇이냐에 따라 x 값이 달라지게 되며, 만족하는 값이 여러 개 일 수도 있다. 예를 들어 함수가 cosx 함수라면 이를 만족시키는 값은 pi, 3pi, 5pi, ... 이며이를 만족시키는 최솟값은 -1 이고, 최댓값은 1이다. 또한 argmin 값은 pi, 3pi, 5pi, ... 가 되며argmax 값은 0, 2pi, 4pi, ... 이다.
[선형대수학] Frobenius norm 놈(노름) 이라고 읽는 Norm은 함수 f가 임의의 벡터 x, y 에 대해 아래와 같은 조건을 만족할 때 이 함수 f = ||x|| 를 놈 이라고 한다. 쉽게 말해서 벡터나 행렬의 크기를 일반화 시킨것이다. 일반적으로 부르게 되는 Norm은 L2-Norm 이고, 절대값 |.| 의 합이 L1-Norm 이다. 예를 들어, 벡터 x가 [1, -10, 2] 라고 하면, N1-Norm 은 |1| + |-10| + |2| = 13 이 된다. L2-Norm은 원점과의 거리를 말하고, 제곱값의 합에 루트를 취해 계산한다. 예를 들어, 아래와 같이 계산된다. 그러므로 Frobenius Norm (Euclidean Norm) 은 대표적으로 L2-Norm 의 형태는 다음과 같다. 서로 다른 노름 공간에서 정의된 단위원.임의..
구글 파일 시스템 (GFS) vs 맵리듀스(MapReduce) vs 하둡 (Hadoop) 참고자료 1 : https://swalloow.github.io/map-reduce참고자료 2 : http://sycros.tistory.com/5 구글 파일 시스템 (GFS, Google File System) Google File System은 2003년 논문을 통해 소개되었다. 이전에 구글에서 사용하던 파일 시스템은 Big File 이었는데, 구글의 데이터가 급격히 늘어남에 따라 핵심 데이터 스토리지와 구글 검색 엔진을 위해 최적화 된 파일 시스템이 필요하게 된 것 이다. GFS는 크게 하나의 master node와 여러 개의 slave node로 구성되어 있다. 기능으로 보면 Master, Chunk Server, Client로 이루어져 있다. Master: GFS 전체를 관리하고 통제하는 중앙 ..
[분산알고리즘] Hadoop(하둡) 이란 ? 참고자료 1 : https://aws.amazon.com/ko/emr/details/hadoop/참고자료 2 : http://over153cm.tistory.com/entry참고자료 3 : https://www.facebook.com/참고자료 4 : http://12bme.tistory.com/70참고자료 5 : http://yookeun.github.io/java/2015/05/24/hadoop-hdfs/ 하둡이란? 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임 워크이다. Apache™ Hadoop®은 대규모 데이터 세트를 효율적으로 처리하는 데 사용할 수 있는 오픈 소스 소프트웨어 프로젝트이고, 하나의 대형 컴퓨터를 사용하여 데이터를 처리 및 저장하는 대신, 하둡을 사용하면 상용 하..
[SQLD] 제22회 SQL 개발자 자격시험 합격후기 (SQLD, 공부법) 간단히 말하면 SQLD는 SQL 개발자 자격 시험이고, 접수비는 5만원, 1년에 시험 4번(3, 6, 9, 12월 시행), 필기 1번으로 끝, 합격자 발표 시험 보고 한달 후 발표, 책도 5만원, 자격증 발급 따로 없음(2016년도부터 온라인 자격증으로 대체), 정보처리기사보다 어려운 시험, 전공자라면 짧게는 2주, 넉잡아 4주 공부하길, 시험은 서울지역의 경우 동국대에서 봄, 수원사는데도 동국대가 제일 가까웠던 듯, 객관식 1과목 10문제 2과목 40문제, 그 중 주관식 8문제, 총 50문제 객관식+주관식 형식으로 출제된다. SQLD 시험 후기SQLD 시험을 본지도 어언 한달이 지났다. 개강하고서 9월 10일에 동국대(서울 지역)로 시험을 보러 갔는데 지하철에 사람이 어쩜 그렇게 많은지 지옥같다고 생각..
[SQLD] 31. 조인 수행 원리 제 3절 조인 수행 원리 조인이란 두 개 이상의 테이블을 하나의 집합으로 만드는 연산이다. SQL 문에서 FROM 절에 두 개 이상의 테이블이 나열될 경우 조인이 수행된다. 조인 연산은 두 테이블 사이에서 수행된다. 만일 FROM 절에 A, B, C 테이블을 조인할 경우, A,B를 먼저 조인하고 그 결과와 C를 조인하게 되는 과정을 거친다. 또한 각 조인을 수행할 때 기법을 달리하여 수행할 수 있다. 대표적인 조인 기법은 세가지가 있다. - NL Join- Sort Merge Join- Hash Join 1. NL Join - NL Join은 프로그래밍에서 사용하는 중첩된 반복문과 유사한 방식으로 조인을 수행- 반복문의 외부에 있는 테이블을 선행 테이블 또는 외부 테이블(Outer Table)이라 함- ..