728x90
반응형


제 2절 인덱스 기본


1. 인덱스 특징과 종류


  인덱스는 원하는 데이터를 쉽게 찾을 수 있도록 돕는 책의 찾아보기와 유사한 개념이다. 인덱스는 테이블을 기반으로 선택적으로 생성할 수 있는 구조이다. 인덱스의 기본적인 목적은 검색 성능의 최적화이다. 그러나 Insert, Update, Delete 등과 같은 DML 작업은 테이블과 인덱스를 함께 변경해야 하기 떄문에 오히려 느려질 수 있다.


가. 트리 기반 인덱스

- DBMS에서 가장 일반적인 인덱스는 B-트리 인덱스

- 브랜치 블록(Branch Block), 리프 블록(Leaf Block), 루트 블록(Root Block)으로 구성


브랜치 블록

  1. 분기를 목적으로 하는 블록

  2. 다음 단계의 블록을 가리키는 포인터를 가짐


리프 블록

  1. 가장 아래 단계에 존재하는 블록

  2. 인덱스를 구성하는 칼럼의 데이터 + 해당 데이터를 가지고 있는 행의 위치를 가리키는 레코드 식별자(RID, Record Identifier/Rowid)로 구성

  3. 인덱스 데이터는 인덱스를 구성하는 칼럼의 값으로 정렬

  4. 만일 값이 동일한 경우 레코드 식별자의 순서대로 저장

  5. 양방향 링크(Double Link)를 가짐


B-트리 인덱스는 '='로 검색하는 일치(Exact Match) 검색과 'BETWEEN', '>' 등과 같은 연산자로 검색하는 범위 검색 모두에 적합한 구조이다. 


1단계, 브랜치 블록의 가장 왼쪽 값이 찾고자 하는 값보다 작거나 같으면 왼쪽 포인터로 이동

2단계, 찾고자 하는 값이 브랜치 블록의 값 사이에 존재하면 가운데 포인터로 이동

3단계, 오른쪽에 있는 값보다 크면 오른쪽 포인터로 이동




  만약 37과 50 사이의 모든 값을 찾고자 한다면 위와 동일한 방법으로 리프 블록에서 37을 찾고, 50보다 큰 값을 만날 때 까지 오른쪽으로 이동하면서 인덱스를 읽는다. 이것은 인덱스 데이터가 정렬되어있고, 리프 블록이 양방향 링크로 연결되어 있기 때문에 가능하다. 인덱스를 경유해서 반환된 결과 데이터는 인덱스 데이터와 동일한 순서로 갖게 되는 특징을 갖는다. 


  인덱스를 생성할 때 동일 칼럼으로 구성된 인덱스를 중복해서 생성할 수 없다. 그렇지만 인덱스 구성 칼럼은 동일하지만 칼럼의 순서가 다르면 서로 다른 인덱스로 생성할 수 있다. 인덱스의 칼럼순서는 성능에 중요한 영향을 미치는 요소이다. 


- B-트리 인덱스

- 비트맵 인덱스(Bitmap Index)

- 리버스 키 인덱스(Reverse Key Index)

- 함수 기반 인덱스(FBI, Function-Based Index)





나. SQL Server의 클러스터형 인덱스


- 저장 구조에 따라 클러스터형(clustered) 인덱스와 비클러스터형(nonclustered)인덱스로 나뉨


클러스터형 인덱스

1. 인덱스의 리프 페이지가 곧 데이터 페이지이다. 따라서 테이블 탐색에 필요한 레코드 식별자가 리프 페이지에 없다. 클러스터형 인덱스의 리프 페이지를 탐색하면 해당 테이블의 모든 칼럼 값을 곧바로 얻을 수 있다. 

2. 리프 페이지의 모든 로우(=데이터)는 인덱스 키 칼럼 순으로 물리적으로 정렬되어 저장된다. 테이블로우는 물리적으로 한 가지 순서로만 정렬될 수 있다. 그러므로 클러스터형 인덱스는 테이블 당 한 개만 생서할 수 있다. 


아래는 Employee ID에 기반한 클러스터형 인덱스를 생성한 모습이다.    





2. 전체 테이블 스캔과 인덱스 스캔


가. 전체 테이블 스캔


  전체 테이블 스캔 방식으로 데이터를 검색한다는 것은 테이블에 존재하는 모든 데이터를 읽어 가면서 조건에 맞으면 결과로서 추출하고 조건에 맞지 않으면 버리는 방식으로 검색한다. 오라클의 경우 테이블의 고수위 마크(HWM, High Water Mark) 아래의 모든 블록을 읽는다. 고수위 마크는 테이블에 데이터가 쓰여졌던 블록 상의 최상위 위치를 의미한다. 즉, 전체 테이블 스캔은 고수위 마크(HWM)까지 데이터를 모두 읽어야 하기 때문에 모든 결과를 찾을 때까지 시간이 오래 걸릴 수 있다. 

  이렇게 읽은 블록들은 재사용성이 떨어진다. 그래서 메모리에서 곧 제거될 수 있도록 관리된다. 


다음은 옵티마이저가 연산으로서 전체 테이블 스캔 방식을 선택하는 이유이다. 


1) SQL문에 조건이 존재하지 않는 경우

2) SQL문의 주어진 조건에 사용 가능한 인덱스가 존재하지 않는 경우

함수를 사용하여 인덱스 칼럼을 변형한 경우에도 인덱스를 사용할 수 없다.

3) 옵티마이저의 취사 선택

조건을 만족하는 데이터가 많은 경우, 즉 대부분의 블록을 액세스해야하는경우

4) 그 밖의 경우

병렬처리 방식으로 처리하는 경우, 전체 테이블 스캔 방식의 힌트를 사용한 경우





나. 인덱스 스캔

  인덱스 스캔은 인덱스를 구성하는 칼럼의 값을 기반으로 데이터를 추출하는 액세스 기법이다. 인덱스의 리프 블록은 인덱스 구성하는 칼럼과 레코드 식별자로 구성되어있다. 따라서 검색을 위해 인덱스의 리프 블록을 읽으면 인덱스 구성 칼럼의 값과 테이블의 레코드 식별자를 알 수 있다. 그러나 존재하지 않는 칼럼의 값이 필요한 경우에는 현재 읽은 레코드 식별자를 이용하여 테이블을 액세스해야한다.

  인덱스의 구성 칼럼이 A+B라면 먼저 칼럼A로 정렬되고, 값이 동일한 경우에는 B로 정렬된다. 칼럼 B까지 동일하면 레코드 식별자로 정렬된다. 그래서 사용자와 동일한 정렬 순서를 가지는 경우 정렬 작업이 발생하지 않을 수 있다.

  인덱스 스캔 중에 자주 사용되는 인덱스 유일 스캔, 인덱스 범위 스캔, 인덱스 역순 스캔이 있다.


1) 인덱스 유일 스캔(Index Unique Scan)

- 유일 인덱스를 사용하여 단 하나의 데이터를 추출하는 방식

- 중복을 허락하지 않는 인덱스

- 유일 인덱스 구성 칼럼에 대해 모두 '='로 값이 주어진 경우에만 가능


2) 인덱스 범위 스캔(Index Range Scan)

- 인덱스를 이용하여 한 건 이상의 데이터를 추출하는 방식

- 구성 칼럼 모두에 대해 '='로 값이 주어지지 않은 경우와 비유일 인덱스를 이용하는 모든 액세스 방식은 이 방식으로 데이터를 액세스 한다. 아래 왼쪽 그림의 형태와 같다.


3) 인덱스 역순 범위 스캔(Index Range Scan Descending)

- 아래 오른쪽 그림과 같이 리프 블록의 양방향 링크를 이요앟여 내림 차순으로 데이터를 읽는 방식

- 최대값을 쉽게 찾을 수 있음


- 인덱스 전체 스캔(Index Full Scan), 인덱스 고속 전체 스캔(Fast Full Index Scan), 인덱스 스킵 스캔(Index Skip Scan)






다. 전체 테이블 스캔과 인덱스 스캔 방식의 비교


전체 테이블 스캔 방식

- 테이블의 전체 데이터를 모두 읽으면서 데이터를 추출하는 스캔 방식

- 인덱스의 존재 유무와 상관없이 항상 이용 가능한 스캔방식

- 인덱스가 존재하더라도 전체 테이블 스캔 방식을 이용할 수있음

- 한 번의 I/O 요청으로 여러 블록을 한꺼번에 읽음

- 테이블의 모든 데이터를 읽으면서 원하는 데이터를 찾는 비효율적인 검색을 하게 될 수도 있음


인덱스 스캔 방식

- 인덱스를 경유해서 읽는 스캔 방식

- 인덱스에 존재하는 레코드 식별자를 이용하여 검색하는 데이터의 정확한 위치를 알고 데이터를 읽음

- 불필요하게 다른 블록을 더 읽지 않아도 됨

- 한 번의 I/O 요청에 한 블록씩 데이터를 읽음

- 극히 일부의 데이터를 찾을 때 몇 번의 I/O 만으로 원하는 데이터를 쉽게 찾을 수 있음



728x90
반응형