데이터베이스 인덱스 종류와 특징

데이터베이스 인덱스, 데이터 검색 속도를 향상시키기 위해 사용되는 중요한 기술입니다. 적절한 인덱스를 설계하면 쿼리 성능을 획기적으로 개선할 수 있지만, 데이터베이스 구조와 쿼리 패턴에 따라 적합한 인덱스를 선택해야 합니다.

이번 글에서는 트리 기반 인덱스, 비트맵 인덱스, 함수 기반 인덱스, 도메인 인덱스 등 다양한 인덱스의 개념, 특징, 사용 사례를 정리해 보겠습니다.

트리 기반 인덱스 (Tree-based Index)

개념

트리 기반 인덱스는 계층 구조를 통해 데이터를 정렬하고 검색하는 방식입니다. 대표적으로 B-트리(Balanced Tree)와 B+트리 구조가 많이 사용됩니다. 이는 대부분의 관계형 데이터베이스에서 기본 인덱스 유형으로 채택됩니다.

특징

구조: 데이터는 트리 형태로 정렬되며, 노드들은 키 값을 기준으로 분리.
탐색 속도: O(log n)의 시간 복잡도를 가지며, 대량의 데이터에서도 빠르게 검색 가능.
유지 관리: 데이터 삽입/삭제 시 트리 구조를 자동으로 균형 상태로 유지.

장점

정렬된 데이터에 대해 빠른 검색, 삽입, 삭제 가능.
범위 검색에 최적화.
널(null) 값을 포함하는 데이터에도 적용 가능.

단점

트리 구조 유지에 필요한 추가적인 저장 공간 필요.
인덱스가 클 경우 성능 저하 가능.

사용 사례

자주 검색되는 숫자 또는 문자열 필드.
범위 조건(예: BETWEEN, >, <)이 포함된 쿼리.
기본 키(Primary Key)와 고유 키(Unique Key).

CRUD 분석 👆

비트맵 인덱스 (Bitmap Index)

개념

비트맵 인덱스는 각 데이터 값에 대해 비트(bit) 배열을 사용해 데이터의 존재 여부를 나타내는 방식입니다. 주로 카디널리티가 낮은 데이터(중복 값이 많은 경우)에 적합합니다.

특징

구조: 각 고유 값에 대해 비트맵(0과 1로 구성된 배열)을 생성.
효율성: 여러 비트맵을 AND, OR, NOT 등의 연산으로 빠르게 결합하여 결과를 계산.

장점

중복 값이 많은 경우(예: 성별, 상태 코드 등)에 효율적.
작은 저장 공간으로 대량 데이터를 관리 가능.
빠른 다중 조건 필터링.

단점

데이터 변경(삽입, 삭제, 갱신) 작업에서 성능 저하 가능.
고유 값이 많은 컬럼에는 비효율적.

사용 사례

상태 플래그(예: True/False).
카테고리, 성별 등 중복도가 높은 데이터.
데이터 웨어하우스 환경의 읽기 전용 쿼리.

스토리지(Storage) 👆

함수 기반 인덱스 (Function-based Index)

개념

함수 기반 인덱스는 컬럼의 값 대신 특정 함수나 표현식을 적용한 결과를 인덱싱하는 방식입니다. 일반적인 인덱스와 달리, 컬럼 값을 변형하거나 계산한 결과에 대해 검색 속도를 높입니다.

특징

구조: 인덱스는 함수나 표현식의 결과를 기준으로 생성.
사용 환경: SQL 쿼리에서 특정 계산이나 변환이 자주 발생하는 경우 유용.

장점

함수나 표현식 기반으로 검색할 때 성능 향상.
대소문자를 무시한 검색(예: LOWER(column))에 유용.
데이터 변환(예: 날짜 변환, 숫자 계산) 작업에 최적화.

단점

인덱스를 유지하기 위한 추가적인 연산 비용.
복잡한 함수나 표현식 사용 시 관리가 어려울 수 있음.

사용 사례

문자열 검색 시 대소문자 무시(LOWER, UPPER).
날짜 관련 계산(예: TO_CHAR, EXTRACT).
특정 계산이 포함된 조건 검색(예: salary * 0.1 > 1000).

파티셔닝(Partitioning) 👆

도메인 인덱스 (Domain Index)

개념

도메인 인덱스는 데이터베이스 사용자가 특정 데이터 유형이나 처리 방식에 맞는 사용자 정의 인덱스를 생성할 수 있도록 제공되는 방식입니다. Oracle에서는 Extensible Indexing Framework를 통해 구현됩니다.

특징

구조: 사용자가 정의한 데이터 타입과 처리 방식에 따라 맞춤형으로 동작.
확장성: 데이터베이스의 기본 인덱스로 처리할 수 없는 데이터를 효과적으로 관리.

장점

이미지, 텍스트, 공간 데이터 등 비정형 데이터에 적합.
사용자 정의 로직으로 복잡한 데이터 처리 가능.
특정 애플리케이션 요구 사항에 최적화 가능.

단점

구현 복잡도가 높음.
특정 데이터베이스에 종속적일 수 있음.
유지보수와 최적화가 어려울 수 있음.

사용 사례

GIS(지리 정보 시스템) 데이터 처리.
텍스트 검색(예: FULLTEXT 인덱스).
비정형 데이터(이미지, 동영상) 검색.

클러스터링(Clustering) 👆

인덱스 종류 비교

인덱스 유형	특징	장점	단점	사용 사례
트리 기반 인덱스	계층 구조를 사용해 데이터를 정렬하고 검색	범위 검색과 범용 쿼리에 적합	저장 공간 추가 필요	기본 키, 숫자, 문자열 검색
비트맵 인덱스	비트 배열로 중복 데이터 처리	카디널리티 낮은 데이터에 효율적	갱신 작업에서 성능 저하	상태 플래그, 카테고리 데이터
함수 기반 인덱스	컬럼 값 대신 함수나 표현식의 결과를 인덱싱	계산 기반 조건 검색 성능 향상	복잡한 함수로 인한 추가 비용	대소문자 무시 검색, 날짜 변환
도메인 인덱스	사용자 정의 데이터 처리 방식 지원	비정형 데이터와 맞춤형 로직 처리 가능	구현과 유지보수가 복잡	GIS, 텍스트, 이미지 검색

저장 테이블 유형 👆

인덱스 설계 시 고려 사항

쿼리 패턴 분석
자주 검색되거나 정렬, 조인 조건에 사용되는 컬럼에 대해 인덱스를 설계합니다.
데이터 특성 파악
데이터의 중복도와 크기를 고려하여 적합한 인덱스 유형을 선택합니다.
갱신 빈도 고려
갱신 작업이 잦은 데이터는 비트맵 인덱스 사용을 지양하고, 트리 기반 인덱스를 고려합니다.
성능 테스트
실제 운영 환경에서 성능 테스트를 통해 적합성을 검증합니다.

윈도우 함수와 OLAP (Online Analytical Processing) 👆

결론

적절한 인덱스 설계는 데이터베이스 성능을 크게 향상시킬 수 있는 중요한 요소입니다. 트리 기반 인덱스는 범용적인 검색에 적합하며, 비트맵 인덱스는 중복 데이터 처리에 강점을 가집니다. 함수 기반 인덱스는 계산된 값을 효율적으로 검색할 수 있고, 도메인 인덱스는 특수한 데이터와 로직을 처리할 때 유용합니다.

CRUD 분석

데이터베이스 인덱스 설명 글 마치겠습니다.

SELECT AS 구문 활용 방법 👆