Sql Sql Server Indexing

테이블 스캔과 클러스터드 인덱스 스캔의 차이점 이해하기

데이터베이스 작업을 하면서 테이블 스캔과 클러스터드 인덱스 스캔이라는 용어를 접했을 것입니다. 두 방법 모두 SQL Server 데이터베이스에서 데이터를 접근하기 위해 설계되었지만, 작동 방식이 다르고 성능에 미치는 영향도 다릅니다. 이번 블로그 포스트에서는 이 두 방법의 근본적인 차이점과 한 방법이 다른 방법보다 더 나은 이유를 탐구해 보겠습니다.

테이블 스캔이란 무엇인가?

테이블 스캔은 데이터베이스 엔진이 특정 조건에 맞는 행을 찾기 위해 테이블의 모든 데이터 페이지를 읽는 상황을 의미합니다. 이 방법은 간단하지만 비효율적이며, 특히 테이블에 많은 레코드가 있을 경우 더욱 그러합니다.

힙 테이블: 테이블에 클러스터드 인덱스가 없다면, 이는 힙 테이블로 분류됩니다. 이는 데이터 페이지가 특정한 순서로 정리되지 않음을 의미하며, 다음과 같은 결과를 초래합니다:
- 링크된 데이터 페이지 없음
- 페이지를 탐색하기 위해 인덱스 할당 맵(IAM)을 조회해야 함

클러스터드 인덱스 스캔이란 무엇인가?

반면에 클러스터드 인덱스 스캔은 클러스터드 인덱스를 이용하여 데이터를 보다 효율적으로 접근합니다. 클러스터드 테이블에서는 데이터 페이지가 특정한 순서(인덱스된 열에 따라)로 정리되어 있어, 스캔할 때 성능이 향상됩니다.

이중 연결 리스트: 데이터 페이지는 이중 연결 리스트를 통해 연결됩니다. 이는:
- 연속 스캔을 더 빠르게 진행할 수 있게 해줍니다.
- 데이터가 정렬되어 있으므로 특정 데이터 행을 찾는 데 필요한 오버헤드가 줄어듭니다.

성능 비교: 테이블 스캔 vs. 클러스터드 인덱스 스캔

클러스터드 인덱스 스캔이 종종 테이블 스캔보다 선호되는 이유를 예제와 함께 자세히 살펴보겠습니다.

예제 쿼리

다음 예제를 고려해 봅시다:

클러스터드 인덱스가 없는 경우 (힙 테이블):

DECLARE @temp TABLE (SomeColumn VARCHAR(50));
INSERT INTO @temp SELECT 'SomeVal';
SELECT * FROM @temp;

클러스터드 인덱스가 있는 경우:

DECLARE @temp TABLE (RowID INT NOT NULL IDENTITY(1,1) PRIMARY KEY, SomeColumn VARCHAR(50));
INSERT INTO @temp SELECT 'SomeVal';
SELECT * FROM @temp;

성능 분석

두 방법의 성능 비교는 다음과 같습니다:

테이블 스캔:
- 모든 페이지를 탐색해야 하므로, 스캔이 필요합니다.
- IAM에 두 번째 쓰기를 사용해야 하므로 성능이 저하될 수 있습니다.
클러스터드 인덱스 스캔:
- 데이터가 정렬되어 있기 때문에, WHERE 절이 있는 쿼리를 수행할 경우 스캔해야 할 데이터 양을 크게 줄일 수 있습니다.
- 모든 행을 조회하는 쿼리에서도 페이지의 연결 구조로 인해 힙 테이블보다 약간 더 빠릅니다.

각 방법을 사용할 때의 조건

클러스터드 인덱스 스캔은 일반적으로 다음과 같은 이유로 더 효율적입니다:
- 범위 쿼리를 효과적으로 처리할 수 있습니다.
- 클러스터드 인덱스 탐색 작업을 통해 최적의 성능을 제공합니다.
테이블 스캔은 다음과 같은 상황에서는 효율성이 떨어집니다:
- 상당한 레코드 수와 정렬이 없는 경우.
- 인덱스 구조를 활용할 수 없는 조건부 조회가 있는 경우.

삽입, 업데이트 및 삭제 작업에 대한 영향

삽입, 업데이트 및 삭제 성능:
- 실험에 따르면 클러스터드 인덱스는 힙 테이블을 다음 경우에 대해 능가한 것으로 나타났습니다:
  - INSERT 작업 (3% 더 빠름)
  - UPDATE 작업 (8% 더 빠름)
  - DELETE 작업 (18% 더 빠름)
그러나 힙 테이블은 낮은 유지 관리 오버헤드로 인해 부하가 많은 조건에서 성능이 향상될 수 있지만, 조회 작업 시 데이터 검색 속도가 느려집니다.

결론

요약하자면, 테이블 스캔과 클러스터드 인덱스 스캔이 모두 테이블의 모든 레코드를 스캔할 수 있지만, 클러스터드 인덱스 스캔은 구조적 접근 방식과 빠른 탐색 능력으로 인해 일반적으로 더 효율적입니다. 이러한 차이를 이해함으로써 데이터베이스 관리자와 개발자는 인덱싱 및 데이터 검색 전략에 대해 더 나은 결정을 내릴 수 있으며, SQL Server 애플리케이션의 성능을 향상시킬 수 있습니다.

SQL 쿼리 및 검색 프로세스를 최적화하려면, 데이터베이스의 요구사항과 쿼리의 성격에 따라 적절한 곳에 클러스터드 인덱스를 구현하는 것을 고려하세요.