casa → Persone È possibile creare un indice su una tabella. Indici in SQL Server. È possibile creare un indice non cluster solo su un sottoinsieme specifico di dati di una colonna chiave

È possibile creare un indice su una tabella. Indici in SQL Server. È possibile creare un indice non cluster solo su un sottoinsieme specifico di dati di una colonna chiave

In questo articolo per principianti, esaminerò come determinare gli indici necessari per aumentare la velocità di esecuzione delle query SQL.

In effetti, ci sono molte sottigliezze associate agli indici che possono influenzare in modo significativo le prestazioni sia in una direzione che nella direzione opposta. Puoi trovare molti articoli a riguardo su Internet. Articoli voluminosi che spiegano le differenze nell'indirizzamento, nell'archiviazione della memoria e molte altre cose.

Queste sono, ovviamente, cose davvero utili, ma spesso perdono una piccola sfumatura: i volumi di dati su cui tutte queste funzionalità hanno davvero un effetto notevole. E questa cifra viene solitamente misurata in centinaia di migliaia di record. In parole semplici, se nelle tue tabelle sono presenti circa 1-30 mila record e stiamo parlando di un sito Web (o di una risorsa simile) e non di una sorta di archivio dati intermedio per i sistemi caricati, molto spesso è più importante crea semplicemente gli indici corretti. È importante notare qui che non devi essere molto esperto tecnicamente. Molti indici utili possono essere creati utilizzando una logica semplice.

Nota: Ciò presuppone che le query stesse siano costruite in modo più o meno ottimale, ad esempio non ci sono campi aggiuntivi in select , ecc.

Indice per campi identificatore intero.

Se hai un campo con un identificatore intero (non importa se è l'identificatore della tabella stessa o un identificatore che punta a una riga in un'altra tabella), crea un indice separato per esso.

Il punto è questo. Se il campo è un identificatore dei record della tabella stessa, allora parliamo di una chiave primaria (è anche un indice). I vantaggi derivanti da un tale indice sono numerosi, poiché i siti molto spesso operano con identificatori. Se si tratta di un identificatore di riga da una tabella di directory, è necessario anche un indice. Poiché se hai bisogno di dati filtrati, senza indici queste directory non sono molto utili (beh, forse solo la dimensione del database).

Se nel primo caso tutto è abbastanza semplice e chiaro, nel secondo caso (con un libro di consultazione) darò un semplice esempio.

Diciamo che ci sono due tabelle: articoli (articolo - id, nome, testo) e commenti (commento - id, articolo_id, testo). La prima tabella contiene 200 record (articoli), la seconda tabella contiene 2000 record (10 commenti per ogni articolo). Di conseguenza, quando ciascun utente apre un articolo, viene eseguita la seguente query:

Se la query SQL viene eseguita senza un indice per il campo article_id, l'intera tabella con i commenti (tutti i 2000 record) verrà scansionata completamente ogni volta. Se viene aggiunto un indice per il campo article_id, il database non dovrà esaminare più di 20 record (per essere precisi, circa 18 nel caso peggiore). Il calcolo qui è semplice. Nel peggiore dei casi, la ricerca dell'indice avviene approssimativamente alla velocità del logaritmo binario del numero di record + il numero di record con lo stesso valore del campo indice. In questo caso ogni articolo ha 10 record (i loro valori vengono ripetuti) + log2 di 200 (poiché ci sono solo 200 articoli = 2000/10) = 10 + 8 (arrotondato per eccesso) = 18.

Naturalmente, ciascuno di questi indici, oltre allo spazio su disco che occupa, introduce anche un ulteriore sovraccarico del database per inserimenti, aggiornamenti ed eliminazioni. Dopotutto, oltre a modificare i dati della tabella stessa, è anche necessario ricostruirne gli indici. Ma, come ho già detto, per il volume dei normali siti web questo non è un grosso problema. E anche se crei un indice su una tabella che non usi nelle tue query SQL, ciò non causerà alcun problema evidente. Inoltre, è sempre possibile che installando un modulo aggiuntivo o aggiungendo tu stesso le query, questo indice possa tornare molto utile.

Nota: Tuttavia, ricorda che questo si applica specificamente agli indici interi e non all'opzione "fammi creare indici per tutti i campi possibili".

Indici semplici e composti per le query più comuni.

Molti database dispongono di una cache dei risultati per le query. Prova a eseguire la stessa richiesta due volte di seguito: nel primo caso la richiesta richiederà molto tempo per essere completata, la seconda volta rapidamente. La prima volta che i dati verranno calcolati, la seconda volta i dati verranno forniti dalla cache. Tuttavia, ciò non è di grande aiuto nei casi in cui non è creata una cache per le query (ad esempio, quando il filtro contiene condizioni calcolate utilizzando le funzioni predefinite del database), nei casi in cui le query, sebbene dello stesso tipo, vengono utilizzate con risultati diversi parametri, e in quei casi, quando ci sono molte richieste e quindi i dati vengono archiviati nella cache per un periodo di tempo molto breve.

Pertanto, periodicamente può avere senso creare inoltre indici regolari e composti per le query eseguite di frequente. Diamo un'occhiata a due esempi.

Indice semplice.

Supponiamo che tu abbia una tabella - prodotti (prodotto - id, codice, nome, testo). E così accade che gli utenti del sito spesso cerchino i prodotti in base ai loro codici alfanumerici (articoli - campo codice). Di conseguenza, la richiesta assomiglia a questa:

In questa situazione ha senso creare un indice separato per il campo "codice", poiché con esso il database non dovrà scansionare completamente tutti i record della tabella. Tuttavia, tieni presente che i database potrebbero avere restrizioni sui tipi e sulle dimensioni dei campi. Pertanto dovresti prima verificare se è possibile creare un indice per tali campi.

Indice composito.

Prima di fornire un esempio con un indice composito, vorrei chiarire un po' un punto importante: l'ordine dei campi nell'indice è importante. Poiché la ricerca viene effettuata prima dal primo campo, poi da quello successivo (e così via). Pertanto, se si conosce il valore specifico solo dell'ultimo campo, un tale indice non sarà adatto, poiché senza conoscere il valore specifico del primo campo è impossibile determinare quale insieme di record deve essere controllato, ovvero perché il database dovrà scansionare tutti i record nella tabella. In parole semplici, l'indice (colonna_1, colonna_2) non è uguale all'indice (colonna_2, colonna_1).

Ora, supponiamo la seguente situazione. Sono presenti tre tabelle: utente (utente - id, nome), categoria (cat - id, nome) e articolo (articolo - id, cat_id, user_id, nome, testo). E hai fatto una cosa del genere sul sito: in fondo all'articolo viene visualizzato un elenco completo di articoli dello stesso utente di una determinata categoria. Allo stesso tempo, gli utenti si sono rivelati così prolifici da scrivere molti articoli, anche se in diverse categorie (ad esempio piccole storie, brevi note e così via). In questo caso la richiesta sarà simile a questa:

Se hai creato indici per i campi identificatore, questo ti aiuterà, ma non molto. Innanzitutto ci sono due indici ugualmente probabili. Uno per le categorie e il secondo per gli utenti. Quale sarà migliore è generalmente sconosciuto. Inoltre, questo potrebbe non essere di grande aiuto poiché gli utenti potrebbero avere 1000 articoli e le categorie potrebbero avere 1000 articoli. In secondo luogo, anche riducendo i record per un utente (o categoria) specifico, questi dovranno comunque essere scansionati utilizzando il secondo campo, ovvero una scansione completa (anche se per un volume inferiore di record). Ad esempio, se gli utenti hanno 1000 record, dovrai verificare per tutti i 1000 record se appartengono o meno alla categoria.

Per un numero elevato di record e chiamate frequenti, si tratta di una query SQL molto costosa. Pertanto in questo caso conviene creare un indice composito, ad esempio (user_id, cat_id): in questo caso, dopo la ricerca per utente, le ricerche successive per categoria saranno più veloci, poiché ci sarà anche un indice per il risultato record. Di conseguenza, invece di controllare 1000 record, ne verranno controllati molti meno (i controlli vengono calcolati come con un indice normale: logaritmo + numero di record).

Come è possibile determinare l'ordine dei campi in tali situazioni? Qui tutto è abbastanza semplice e simile a quello che ho descritto nell'articolo sul filtraggio (vedi il link all'inizio). Lascia che ti ricordi che il punto è che con ciascun filtro applicato, il numero di record diventa il più piccolo possibile. Pertanto, ha senso controllare il numero medio di record per ciascun valore di campo nella tabella. E il campo con questo numero in meno dovrebbe essere il primo. Ad esempio, per una determinata query SQL, vale la pena verificare quanto segue:

Calcola il numero medio di record per gli utenti select -- Numero medio di record avg(data.count) as avg from -- Raggruppa tutti i record per identificatore (select count(*) as `count` from article -- Raggruppa per utenti raggruppa per user_id) come dati; -- Calcola il numero medio di record per le categorie select -- Numero medio di record avg(data.count) as avg from -- Raggruppa tutti i record per id (select count(*) as `count` from article -- Raggruppa per categoria group by cat_id) come dati;

Di conseguenza, se il numero medio di utenti è inferiore, questo campo dovrebbe essere il primo, poiché dopo la prima ricerca ci saranno pochi record da controllare. Altrimenti, l'ID della categoria deve venire prima.

Tuttavia, vale la pena capire che in una situazione del genere vale anche la pena verificare che i record siano distribuiti più o meno uniformemente. Dopotutto, potrebbe risultare che 1 utente abbia scritto 2000 articoli e il resto solo 100. In una situazione del genere, potrebbe essere preferibile un filtro per categoria, poiché la maggior parte dei lettori visualizzerà gli articoli di questo particolare utente. Pertanto, a volte vale la pena calcolare solo il raggruppamento per identificatori (senza calcolare la media) e visualizzare rapidamente i risultati.

Se devi creare un indice per tre o più campi, dovresti fare lo stesso, aumentando solo il numero di campi per i quali viene effettuato il raggruppamento per identificatore. In parole semplici, controlla prima il primo campo e determina il numero più piccolo, quindi invece di "raggruppa per colonna_1" indica varie opzioni con i campi rimanenti sotto forma di "raggruppa per colonna_1, colonna_2", quindi "raggruppa per colonna_1, colonna_3" e così via. In questo caso, ognuno sceglie quelle combinazioni in cui il numero medio di record diventa sempre più piccolo.

Materiale teorico

Gli indici ti consentono di trovare informazioni in enormi database nel modo più efficiente possibile.

SQL Server 2008 supporta due tipi fondamentali di indici: cluster e non cluster. Entrambi i tipi di indici sono implementati come un albero bilanciato (albero B), in cui il livello delle foglie si trova al livello inferiore della struttura. La differenza tra i due tipi di indici è che un indice cluster fornisce l'ordinamento fisico dei dati su disco. Un indice cluster è sparso: i puntatori nelle foglie dell'albero B puntano alla pagina dei dati.

Un indice non cluster è denso e contiene solo le colonne incluse nella chiave dell'indice. Negli indici densi, i puntatori nelle foglie dell'albero B puntano a righe di dati effettivi. Se per una tabella non è definito un indice cluster, viene denominata tabella heap o non ordinata. In quest'ultimo caso, la tabella è organizzata fisicamente (ordinata) nell'ordine in cui vengono aggiunti i nuovi record, a differenza delle tabelle con indici cluster, che sono ordinate in base ai valori della chiave di ordinamento. Si può dire che una tabella può essere rappresentata in due forme, come heap o come indice cluster.

Indici cluster

Gli indici cluster possono essere creati in base a una o più colonne di tabella: tale indice è chiamato chiave di indice e presenta una serie di restrizioni:

Le colonne in un indice cluster sono chiamate chiave di clustering. Un indice cluster ha un impatto speciale su SQL Server perché impone di ordinare i dati in una tabella in base alla chiave di clustering. Poiché una tabella può essere ordinata solo in un modo, può avere un solo indice cluster.

Gli indici cluster specificano l'ordinamento dei dati in una tabella. Tuttavia, gli indici cluster non forniscono l'ordinamento fisico. Un indice cluster non organizza fisicamente i dati sul disco perché ciò comporterebbe molte operazioni di I/O su disco quando le pagine vengono divise. Garantisce solo che la catena di pagine indicizzate sia ordinata logicamente, consentendo a SQL Server di spostarsi direttamente attraverso la catena di pagine durante la ricerca di dati. Mentre SQL Server si sposta attraverso una catena di pagine indicizzate, le righe di dati vengono lette in base alla chiave di clustering.

Indice non cluster

Un indice non cluster non impone alcuna restrizione sull'ordine dei record in una tabella, quindi puoi creare molti indici non cluster sulla stessa tabella, ma questi indici hanno le stesse restrizioni degli indici cluster:

Un indice può estendersi su un massimo di 16 colonne;

La dimensione massima della chiave dell'indice è 900 byte.

Il livello foglia di un indice non cluster contiene un puntatore ai dati desiderati. Se la tabella dispone di un indice cluster, il livello foglia dell'indice non cluster punta alla chiave di clustering. Se non è presente alcun indice cluster, le pagine a livello foglia puntano a righe di dati nella tabella.

La sintassi generale per creare un indice relazionale è:

CREA INDICE nome_indice

SU<объект>(colonna [, … n])

[ ; ]

Indice composito

È possibile creare un indice composito in base a più campi. In questo caso valgono le limitazioni descritte in precedenza. Se l'indice è costruito su campi con dimensione fissa, la somma delle lunghezze di questi campi non deve superare questi 900 byte; se l'indice è costruito su campi con lunghezza variabile, la somma delle dimensioni massime dei campi può superare i 900 byte , ma il valore delle somme per ciascun record non può superare i 900 byte. Ad esempio, una tabella ha due campi a lunghezza variabile di 500 byte ciascuno. SQL Server consente di creare una chiave composita basata su questi due campi se non sono presenti record la cui lunghezza per entrambi i campi superi i 900 byte. Vale la pena prestare attenzione al fatto che l'indice composito per (Colonna1, Colonna2) è diverso da (Colonna2, Colonna1), così come dagli indici creati separatamente su questi due campi.

Frammentazione dell'indice

I file del sistema operativo in genere si frammentano nel tempo a causa di scritture ripetute. Anche gli indici possono frammentarsi, ma la frammentazione degli indici è diversa dalla frammentazione dei file.

Quando crei un indice, tutti i valori delle chiavi dell'indice vengono scritti in modo ordinato nelle pagine dell'indice. Quando si elimina una riga da una tabella, SQL Server deve eliminare la voce corrispondente nell'indice, creando dei buchi nella pagina dell'indice. SQL Server non recupera lo spazio liberato perché il costo del rilevamento e del riutilizzo dei buchi nell'indice è troppo elevato. Se il valore nella tabella di base cambia, SQL Server sposta il record del puntatore in un'altra posizione, creando così un altro foro. Quando le pagine dell'indice diventano piene ed è necessaria la suddivisione della pagina, l'indice diventa nuovamente frammentato. Nel tempo, gli indici delle tabelle in cui si verificano le modifiche ai dati diventano frammentati.

Per controllare il grado di frammentazione dell'indice, viene comunemente utilizzato un parametro chiamato fattore di riempimento. Per eliminare la frammentazione, puoi anche utilizzare l'istruzione ALTER INDEX. Il fattore di riempimento è un parametro dell'indice che specifica la percentuale di spazio libero riservato su ciascuna pagina a livello foglia quando viene creato o ricostruito un indice. Lo spazio riservato consente di allocare valori aggiuntivi in futuro, riducendo così il numero di suddivisioni della pagina. Il fattore di riempimento viene misurato in percentuali intere; ad esempio, un valore di 75 significa che ogni pagina foglia creata deve contenere il 25% di spazio libero per accogliere i valori futuri.

Deframmentazione degli indici

Poiché SQL Server non restituisce spazio al sistema, è necessario recuperare periodicamente lo spazio vuoto nell'indice per mantenere i vantaggi in termini di prestazioni che hanno inizialmente creato l'indice. Per deframmentare gli indici, utilizzare l'istruzione ALTER INDEX.

ALTER INDEX ( nome_indice | TUTTI )

indice	indice
mucchio	un mucchio
tavolo	tavolo
visualizzazione	prestazione
B-albero	albero equilibrato
indice cluster	indice cluster
indice non cluster	indice non cluster
indice composito	indice composito
indice di copertura	indice di copertura
vincolo di chiave primaria	vincolo di chiave primaria
vincolo unico	restrizione sull’unicità dei valori
domanda	richiesta
motore di interrogazione	sottosistema di interrogazione
Banca dati	Banca dati
motore di base di dati	sottosistema di archiviazione
fattore di riempimento	fattore di riempimento dell'indice
chiave primaria surrogata	chiave primaria surrogata
ottimizzatore di query	ottimizzatore di query
selettività dell'indice	selettività dell'indice
indice filtrato	indice filtrabile
progetto esecutivo	progetto esecutivo

È possibile creare un indice su una tabella. Indici in SQL Server. È possibile creare un indice non cluster solo su un sottoinsieme specifico di dati di una colonna chiave

Indice per campi identificatore intero.

Indici semplici e composti per le query più comuni.

informazioni generali

Indici cluster

Indici non cluster

Linguaggio e indici Transact-SQL

Creazione di indici

Ottenere informazioni sulla frammentazione dell'indice

Modifica delle informazioni sull'indice

Modifica degli indici

Ricostruire l'indice

Riorganizzazione delle pagine dei nodi indice

Disabilita indice

Rimozione e ridenominazione degli indici

Indici e condizioni delle clausole WHERE

Indici e operatore di join

Indice di copertura

Indici su colonne calcolate

Colonne calcolate virtuali

Colonne calcolate costanti

Terminologia utilizzata:

Nozioni di base sugli indici in SQL Server.

Indice cluster

Indice non cluster

Tipi di indici

Indice composito

Indice univoco

Indice di copertura

Progettare indici

Banca dati

Interrogazioni del database

Perché una tabella non può avere due indici cluster?

Se una tabella in cluster offre molti vantaggi, perché utilizzare un heap?

Come posso modificare il fattore di riempimento dell'indice predefinito?

È possibile creare un indice cluster su una colonna che contiene duplicati?

Come viene archiviata la tabella se non è stato creato un indice cluster?

Qual è la relazione tra i vincoli di unicità del valore e una chiave primaria con gli indici di tabella?

Perché gli indici cluster e non cluster sono chiamati albero B in SQL Server?

Come può un indice migliorare le prestazioni delle query se è necessario attraversare tutti questi nodi dell'indice?

Se gli indici sono così fantastici, perché non crearne uno su ogni colonna?

È necessario creare un indice cluster su una colonna con una chiave primaria?

Cosa succede se indicizzi una vista, è ancora una vista?

Perché utilizzare un indice di copertura invece di un indice composito?

Il numero di duplicati in una colonna chiave è importante?

È possibile creare un indice non cluster solo su un sottoinsieme specifico di dati di una colonna chiave?