主頁 > 知識庫 > 大數(shù)據(jù)量高并發(fā)的數(shù)據(jù)庫優(yōu)化詳解

大數(shù)據(jù)量高并發(fā)的數(shù)據(jù)庫優(yōu)化詳解

熱門標簽:百度競價排名 鐵路電話系統(tǒng) 服務(wù)外包 Linux服務(wù)器 地方門戶網(wǎng)站 網(wǎng)站排名優(yōu)化 呼叫中心市場需求 AI電銷

如果不能設(shè)計一個合理的數(shù)據(jù)庫模型,不僅會增加客戶端和服務(wù)器段程序的編程和維護的難度,而且將會影響系統(tǒng)實際運行的性能。所以,在一個系統(tǒng)開始實施之前,完備的數(shù)據(jù)庫模型的設(shè)計是必須的。

一、數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計

在一個系統(tǒng)分析、設(shè)計階段,因為數(shù)據(jù)量較小,負荷較低。我們往往只注意到功能的實現(xiàn),而很難注意到性能的薄弱之處,等到系統(tǒng)投入實際運行一段時間后,才發(fā)現(xiàn)系統(tǒng)的性能在降低,這時再來考慮提高系統(tǒng)性能則要花費更多的人力物力,而整個系統(tǒng)也不可避免的形成了一個打補丁工程。

所以在考慮整個系統(tǒng)的流程的時候,我們必須要考慮,在高并發(fā)大數(shù)據(jù)量的訪問情況下,我們的系統(tǒng)會不會出現(xiàn)極端的情況。(例如:對外統(tǒng)計系統(tǒng)在7月16日出現(xiàn)的數(shù)據(jù)異常的情況,并發(fā)大數(shù)據(jù)量的的訪問造成,數(shù)據(jù)庫的響應(yīng)時間不能跟上數(shù)據(jù)刷新的速度造成。具體情況是:在日期臨界時(00:00:00),判斷數(shù)據(jù)庫中是否有當前日期的記錄,沒有則插入一條當前日期的記錄。在低并發(fā)訪問的情況下,不會發(fā)生問題,但是當日期臨界時的訪問量相當大的時候,在做這一判斷的時候,會出現(xiàn)多次條件成立,則數(shù)據(jù)庫里會被插入多條當前日期的記錄,從而造成數(shù)據(jù)錯誤。),數(shù)據(jù)庫的模型確定下來之后,我們有必要做一個系統(tǒng)內(nèi)數(shù)據(jù)流向圖,分析可能出現(xiàn)的瓶頸。

為了保證數(shù)據(jù)庫的一致性和完整性,在邏輯設(shè)計的時候往往會設(shè)計過多的表間關(guān)聯(lián),盡可能的降低數(shù)據(jù)的冗余。(例如用戶表的地區(qū),我們可以把地區(qū)另外存放到一個地區(qū)表中)如果數(shù)據(jù)冗余低,數(shù)據(jù)的完整性容易得到保證,提高了數(shù)據(jù)吞吐速度,保證了數(shù)據(jù)的完整性,清楚地表達數(shù)據(jù)元素之間的關(guān)系。而對于多表之間的關(guān)聯(lián)查詢(尤其是大數(shù)據(jù)表)時,其性能將會降低,同時也提高了客戶端程序的編程難度,因此,物理設(shè)計需折衷考慮,根據(jù)業(yè)務(wù)規(guī)則,確定對關(guān)聯(lián)表的數(shù)據(jù)量大小、數(shù)據(jù)項的訪問頻度,對此類數(shù)據(jù)表頻繁的關(guān)聯(lián)查詢應(yīng)適當提高數(shù)據(jù)冗余設(shè)計但增加了表間連接查詢的操作,也使得程序的變得復(fù)雜,為了提高系統(tǒng)的響應(yīng)時間,合理的數(shù)據(jù)冗余也是必要的。設(shè)計人員在設(shè)計階段應(yīng)根據(jù)系統(tǒng)操作的類型、頻度加以均衡考慮。
另外,最好不要用自增屬性字段作為主鍵與子表關(guān)聯(lián)。不便于系統(tǒng)的遷移和數(shù)據(jù)恢復(fù)。對外統(tǒng)計系統(tǒng)映射關(guān)系丟失(******************)。

原來的表格必須可以通過由它分離出去的表格重新構(gòu)建。使用這個規(guī)定的好處是,你可以確保不會在分離的表格中引入多余的列,所有你創(chuàng)建的表格結(jié)構(gòu)都與它們的實際需要一樣大。應(yīng)用這條規(guī)定是一個好習慣,不過除非你要處理一個非常大型的數(shù)據(jù),否則你將不需要用到它。(例如一個通行證系統(tǒng),我可以將USERID,USERNAME,USERPASSWORD,單獨出來作個表,再把USERID作為其他表的外鍵)

表的設(shè)計具體注意的問題:

1、數(shù)據(jù)行的長度不要超過8020字節(jié),如果超過這個長度的話在物理頁中這條數(shù)據(jù)會占用兩行從而造成存儲碎片,降低查詢效率。
2、能夠用數(shù)字類型的字段盡量選擇數(shù)字類型而不用字符串類型的(電話號碼),這會降低查詢和連接的性能,并會增加存儲開銷。這是因為引擎在處理查詢和連接回逐個比較字符串中每一個字符,而對于數(shù)字型而言只需要比較一次就夠了。

3、對于不可變字符類型char和可變字符類型varchar 都是8000字節(jié),char查詢快,但是耗存儲空間,varchar查詢相對慢一些但是節(jié)省存儲空間。在設(shè)計字段的時候可以靈活選擇,例如用戶名、密碼等長度變化不大的字段可以選擇CHAR,對于評論等長度變化大的字段可以選擇VARCHAR。

4、字段的長度在最大限度的滿足可能的需要的前提下,應(yīng)該盡可能的設(shè)得短一些,這樣可以提高查詢的效率,而且在建立索引的時候也可以減少資源的消耗。


二、查詢的優(yōu)化

保證在實現(xiàn)功能的基礎(chǔ)上,盡量減少對數(shù)據(jù)庫的訪問次數(shù);通過搜索參數(shù),盡量減少對表的訪問行數(shù),最小化結(jié)果集,從而減輕網(wǎng)絡(luò)負擔;能夠分開的操作盡量分開處理,提高每次的響應(yīng)速度;在數(shù)據(jù)窗口使用SQL時,盡量把使用的索引放在選擇的首列;算法的結(jié)構(gòu)盡量簡單;在查詢時,不要過多地使用通配符如SELECT * FROM T1語句,要用到幾列就選擇幾列如:SELECT COL1,COL2 FROM T1;在可能的情況下盡量限制盡量結(jié)果集行數(shù)如:SELECT TOP 300 COL1,COL2,COL3 FROM T1,因為某些情況下用戶是不需要那么多的數(shù)據(jù)的。
在沒有建索引的情況下,數(shù)據(jù)庫查找某一條數(shù)據(jù),就必須進行全表掃描了,對所有數(shù)據(jù)進行一次遍歷,查找出符合條件的記錄。在數(shù)據(jù)量比較小的情況下,也許看不出明顯的差別,但是當數(shù)據(jù)量大的情況下,這種情況就是極為糟糕的了。
SQL語句在SQL SERVER中是如何執(zhí)行的,他們擔心自己所寫的SQL語句會被SQL SERVER誤解。比如:

select * from table1 where name='zhangsan' and tID > 10000 

和執(zhí)行:

select * from table1 where tID > 10000 and name='zhangsan' 

一些人不知道以上兩條語句的執(zhí)行效率是否一樣,因為如果簡單的從語句先后上看,這兩個語句的確是不一樣,如果tID是一個聚合索引,那么后一句僅僅從表的10000條以后的記錄中查找就行了;而前一句則要先從全表中查找看有幾個name='zhangsan'的,而后再根據(jù)限制條件條件tID>10000來提出查詢結(jié)果。
事實上,這樣的擔心是不必要的。SQL SERVER中有一個“查詢分析優(yōu)化器”,它可以計算出where子句中的搜索條件并確定哪個索引能縮小表掃描的搜索空間,也就是說,它能實現(xiàn)自動優(yōu)化。雖然查詢優(yōu)化器可以根據(jù)where子句自動的進行查詢優(yōu)化,但有時查詢優(yōu)化器就會不按照您的本意進行快速查詢。
在查詢分析階段,查詢優(yōu)化器查看查詢的每個階段并決定限制需要掃描的數(shù)據(jù)量是否有用。如果一個階段可以被用作一個掃描參數(shù)(SARG),那么就稱之為可優(yōu)化的,并且可以利用索引快速獲得所需數(shù)據(jù)。
SARG的定義:用于限制搜索的一個操作,因為它通常是指一個特定的匹配,一個值的范圍內(nèi)的匹配或者兩個以上條件的AND連接。形式如下:
列名 操作符 常數(shù) 或 變量> 或 常數(shù) 或 變量> 操作符 列名
列名可以出現(xiàn)在操作符的一邊,而常數(shù)或變量出現(xiàn)在操作符的另一邊。如:
Name='張三'
價格>5000
5000價格
Name='張三' and 價格>5000
如果一個表達式不能滿足SARG的形式,那它就無法限制搜索的范圍了,也就是SQL SERVER必須對每一行都判斷它是否滿足WHERE子句中的所有條件。所以一個索引對于不滿足SARG形式的表達式來說是無用的。
所以,優(yōu)化查詢最重要的就是,盡量使語句符合查詢優(yōu)化器的規(guī)則避免全表掃描而使用索引查詢。

具體要注意的:

1.應(yīng)盡量避免在 where 子句中對字段進行 null 值判斷,否則將導(dǎo)致引擎放棄使用索引而進行全表掃描,如:

select id from t where num is null

可以在num上設(shè)置默認值0,確保表中num列沒有null值,然后這樣查詢:

select id from t where num=0

2.應(yīng)盡量避免在 where 子句中使用!=或>操作符,否則將引擎放棄使用索引而進行全表掃描。優(yōu)化器將無法通過索引來確定將要命中的行數(shù),因此需要搜索該表的所有行。

3.應(yīng)盡量避免在 where 子句中使用 or 來連接條件,否則將導(dǎo)致引擎放棄使用索引而進行全表掃描,如:

select id from t where num=10 or num=20

可以這樣查詢:

select id from t where num=10
union all
select id from t where num=20

4.in 和 not in 也要慎用,因為IN會使系統(tǒng)無法使用索引,而只能直接搜索表中的數(shù)據(jù)。如:

select id from t where num in(1,2,3)

對于連續(xù)的數(shù)值,能用 between 就不要用 in 了:

select id from t where num between 1 and 3

5.盡量避免在索引過的字符數(shù)據(jù)中,使用非打頭字母搜索。這也使得引擎無法利用索引。
見如下例子:

SELECT * FROM T1 WHERE NAME LIKE ‘%L%' 
SELECT * FROM T1 WHERE SUBSTING(NAME,2,1)='L' 
SELECT * FROM T1 WHERE NAME LIKE ‘L%' 

即使NAME字段建有索引,前兩個查詢依然無法利用索引完成加快操作,引擎不得不對全表所有數(shù)據(jù)逐條操作來完成任務(wù)。而第三個查詢能夠使用索引來加快操作。

6.必要時強制查詢優(yōu)化器使用某個索引,如在 where 子句中使用參數(shù),也會導(dǎo)致全表掃描。因為SQL只有在運行時才會解析局部變量,但優(yōu)化程序不能將訪問計劃的選擇推遲到運行時;它必須在編譯時進行選擇。然而,如果在編譯時建立訪問計劃,變量的值還是未知的,因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描:

select id from t where num=@num


可以改為強制查詢使用索引:

select id from t with(index(索引名)) where num=@num

7.應(yīng)盡量避免在 where 子句中對字段進行表達式操作,這將導(dǎo)致引擎放棄使用索引而進行全表掃描。如:

SELECT * FROM T1 WHERE F1/2=100 

應(yīng)改為:

SELECT * FROM T1 WHERE F1=100*2
SELECT * FROM RECORD WHERE SUBSTRING(CARD_NO,1,4)='5378' 


應(yīng)改為:

SELECT * FROM RECORD WHERE CARD_NO LIKE ‘5378%'
SELECT member_number, first_name, last_name FROM members 
WHERE DATEDIFF(yy,datofbirth,GETDATE()) > 21 

應(yīng)改為:

SELECT member_number, first_name, last_name FROM members 
WHERE dateofbirth  DATEADD(yy,-21,GETDATE()) 

即:任何對列的操作都將導(dǎo)致表掃描,它包括數(shù)據(jù)庫函數(shù)、計算表達式等等,查詢時要盡可能將操作移至等號右邊。

8.應(yīng)盡量避免在where子句中對字段進行函數(shù)操作,這將導(dǎo)致引擎放棄使用索引而進行全表掃描。如:

select id from t where substring(name,1,3)='abc'--name以abc開頭的id
select id from t where datediff(day,createdate,'2005-11-30')=0--‘2005-11-30'生成的id

應(yīng)改為:

select id from t where name like 'abc%'
select id from t where createdate>='2005-11-30' and createdate'2005-12-1'

9.不要在 where 子句中的“=”左邊進行函數(shù)、算術(shù)運算或其他表達式運算,否則系統(tǒng)將可能無法正確使用索引。

10.在使用索引字段作為條件時,如果該索引是復(fù)合索引,那么必須使用到該索引中的第一個字段作為條件時才能保證系統(tǒng)使用該索引,否則該索引將不會被使用,并且應(yīng)盡可能的讓字段順序與索引順序相一致。

11.很多時候用 exists是一個好的選擇:

select num from a where num in(select num from b)


用下面的語句替換:

select num from a where exists(select 1 from b where num=a.num)

SELECT SUM(T1.C1)FROM T1 WHERE( 
(SELECT COUNT(*)FROM T2 WHERE T2.C2=T1.C2>0) 
SELECT SUM(T1.C1) FROM T1WHERE EXISTS( 
SELECT * FROM T2 WHERE T2.C2=T1.C2) 

兩者產(chǎn)生相同的結(jié)果,但是后者的效率顯然要高于前者。因為后者不會產(chǎn)生大量鎖定的表掃描或是索引掃描。

如果你想校驗表里是否存在某條紀錄,不要用count(*)那樣效率很低,而且浪費服務(wù)器資源。可以用EXISTS代替。如:

IF (SELECT COUNT(*) FROM table_name WHERE column_name = 'xxx') 

可以寫成:

IF EXISTS (SELECT * FROM table_name WHERE column_name = 'xxx')

經(jīng)常需要寫一個T_SQL語句比較一個父結(jié)果集和子結(jié)果集,從而找到是否存在在父結(jié)果集中有而在子結(jié)果集中沒有的記錄,如:

SELECT a.hdr_key FROM hdr_tbl a---- tbl a 表示tbl用別名a代替 
WHERE NOT EXISTS (SELECT * FROM dtl_tbl b WHERE a.hdr_key = b.hdr_key) 
SELECT a.hdr_key FROM hdr_tbl a 
LEFT JOIN dtl_tbl b ON a.hdr_key = b.hdr_key WHERE b.hdr_key IS NULL 
SELECT hdr_key FROM hdr_tbl 
WHERE hdr_key NOT IN (SELECT hdr_key FROM dtl_tbl) 

三種寫法都可以得到同樣正確的結(jié)果,但是效率依次降低。

12.盡量使用表變量來代替臨時表。如果表變量包含大量數(shù)據(jù),請注意索引非常有限(只有主鍵索引)。

13.避免頻繁創(chuàng)建和刪除臨時表,以減少系統(tǒng)表資源的消耗。

14.臨時表并不是不可使用,適當?shù)厥褂盟鼈兛梢允鼓承├谈行В?,當需要重?fù)引用大型表或常用表中的某個數(shù)據(jù)集時。但是,對于一次性事件,最好使用導(dǎo)出表。

15.在新建臨時表時,如果一次性插入數(shù)據(jù)量很大,那么可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果數(shù)據(jù)量不大,為了緩和系統(tǒng)表的資源,應(yīng)先create table,然后insert。

16.如果使用到了臨時表,在存儲過程的最后務(wù)必將所有的臨時表顯式刪除,先 truncate table ,然后 drop table ,這樣可以避免系統(tǒng)表的較長時間鎖定。

17.在所有的存儲過程和觸發(fā)器的開始處設(shè)置 SET NOCOUNT ON ,在結(jié)束時設(shè)置 SET NOCOUNT OFF 。無需在執(zhí)行存儲過程和觸發(fā)器的每個語句后向客戶端發(fā)送 DONE_IN_PROC 消息。

18.盡量避免大事務(wù)操作,提高系統(tǒng)并發(fā)能力。

19.盡量避免向客戶端返回大數(shù)據(jù)量,若數(shù)據(jù)量過大,應(yīng)該考慮相應(yīng)需求是否合理。

20. 避免使用不兼容的數(shù)據(jù)類型。例如float和int、char和varchar、binary和varbinary是不兼容的。數(shù)據(jù)類型的不兼容可能使優(yōu)化器無法執(zhí)行一些本來可以進行的優(yōu)化操作。例如:

SELECT name FROM employee WHERE salary > 60000 

在這條語句中,如salary字段是money型的,則優(yōu)化器很難對其進行優(yōu)化,因為60000是個整型數(shù)。我們應(yīng)當在編程時將整型轉(zhuǎn)化成為錢幣型,而不要等到運行時轉(zhuǎn)化。

21.充分利用連接條件,在某種情況下,兩個表之間可能不只一個的連接條件,這時在 WHERE 子句中將連接條件完整的寫上,有可能大大提高查詢速度。
例:

SELECT SUM(A.AMOUNT) FROM ACCOUNT A,CARD B WHERE A.CARD_NO = B.CARD_NO 
SELECT SUM(A.AMOUNT) FROM ACCOUNT A,CARD B WHERE A.CARD_NO = B.CARD_NO AND A.ACCOUNT_NO=B.ACCOUNT_NO 

第二句將比第一句執(zhí)行快得多。

22、使用視圖加速查詢
把表的一個子集進行排序并創(chuàng)建視圖,有時能加速查詢。它有助于避免多重排序 操作,而且在其他方面還能簡化優(yōu)化器的工作。例如:

SELECT cust.name,rcvbles.balance,……other columns 
FROM cust,rcvbles 
WHERE cust.customer_id = rcvlbes.customer_id 
AND rcvblls.balance>0 
AND cust.postcode>“98000” 
ORDER BY cust.name

如果這個查詢要被執(zhí)行多次而不止一次,可以把所有未付款的客戶找出來放在一個視圖中,并按客戶的名字進行排序:

CREATE VIEW DBO.V_CUST_RCVLBES 
AS 
SELECT cust.name,rcvbles.balance,……other columns 
FROM cust,rcvbles 
WHERE cust.customer_id = rcvlbes.customer_id 
AND rcvblls.balance>0 
ORDER BY cust.name 

然后以下面的方式在視圖中查詢:

SELECT * FROM V_CUST_RCVLBES 
WHERE postcode>“98000” 

視圖中的行要比主表中的行少,而且物理順序就是所要求的順序,減少了磁盤I/O,所以查詢工作量可以得到大幅減少。

23、能用DISTINCT的就不用GROUP BY

SELECT OrderID FROM Details WHERE UnitPrice > 10 GROUP BY OrderID 

可改為:

SELECT DISTINCT OrderID FROM Details WHERE UnitPrice > 10

24.能用UNION ALL就不要用UNION
UNION ALL不執(zhí)行SELECT DISTINCT函數(shù),這樣就會減少很多不必要的資源

25.盡量不要用SELECT INTO語句。
SELECT INOT 語句會導(dǎo)致表鎖定,阻止其他用戶訪問該表。

上面我們提到的是一些基本的提高查詢速度的注意事項,但是在更多的情況下,往往需要反復(fù)試驗比較不同的語句以得到最佳方案。最好的方法當然是測試,看實現(xiàn)相同功能的SQL語句哪個執(zhí)行時間最少,但是數(shù)據(jù)庫中如果數(shù)據(jù)量很少,是比較不出來的,這時可以用查看執(zhí)行計劃,即:把實現(xiàn)相同功能的多條SQL語句考到查詢分析器,按CTRL+L看查所利用的索引,表掃描次數(shù)(這兩個對性能影響最大),總體上看詢成本百分比即可。

三、算法的優(yōu)化

盡量避免使用游標,因為游標的效率較差,如果游標操作的數(shù)據(jù)超過1萬行,那么就應(yīng)該考慮改寫。.使用基于游標的方法或臨時表方法之前,應(yīng)先尋找基于集的解決方案來解決問題,基于集的方法通常更有效。與臨時表一樣,游標并不是不可使用。對小型數(shù)據(jù)集使用 FAST_FORWARD 游標通常要優(yōu)于其他逐行處理方法,尤其是在必須引用幾個表才能獲得所需的數(shù)據(jù)時。在結(jié)果集中包括“合計”的例程通常要比使用游標執(zhí)行的速度快。如果開發(fā)時間允許,基于游標的方法和基于集的方法都可以嘗試一下,看哪一種方法的效果更好。
  游標提供了對特定集合中逐行掃描的手段,一般使用游標逐行遍歷數(shù)據(jù),根據(jù)取出的數(shù)據(jù)不同條件進行不同的操作。尤其對多表和大表定義的游標(大的數(shù)據(jù)集合)循環(huán)很容易使程序進入一個漫長的等特甚至死機。
  在有些場合,有時也非得使用游標,此時也可考慮將符合條件的數(shù)據(jù)行轉(zhuǎn)入臨時表中,再對臨時表定義游標進行操作,可時性能得到明顯提高。
(例如:對內(nèi)統(tǒng)計第一版)
封裝存儲過程

四、建立高效的索引

  創(chuàng)建索引一般有以下兩個目的:維護被索引列的唯一性和提供快速訪問表中數(shù)據(jù)的策略。大型數(shù)據(jù)庫有兩種索引即簇索引和非簇索引,一個沒有簇索引的表是按堆結(jié)構(gòu)存儲數(shù)據(jù),所有的數(shù)據(jù)均添加在表的尾部,而建立了簇索引的表,其數(shù)據(jù)在物理上會按照簇索引鍵的順序存儲,一個表只允許有一個簇索引,因此,根據(jù)B樹結(jié)構(gòu),可以理解添加任何一種索引均能提高按索引列查詢的速度,但會降低插入、更新、刪除操作的性能,尤其是當填充因子(Fill Factor)較大時。所以對索引較多的表進行頻繁的插入、更新、刪除操作,建表和索引時因設(shè)置較小的填充因子,以便在各數(shù)據(jù)頁中留下較多的自由空間,減少頁分割及重新組織的工作。
索引是從數(shù)據(jù)庫中獲取數(shù)據(jù)的最高效方式之一。95% 的數(shù)據(jù)庫性能問題都可以采用索引技術(shù)得到解決。作為一條規(guī)則,我通常對邏輯主鍵使用唯一的成組索引,對系統(tǒng)鍵(作為存儲過程)采用唯一的非成組索引,對任何外鍵列[字段]采用非成組索引。不過,索引就象是鹽,太多了菜就咸了。你得考慮數(shù)據(jù)庫的空間有多大,表如何進行訪問,還有這些訪問是否主要用作讀寫。
實際上,您可以把索引理解為一種特殊的目錄。微軟的SQL SERVER提供了兩種索引:聚集索引(clustered index,也稱聚類索引、簇集索引)和非聚集索引(nonclustered index,也稱非聚類索引、非簇集索引)。下面,我們舉例來說明一下聚集索引和非聚集索引的區(qū)別:
其實,我們的漢語字典的正文本身就是一個聚集索引。比如,我們要查“安”字,就會很自然地翻開字典的前幾頁,因為“安”的拼音是“an”,而按照拼音排序漢字的字典是以英文字母“a”開頭并以“z”結(jié)尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”開頭的部分仍然找不到這個字,那么就說明您的字典中沒有這個字;同樣的,如果查“張”字,那您也會將您的字典翻到最后部分,因為“張”的拼音是“zhang”。也就是說,字典的正文部分本身就是一個目錄,您不需要再去查其他目錄來找到您需要找的內(nèi)容。
我們把這種正文內(nèi)容本身就是一種按照一定規(guī)則排列的目錄稱為“聚集索引”。
如果您認識某個字,您可以快速地從自動中查到這個字。但您也可能會遇到您不認識的字,不知道它的發(fā)音,這時候,您就不能按照剛才的方法找到您要查的字,而需要去根據(jù)“偏旁部首”查到您要找的字,然后根據(jù)這個字后的頁碼直接翻到某頁來找到您要找的字。但您結(jié)合“部首目錄”和“檢字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“張”字,我們可以看到在查部首之后的檢字表中“張”的頁碼是672頁,檢字表中“張”的上面是“馳”字,但頁碼卻是63頁,“張”的下面是“弩”字,頁面是390頁。很顯然,這些字并不是真正的分別位于“張”字的上下方,現(xiàn)在您看到的連續(xù)的“馳、張、弩”三字實際上就是他們在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我們可以通過這種方式來找到您所需要的字,但它需要兩個過程,先找到目錄中的結(jié)果,然后再翻到您所需要的頁碼。
我們把這種目錄純粹是目錄,正文純粹是正文的排序方式稱為“非聚集索引”。
進一步引申一下,我們可以很容易的理解:每個表只能有一個聚集索引,因為目錄只能按照一種方法進行排序。

(一)何時使用聚集索引或非聚集索引
下面的表總結(jié)了何時使用聚集索引或非聚集索引(很重要)。
動作描述 使用聚集索引 使用非聚集索引
列經(jīng)常被分組排序 應(yīng) 應(yīng)
返回某范圍內(nèi)的數(shù)據(jù) 應(yīng) 不應(yīng)
一個或極少不同值 不應(yīng) 不應(yīng)
小數(shù)目的不同值 應(yīng) 不應(yīng)
大數(shù)目的不同值 不應(yīng) 應(yīng)
頻繁更新的列 不應(yīng) 應(yīng)
外鍵列 應(yīng) 應(yīng)
主鍵列 應(yīng) 應(yīng)
頻繁修改索引列 不應(yīng) 應(yīng)


事實上,我們可以通過前面聚集索引和非聚集索引的定義的例子來理解上表。如:返回某范圍內(nèi)的數(shù)據(jù)一項。比如您的某個表有一個時間列,恰好您把聚合索引建立在了該列,這時您查詢2004年1月1日至2004年10月1日之間的全部數(shù)據(jù)時,這個速度就將是很快的,因為您的這本字典正文是按日期進行排序的,聚類索引只需要找到要檢索的所有數(shù)據(jù)中的開頭和結(jié)尾數(shù)據(jù)即可;而不像非聚集索引,必須先查到目錄中查到每一項數(shù)據(jù)對應(yīng)的頁碼,然后再根據(jù)頁碼查到具體內(nèi)容。


(二)結(jié)合實際,談索引使用的誤區(qū)

理論的目的是應(yīng)用。雖然我們剛才列出了何時應(yīng)使用聚集索引或非聚集索引,但在實踐中以上規(guī)則卻很容易被忽視或不能根據(jù)實際情況進行綜合分析。下面我們將根據(jù)在實踐中遇到的實際問題來談一下索引使用的誤區(qū),以便于大家掌握索引建立的方法。
1、主鍵就是聚集索引
這種想法筆者認為是極端錯誤的,是對聚集索引的一種浪費。雖然SQL SERVER默認是在主鍵上建立聚集索引的。
通常,我們會在每個表中都建立一個ID列,以區(qū)分每條數(shù)據(jù),并且這個ID列是自動增大的,步長一般為1。我們的這個辦公自動化的實例中的列Gid就是如此。此時,如果我們將這個列設(shè)為主鍵,SQL SERVER會將此列默認為聚集索引。這樣做有好處,就是可以讓您的數(shù)據(jù)在數(shù)據(jù)庫中按照ID進行物理排序,但筆者認為這樣做意義不大。
顯而易見,聚集索引的優(yōu)勢是很明顯的,而每個表中只能有一個聚集索引的規(guī)則,這使得聚集索引變得更加珍貴。
從我們前面談到的聚集索引的定義我們可以看出,使用聚集索引的最大好處就是能夠根據(jù)查詢要求,迅速縮小查詢范圍,避免全表掃描。在實際應(yīng)用中,因為ID號是自動生成的,我們并不知道每條記錄的ID號,所以我們很難在實踐中用ID號來進行查詢。這就使讓ID號這個主鍵作為聚集索引成為一種資源浪費。其次,讓每個ID號都不同的字段作為聚集索引也不符合“大數(shù)目的不同值情況下不應(yīng)建立聚合索引”規(guī)則;當然,這種情況只是針對用戶經(jīng)常修改記錄內(nèi)容,特別是索引項的時候會負作用,但對于查詢速度并沒有影響。
在辦公自動化系統(tǒng)中,無論是系統(tǒng)首頁顯示的需要用戶簽收的文件、會議還是用戶進行文件查詢等任何情況下進行數(shù)據(jù)查詢都離不開字段的是“日期”還有用戶本身的“用戶名”。
通常,辦公自動化的首頁會顯示每個用戶尚未簽收的文件或會議。雖然我們的where語句可以僅僅限制當前用戶尚未簽收的情況,但如果您的系統(tǒng)已建立了很長時間,并且數(shù)據(jù)量很大,那么,每次每個用戶打開首頁的時候都進行一次全表掃描,這樣做意義是不大的,絕大多數(shù)的用戶1個月前的文件都已經(jīng)瀏覽過了,這樣做只能徒增數(shù)據(jù)庫的開銷而已。事實上,我們完全可以讓用戶打開系統(tǒng)首頁時,數(shù)據(jù)庫僅僅查詢這個用戶近3個月來未閱覽的文件,通過“日期”這個字段來限制表掃描,提高查詢速度。如果您的辦公自動化系統(tǒng)已經(jīng)建立的2年,那么您的首頁顯示速度理論上將是原來速度8倍,甚至更快。

2、只要建立索引就能顯著提高查詢速度
事實上,我們可以發(fā)現(xiàn)上面的例子中,第2、3條語句完全相同,且建立索引的字段也相同;不同的僅是前者在fariqi字段上建立的是非聚合索引,后者在此字段上建立的是聚合索引,但查詢速度卻有著天壤之別。所以,并非是在任何字段上簡單地建立索引就能提高查詢速度。
從建表的語句中,我們可以看到這個有著1000萬數(shù)據(jù)的表中fariqi字段有5003個不同記錄。在此字段上建立聚合索引是再合適不過了。在現(xiàn)實中,我們每天都會發(fā)幾個文件,這幾個文件的發(fā)文日期就相同,這完全符合建立聚集索引要求的:“既不能絕大多數(shù)都相同,又不能只有極少數(shù)相同”的規(guī)則。由此看來,我們建立“適當”的聚合索引對于我們提高查詢速度是非常重要的。

3、把所有需要提高查詢速度的字段都加進聚集索引,以提高查詢速度
上面已經(jīng)談到:在進行數(shù)據(jù)查詢時都離不開字段的是“日期”還有用戶本身的“用戶名”。既然這兩個字段都是如此的重要,我們可以把他們合并起來,建立一個復(fù)合索引(compound index)。
很多人認為只要把任何字段加進聚集索引,就能提高查詢速度,也有人感到迷惑:如果把復(fù)合的聚集索引字段分開查詢,那么查詢速度會減慢嗎?帶著這個問題,我們來看一下以下的查詢速度(結(jié)果集都是25萬條數(shù)據(jù)):(日期列fariqi首先排在復(fù)合聚集索引的起始列,用戶名neibuyonghu排在后列)
我們可以看到如果僅用聚集索引的起始列作為查詢條件和同時用到復(fù)合聚集索引的全部列的查詢速度是幾乎一樣的,甚至比用上全部的復(fù)合索引列還要略快(在查詢結(jié)果集數(shù)目一樣的情況下);而如果僅用復(fù)合聚集索引的非起始列作為查詢條件的話,這個索引是不起任何作用的。當然,語句1、2的查詢速度一樣是因為查詢的條目數(shù)一樣,如果復(fù)合索引的所有列都用上,而且查詢結(jié)果少的話,這樣就會形成“索引覆蓋”,因而性能可以達到最優(yōu)。同時,請記?。簾o論您是否經(jīng)常使用聚合索引的其他列,但其前導(dǎo)列一定要是使用最頻繁的列。

(三)其他注意事項
“水可載舟,亦可覆舟”,索引也一樣。索引有助于提高檢索性能,但過多或不當?shù)乃饕矔?dǎo)致系統(tǒng)低效。因為用戶在表中每加進一個索引,數(shù)據(jù)庫就要做更多的工作。過多的索引甚至會導(dǎo)致索引碎片。
所以說,我們要建立一個“適當”的索引體系,特別是對聚合索引的創(chuàng)建,更應(yīng)精益求精,以使您的數(shù)據(jù)庫能得到高性能的發(fā)揮

以上就是本文的全部內(nèi)容,希望能對大家優(yōu)化大數(shù)據(jù)量高并發(fā)的數(shù)據(jù)庫有所幫助。

您可能感興趣的文章:
  • 大數(shù)據(jù)量時提高分頁的效率
  • 數(shù)據(jù)庫高并發(fā)情況下重復(fù)值寫入的避免 字段組合約束
  • 大數(shù)據(jù)量分頁存儲過程效率測試附測試代碼與結(jié)果
  • 大數(shù)據(jù)量,海量數(shù)據(jù)處理方法總結(jié)
  • MySQL數(shù)據(jù)庫優(yōu)化經(jīng)驗詳談(服務(wù)器普通配置)
  • MySQL數(shù)據(jù)庫十大優(yōu)化技巧
  • SQL Server數(shù)據(jù)庫的高性能優(yōu)化經(jīng)驗總結(jié)
  • sql 存儲過程分頁代碼 支持億萬龐大數(shù)據(jù)量
  • 數(shù)據(jù)庫性能優(yōu)化三:程序操作優(yōu)化提升性能
  • 數(shù)據(jù)庫性能優(yōu)化二:數(shù)據(jù)庫表優(yōu)化提升性能
  • 數(shù)據(jù)庫性能優(yōu)化一:數(shù)據(jù)庫自身優(yōu)化提升性能
  • Oracle 數(shù)據(jù)庫優(yōu)化實戰(zhàn)心得總結(jié)
  • 優(yōu)化mysql數(shù)據(jù)庫的經(jīng)驗總結(jié)
  • mysql數(shù)據(jù)庫優(yōu)化總結(jié)(心得)
  • 關(guān)于數(shù)據(jù)庫優(yōu)化問題收集匯總
  • oracle數(shù)據(jù)庫sql的優(yōu)化總結(jié)
  • sql 百萬級數(shù)據(jù)庫優(yōu)化方案分享
  • 優(yōu)化Mysql數(shù)據(jù)庫的8個方法
  • mysql數(shù)據(jù)庫sql優(yōu)化原則(經(jīng)驗總結(jié))
  • 針對Sqlserver大數(shù)據(jù)量插入速度慢或丟失數(shù)據(jù)的解決方法
  • MySQL數(shù)據(jù)庫優(yōu)化詳解
  • MySQL中實現(xiàn)高性能高并發(fā)計數(shù)器方案(例如文章點擊數(shù))
  • 超大數(shù)據(jù)量存儲常用數(shù)據(jù)庫分表分庫算法總結(jié)
  • sqlserver數(shù)據(jù)庫優(yōu)化解析(圖文剖析)
  • 詳解MySQL性能優(yōu)化(一)
  • 詳解MySQL性能優(yōu)化(二)
  • 19個MySQL性能優(yōu)化要點解析

標簽:崇左 湖南 黃山 衡水 蘭州 湘潭 銅川 仙桃

巨人網(wǎng)絡(luò)通訊聲明:本文標題《大數(shù)據(jù)量高并發(fā)的數(shù)據(jù)庫優(yōu)化詳解》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266