Q:一個業(yè)務(wù)服務(wù)器,一個數(shù)據(jù)庫,操作:查詢用戶當(dāng)前余額,扣除當(dāng)前余額的3%作為手續(xù)費(fèi)
Q:兩個業(yè)務(wù)服務(wù)器,一個數(shù)據(jù)庫,操作:查詢用戶當(dāng)前余額,扣除當(dāng)前余額的3%作為手續(xù)費(fèi)
我們需要怎么樣的分布式鎖?
- 可以保證在分布式部署的應(yīng)用集群中,同一個方法在同一時間只能被一臺機(jī)器上的一個線程執(zhí)行。
- 這把鎖要是一把可重入鎖(避免死鎖)
- 這把鎖最好是一把阻塞鎖(根據(jù)業(yè)務(wù)需求考慮要不要這條)
- 這把鎖最好是一把公平鎖(根據(jù)業(yè)務(wù)需求考慮要不要這條)
- 有高可用的獲取鎖和釋放鎖功能
- 獲取鎖和釋放鎖的性能要好
一、基于數(shù)據(jù)庫實(shí)現(xiàn)的分布式鎖
基于表實(shí)現(xiàn)的分布式鎖
CREATE TABLE `methodLock` (
`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵',
`method_name` varchar(64) NOT NULL DEFAULT '' COMMENT '鎖定的方法名',
`desc` varchar(1024) NOT NULL DEFAULT '備注信息',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '保存數(shù)據(jù)時間,自動生成',
PRIMARY KEY (`id`),
UNIQUE KEY `uidx_method_name` (`method_name `) USING BTREE ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='鎖定中的方法';
當(dāng)我們想要鎖住某個方法時,執(zhí)行以下SQL:
insert into methodLock(method_name,desc) values (‘method_name',‘desc')
因為我們對method_name
做了唯一性約束,這里如果有多個請求同時提交到數(shù)據(jù)庫的話,數(shù)據(jù)庫會保證只有一個操作可以成功,那么我們就可以認(rèn)為操作成功的那個線程獲得了該方法的鎖,可以執(zhí)行方法體內(nèi)容。
當(dāng)方法執(zhí)行完畢之后,想要釋放鎖的話,需要執(zhí)行以下Sql:
delete from methodLock where method_name ='method_name'
上面這種簡單的實(shí)現(xiàn)有以下幾個問題:
- 這把鎖強(qiáng)依賴數(shù)據(jù)庫的可用性,數(shù)據(jù)庫是一個單點(diǎn),一旦數(shù)據(jù)庫掛掉,會導(dǎo)致業(yè)務(wù)系統(tǒng)不可用。
- 這把鎖沒有失效時間,一旦解鎖操作失敗,就會導(dǎo)致鎖記錄一直在數(shù)據(jù)庫中,其他線程無法再獲得到鎖。
- 這把鎖只能是非阻塞的,因為數(shù)據(jù)的insert操作,一旦插入失敗就會直接報錯。沒有獲得鎖的線程并不會進(jìn)入排隊隊列,要想再次獲得鎖就要再次觸發(fā)獲得鎖操作。
- 這把鎖是非重入的,同一個線程在沒有釋放鎖之前無法再次獲得該鎖。因為數(shù)據(jù)中數(shù)據(jù)已經(jīng)存在了。
- 這把鎖是非公平鎖,所有等待鎖的線程憑運(yùn)氣去爭奪鎖。
當(dāng)然,我們也可以有其他方式解決上面的問題。
- 數(shù)據(jù)庫是單點(diǎn)?搞兩個數(shù)據(jù)庫,數(shù)據(jù)之前雙向同步。一旦掛掉快速切換到備庫上。
- 沒有失效時間?只要做一個定時任務(wù),每隔一定時間把數(shù)據(jù)庫中的超時數(shù)據(jù)清理一遍。
- 非阻塞的?搞一個while循環(huán),直到insert成功再返回成功。
- 非重入的?在數(shù)據(jù)庫表中加個字段,記錄當(dāng)前獲得鎖的機(jī)器的主機(jī)信息和線程信息,那么下次再獲取鎖的時候先查詢數(shù)據(jù)庫,如果當(dāng)前機(jī)器的主機(jī)信息和線程信息在數(shù)據(jù)庫可以查到的話,直接把鎖分配給他就可以了。
- 非公平的?再建一張中間表,將等待鎖的線程全記錄下來,并根據(jù)創(chuàng)建時間排序,只有最先創(chuàng)建的允許獲取鎖
基于排他鎖實(shí)現(xiàn)的分布式鎖
除了可以通過增刪操作數(shù)據(jù)表中的記錄以外,其實(shí)還可以借助數(shù)據(jù)中自帶的鎖來實(shí)現(xiàn)分布式的鎖。
我們還用剛剛創(chuàng)建的那張數(shù)據(jù)庫表??梢酝ㄟ^數(shù)據(jù)庫的排他鎖來實(shí)現(xiàn)分布式鎖。 基于MySql的InnoDB引擎,可以使用以下方法來實(shí)現(xiàn)加鎖操作:
public boolean lock(){
connection.setAutoCommit(false);
while(true){
try{
result = select * from methodLock where method_name=xxx for update;
if(result==null){
return true;
}
}catch(Exception e){
}
sleep(1000);
}
return false;
}
在查詢語句后面增加for update
,數(shù)據(jù)庫會在查詢過程中給數(shù)據(jù)庫表增加排他鎖。當(dāng)某條記錄被加上排他鎖之后,其他線程無法再在該行記錄上增加排他鎖。
我們可以認(rèn)為獲得排它鎖的線程即可獲得分布式鎖,當(dāng)獲取到鎖之后,可以執(zhí)行方法的業(yè)務(wù)邏輯,執(zhí)行完方法之后,再通過以下方法解鎖:
public void unlock(){ connection.commit(); }
通過connection.commit();
操作來釋放鎖。
這種方法可以有效的解決上面提到的無法釋放鎖和阻塞鎖的問題。
阻塞鎖? for update語句會在執(zhí)行成功后立即返回,在執(zhí)行失敗時一直處于阻塞狀態(tài),直到成功。
鎖定之后服務(wù)宕機(jī),無法釋放?使用這種方式,服務(wù)宕機(jī)之后數(shù)據(jù)庫會自己把鎖釋放掉。
但是還是無法直接解決數(shù)據(jù)庫單點(diǎn)、可重入和公平鎖的問題。
總結(jié)一下使用數(shù)據(jù)庫來實(shí)現(xiàn)分布式鎖的方式,這兩種方式都是依賴數(shù)據(jù)庫的一張表,一種是通過表中的記錄的存在情況確定當(dāng)前是否有鎖存在,另外一種是通過數(shù)據(jù)庫的排他鎖來實(shí)現(xiàn)分布式鎖。
數(shù)據(jù)庫實(shí)現(xiàn)分布式鎖的優(yōu)點(diǎn)
直接借助數(shù)據(jù)庫,容易理解。
數(shù)據(jù)庫實(shí)現(xiàn)分布式鎖的缺點(diǎn)
會有各種各樣的問題,在解決問題的過程中會使整個方案變得越來越復(fù)雜。
操作數(shù)據(jù)庫需要一定的開銷,性能問題需要考慮。
二、基于緩存的分布式鎖
相比較于基于數(shù)據(jù)庫實(shí)現(xiàn)分布式鎖的方案來說,基于緩存來實(shí)現(xiàn)在性能方面會表現(xiàn)的更好一點(diǎn)。
目前有很多成熟的緩存產(chǎn)品,包括Redis,memcached等。這里以Redis為例來分析下使用緩存實(shí)現(xiàn)分布式鎖的方案。
基于Redis實(shí)現(xiàn)分布式鎖在網(wǎng)上有很多相關(guān)文章,其中主要的實(shí)現(xiàn)方式是使用Jedis.setNX方法來實(shí)現(xiàn)。
public boolean trylock(String key) {
ResultCode code = jedis.setNX(key, "This is a Lock.");
if (ResultCode.SUCCESS.equals(code))
return true;
else
return false;
}
public boolean unlock(String key){
ldbTairManager.invalid(NAMESPACE, key);
}
以上實(shí)現(xiàn)方式同樣存在幾個問題:
1、單點(diǎn)問題。
2、這把鎖沒有失效時間,一旦解鎖操作失敗,就會導(dǎo)致鎖記錄一直在redis中,其他線程無法再獲得到鎖。
3、這把鎖只能是非阻塞的,無論成功還是失敗都直接返回。
4、這把鎖是非重入的,一個線程獲得鎖之后,在釋放鎖之前,無法再次獲得該鎖,因為使用到的key在redis中已經(jīng)存在。無法再執(zhí)行setNX操作。
5、這把鎖是非公平的,所有等待的線程同時去發(fā)起setNX操作,運(yùn)氣好的線程能獲取鎖。
當(dāng)然,同樣有方式可以解決。
- 現(xiàn)在主流的緩存服務(wù)都支持集群部署,通過集群來解決單點(diǎn)問題。
- 沒有失效時間?redis的setExpire方法支持傳入失效時間,到達(dá)時間之后數(shù)據(jù)會自動刪除。
- 非阻塞?while重復(fù)執(zhí)行。
- 非可重入?在一個線程獲取到鎖之后,把當(dāng)前主機(jī)信息和線程信息保存起來,下次再獲取之前先檢查自己是不是當(dāng)前鎖的擁有者。
- 非公平?在線程獲取鎖之前先把所有等待的線程放入一個隊列中,然后按先進(jìn)先出原則獲取鎖。
redis集群的同步策略是需要時間的,有可能A線程setNX成功后拿到鎖,但是這個值還沒有更新到B線程執(zhí)行setNX的這臺服務(wù)器,那就會產(chǎn)生并發(fā)問題。
redis的作者Salvatore Sanfilippo,提出了Redlock算法,該算法實(shí)現(xiàn)了比單一節(jié)點(diǎn)更安全、可靠的分布式鎖管理(DLM)。
Redlock算法假設(shè)有N個redis節(jié)點(diǎn),這些節(jié)點(diǎn)互相獨(dú)立,一般設(shè)置為N=5,這N個節(jié)點(diǎn)運(yùn)行在不同的機(jī)器上以保持物理層面的獨(dú)立。
算法的步驟如下:
1、客戶端獲取當(dāng)前時間,以毫秒為單位。
2、客戶端嘗試獲取N個節(jié)點(diǎn)的鎖,(每個節(jié)點(diǎn)獲取鎖的方式和前面說的緩存鎖一樣),N個節(jié)點(diǎn)以相同的key和value獲取鎖。客戶端需要設(shè)置接口訪問超時,接口超時時間需要遠(yuǎn)遠(yuǎn)小于鎖超時時間,比如鎖自動釋放的時間是10s,那么接口超時大概設(shè)置5-50ms。這樣可以在有redis節(jié)點(diǎn)宕機(jī)后,訪問該節(jié)點(diǎn)時能盡快超時,而減小鎖的正常使用。
3、客戶端計算在獲得鎖的時候花費(fèi)了多少時間,方法是用當(dāng)前時間減去在步驟一獲取的時間,只有客戶端獲得了超過3個節(jié)點(diǎn)的鎖,而且獲取鎖的時間小于鎖的超時時間,客戶端才獲得了分布式鎖。
4、客戶端獲取的鎖的時間為設(shè)置的鎖超時時間減去步驟三計算出的獲取鎖花費(fèi)時間。
5、如果客戶端獲取鎖失敗了,客戶端會依次刪除所有的鎖。
使用Redlock算法,可以保證在掛掉最多2個節(jié)點(diǎn)的時候,分布式鎖服務(wù)仍然能工作,這相比之前的數(shù)據(jù)庫鎖和緩存鎖大大提高了可用性,由于redis的高效性能,分布式緩存鎖性能并不比數(shù)據(jù)庫鎖差。但是,有一位分布式的專家寫了一篇文章《How to do distributed locking》,質(zhì)疑Redlock的正確性。
該專家提到,考慮分布式鎖的時候需要考慮兩個方面:性能和正確性。
如果使用高性能的分布式鎖,對正確性要求不高的場景下,那么使用緩存鎖就足夠了。
如果使用可靠性高的分布式鎖,那么就需要考慮嚴(yán)格的可靠性問題。而Redlock則不符合正確性。為什么不符合呢?專家列舉了幾個方面。
現(xiàn)在很多編程語言使用的虛擬機(jī)都有GC功能,在Full GC的時候,程序會停下來處理GC,有些時候Full GC耗時很長,甚至程序有幾分鐘的卡頓,文章列舉了HBase的例子,HBase有時候GC幾分鐘,會導(dǎo)致租約超時。而且Full GC什么時候到來,程序無法掌控,程序的任何時候都可能停下來處理GC,比如下圖,客戶端1獲得了鎖,正準(zhǔn)備處理共享資源的時候,發(fā)生了Full GC直到鎖過期。這樣,客戶端2又獲得了鎖,開始處理共享資源。在客戶端2處理的時候,客戶端1 Full GC完成,也開始處理共享資源,這樣就出現(xiàn)了2個客戶端都在處理共享資源的情況。
專家給出了解決辦法,如下圖,看起來就是MVCC,給鎖帶上token,token就是version的概念,每次操作鎖完成,token都會加1,在處理共享資源的時候帶上token,只有指定版本的token能夠處理共享資源。
然后專家還說到了算法依賴本地時間,而且redis在處理key過期的時候,依賴gettimeofday方法獲得時間,而不是monotonic clock,這也會帶來時間的不準(zhǔn)確。比如一下場景,兩個客戶端client 1和client 2,5個redis節(jié)點(diǎn)nodes (A, B, C, D and E)。
1、client 1從A、B、C成功獲取鎖,從D、E獲取鎖網(wǎng)絡(luò)超時。
2、節(jié)點(diǎn)C的時鐘不準(zhǔn)確,導(dǎo)致鎖超時。
3、client 2從C、D、E成功獲取鎖,從A、B獲取鎖網(wǎng)絡(luò)超時。
4、這樣client 1和client 2都獲得了鎖。
總結(jié)專家關(guān)于Redlock不可用的兩點(diǎn):
1、GC等場景可能隨時發(fā)生,并導(dǎo)致在客戶端獲取了鎖,在處理中超時,導(dǎo)致另外的客戶端獲取了鎖。專家還給出了使用自增token的解決方法。
2、算法依賴本地時間,會出現(xiàn)時鐘不準(zhǔn),導(dǎo)致2個客戶端同時獲得鎖的情況。
所以專家給出的結(jié)論是,只有在有界的網(wǎng)絡(luò)延遲、有界的程序中斷、有界的時鐘錯誤范圍,Redlock才能正常工作,但是這三種場景的邊界又是無法確認(rèn)的,所以專家不建議使用Redlock。對于正確性要求高的場景,專家推薦了Zookeeper,關(guān)于使用Zookeeper作為分布式鎖后面再討論。
Redis作者的回應(yīng)
redis作者看到這個專家的文章后,寫了一篇博客予以回應(yīng)。作者很客氣的感謝了專家,然后表達(dá)出了對專家觀點(diǎn)的不認(rèn)同。
I asked for an analysis in the original Redlock specification here: http://redis.io/topics/distlock. So thank you Martin. However I don't agree with the analysis.
redis作者關(guān)于使用token解決鎖超時問題可以概括成下面五點(diǎn):
觀點(diǎn)1,使用分布式鎖一般是在,你沒有其他方式去控制共享資源了,專家使用token來保證對共享資源的處理,那么就不需要分布式鎖了。
觀點(diǎn)2,對于token的生成,為保證不同客戶端獲得的token的可靠性,生成token的服務(wù)還是需要分布式鎖保證服務(wù)的可靠性。
觀點(diǎn)3,對于專家說的自增的token的方式,redis作者認(rèn)為完全沒必要,每個客戶端可以生成唯一的uuid作為token,給共享資源設(shè)置為只有該uuid的客戶端才能處理的狀態(tài),這樣其他客戶端就無法處理該共享資源,直到獲得鎖的客戶端釋放鎖。
觀點(diǎn)4,redis作者認(rèn)為,對于token是有序的,并不能解決專家提出的GC問題,如上圖所示,如果token 34的客戶端寫入過程中發(fā)送GC導(dǎo)致鎖超時,另外的客戶端可能獲得token 35的鎖,并再次開始寫入,導(dǎo)致鎖沖突。所以token的有序并不能跟共享資源結(jié)合起來。
觀點(diǎn)5,redis作者認(rèn)為,大部分場景下,分布式鎖用來處理非事務(wù)場景下的更新問題。作者意思應(yīng)該是有些場景很難結(jié)合token處理共享資源,所以得依賴鎖去鎖定資源并進(jìn)行處理。
專家說到的另一個時鐘問題,redis作者也給出了解釋??蛻舳藢?shí)際獲得的鎖的時間是默認(rèn)的超時時間,減去獲取鎖所花費(fèi)的時間,如果獲取鎖花費(fèi)時間過長導(dǎo)致超過了鎖的默認(rèn)超時間,那么此時客戶端并不能獲取到鎖,不會存在專家提出的例子。
個人感覺
第一個問題我概括為,在一個客戶端獲取了分布式鎖后,在客戶端的處理過程中,可能出現(xiàn)鎖超時釋放的情況,這里說的處理中除了GC等非抗力外,程序流程未處理完也是可能發(fā)生的。之前在說到數(shù)據(jù)庫鎖設(shè)置的超時時間2分鐘,如果出現(xiàn)某個任務(wù)占用某個訂單鎖超過2分鐘,那么另一個交易中心就可以獲得這把訂單鎖,從而兩個交易中心同時處理同一個訂單。正常情況,任務(wù)當(dāng)然秒級處理完成,可是有時候,加入某個rpc請求設(shè)置的超時時間過長,一個任務(wù)中有多個這樣的超時請求,那么,很可能就出現(xiàn)超過自動解鎖時間了。當(dāng)初我們的交易模塊是用C++寫的,不存在GC,如果用java寫,中間還可能出現(xiàn)Full GC,那么鎖超時解鎖后,自己客戶端無法感知,是件非常嚴(yán)重的事情。我覺得這不是鎖本身的問題,上面說到的任何一個分布式鎖,只要自帶了超時釋放的特性,都會出現(xiàn)這樣的問題。如果使用鎖的超時功能,那么客戶端一定得設(shè)置獲取鎖超時后,采取相應(yīng)的處理,而不是繼續(xù)處理共享資源。Redlock的算法,在客戶端獲取鎖后,會返回客戶端能占用的鎖時間,客戶端必須處理該時間,讓任務(wù)在超過該時間后停止下來。
第二個問題,自然就是分布式專家沒有理解Redlock。Redlock有個關(guān)鍵的特性是,獲取鎖的時間是鎖默認(rèn)超時的總時間減去獲取鎖所花費(fèi)的時間,這樣客戶端處理的時間就是一個相對時間,就跟本地時間無關(guān)了。
由此看來,Redlock的正確性是能得到很好的保證的。仔細(xì)分析Redlock,相比于一個節(jié)點(diǎn)的redis,Redlock提供的最主要的特性是可靠性更高,這在有些場景下是很重要的特性。但是我覺得Redlock為了實(shí)現(xiàn)可靠性,卻花費(fèi)了過大的代價。
首先必須部署5個節(jié)點(diǎn)才能讓Redlock的可靠性更強(qiáng)。
然后需要請求5個節(jié)點(diǎn)才能獲取到鎖,通過Future的方式,先并發(fā)向5個節(jié)點(diǎn)請求,再一起獲得響應(yīng)結(jié)果,能縮短響應(yīng)時間,不過還是比單節(jié)點(diǎn)redis鎖要耗費(fèi)更多時間。
然后由于必須獲取到5個節(jié)點(diǎn)中的3個以上,所以可能出現(xiàn)獲取鎖沖突,即大家都獲得了1-2把鎖,結(jié)果誰也不能獲取到鎖,這個問題,redis作者借鑒了raft算法的精髓,通過沖突后在隨機(jī)時間開始,可以大大降低沖突時間,但是這問題并不能很好的避免,特別是在第一次獲取鎖的時候,所以獲取鎖的時間成本增加了。
如果5個節(jié)點(diǎn)有2個宕機(jī),此時鎖的可用性會極大降低,首先必須等待這兩個宕機(jī)節(jié)點(diǎn)的結(jié)果超時才能返回,另外只有3個節(jié)點(diǎn),客戶端必須獲取到這全部3個節(jié)點(diǎn)的鎖才能擁有鎖,難度也加大了。
如果出現(xiàn)網(wǎng)絡(luò)分區(qū),那么可能出現(xiàn)客戶端永遠(yuǎn)也無法獲取鎖的情況。
分析了這么多原因,我覺得Redlock的問題,最關(guān)鍵的一點(diǎn)在于Redlock需要客戶端去保證寫入的一致性,后端5個節(jié)點(diǎn)完全獨(dú)立,所有的客戶端都得操作這5個節(jié)點(diǎn)。如果5個節(jié)點(diǎn)有一個leader,客戶端只要從leader獲取鎖,其他節(jié)點(diǎn)能同步leader的數(shù)據(jù),這樣,分區(qū)、超時、沖突等問題都不會存在。所以為了保證分布式鎖的正確性,我覺得使用強(qiáng)一致性的分布式協(xié)調(diào)服務(wù)能更好的解決問題。
問題又來了,失效時間我設(shè)置多長時間為好?如何設(shè)置的失效時間太短,方法沒等執(zhí)行完,鎖就自動釋放了,那么就會產(chǎn)生并發(fā)問題。如果設(shè)置的時間太長,其他獲取鎖的線程就可能要平白的多等一段時間。
這個問題使用數(shù)據(jù)庫實(shí)現(xiàn)分布式鎖同樣存在。
對于這個問題目前主流的做法是每獲得一個鎖時,只設(shè)置一個很短的超時時間,同時起一個線程在每次快要到超時時間時去刷新鎖的超時時間。在釋放鎖的同時結(jié)束這個線程。如redis官方的分布式鎖組件redisson,就是用的這種方案。
使用緩存實(shí)現(xiàn)分布式鎖的優(yōu)點(diǎn)
性能好。
使用緩存實(shí)現(xiàn)分布式鎖的缺點(diǎn)
實(shí)現(xiàn)過于負(fù)責(zé),需要考慮的因素太多。
基于Zookeeper實(shí)現(xiàn)的分布式鎖
基于zookeeper臨時有序節(jié)點(diǎn)可以實(shí)現(xiàn)的分布式鎖。
大致思想即為:每個客戶端對某個方法加鎖時,在zookeeper上的與該方法對應(yīng)的指定節(jié)點(diǎn)的目錄下,生成一個唯一的瞬時有序節(jié)點(diǎn)。 判斷是否獲取鎖的方式很簡單,只需要判斷有序節(jié)點(diǎn)中序號最小的一個。 當(dāng)釋放鎖的時候,只需將這個瞬時節(jié)點(diǎn)刪除即可。同時,其可以避免服務(wù)宕機(jī)導(dǎo)致的鎖無法釋放,而產(chǎn)生的死鎖問題。
來看下Zookeeper能不能解決前面提到的問題。
- 鎖無法釋放?使用Zookeeper可以有效的解決鎖無法釋放的問題,因為在創(chuàng)建鎖的時候,客戶端會在ZK中創(chuàng)建一個臨時節(jié)點(diǎn),一旦客戶端獲取到鎖之后突然掛掉(Session連接斷開),那么這個臨時節(jié)點(diǎn)就會自動刪除掉。其他客戶端就可以再次獲得鎖。
- 非阻塞鎖?使用Zookeeper可以實(shí)現(xiàn)阻塞的鎖,客戶端可以通過在ZK中創(chuàng)建順序節(jié)點(diǎn),并且在節(jié)點(diǎn)上綁定監(jiān)聽器,一旦節(jié)點(diǎn)有變化,Zookeeper會通知客戶端,客戶端可以檢查自己創(chuàng)建的節(jié)點(diǎn)是不是當(dāng)前所有節(jié)點(diǎn)中序號最小的,如果是,那么自己就獲取到鎖,便可以執(zhí)行業(yè)務(wù)邏輯了。
- 不可重入?使用Zookeeper也可以有效的解決不可重入的問題,客戶端在創(chuàng)建節(jié)點(diǎn)的時候,把當(dāng)前客戶端的主機(jī)信息和線程信息直接寫入到節(jié)點(diǎn)中,下次想要獲取鎖的時候和當(dāng)前最小的節(jié)點(diǎn)中的數(shù)據(jù)比對一下就可以了。如果和自己的信息一樣,那么自己直接獲取到鎖,如果不一樣就再創(chuàng)建一個臨時的順序節(jié)點(diǎn),參與排隊。
- 單點(diǎn)問題?使用Zookeeper可以有效的解決單點(diǎn)問題,ZK是集群部署的,只要集群中有半數(shù)以上的機(jī)器存活,就可以對外提供服務(wù)。
- 公平問題?使用Zookeeper可以解決公平鎖問題,客戶端在ZK中創(chuàng)建的臨時節(jié)點(diǎn)是有序的,每次鎖被釋放時,ZK可以通知最小節(jié)點(diǎn)來獲取鎖,保證了公平。
問題又來了,我們知道Zookeeper需要集群部署,會不會出現(xiàn)Redis集群那樣的數(shù)據(jù)同步問題呢?
Zookeeper是一個保證了弱一致性即最終一致性的分布式組件。
Zookeeper采用稱為Quorum Based Protocol的數(shù)據(jù)同步協(xié)議。假如Zookeeper集群有N臺Zookeeper服務(wù)器(N通常取奇數(shù),3臺能夠滿足數(shù)據(jù)可靠性同時有很高讀寫性能,5臺在數(shù)據(jù)可靠性和讀寫性能方面平衡最好),那么用戶的一個寫操作,首先同步到N/2 + 1臺服務(wù)器上,然后返回給用戶,提示用戶寫成功。基于Quorum Based Protocol的數(shù)據(jù)同步協(xié)議決定了Zookeeper能夠支持什么強(qiáng)度的一致性。
在分布式環(huán)境下,滿足強(qiáng)一致性的數(shù)據(jù)儲存基本不存在,它要求在更新一個節(jié)點(diǎn)的數(shù)據(jù),需要同步更新所有的節(jié)點(diǎn)。這種同步策略出現(xiàn)在主從同步復(fù)制的數(shù)據(jù)庫中。但是這種同步策略,對寫性能的影響太大而很少見于實(shí)踐。因為Zookeeper是同步寫N/2+1個節(jié)點(diǎn),還有N/2個節(jié)點(diǎn)沒有同步更新,所以Zookeeper不是強(qiáng)一致性的。
用戶的數(shù)據(jù)更新操作,不保證后續(xù)的讀操作能夠讀到更新后的值,但是最終會呈現(xiàn)一致性。犧牲一致性,并不是完全不管數(shù)據(jù)的一致性,否則數(shù)據(jù)是混亂的,那么系統(tǒng)可用性再高分布式再好也沒有了價值。犧牲一致性,只是不再要求關(guān)系型數(shù)據(jù)庫中的強(qiáng)一致性,而是只要系統(tǒng)能達(dá)到最終一致性即可。
Zookeeper是否滿足因果一致性,需要看客戶端的編程方式。
- 不滿足因果一致性的做法
- A進(jìn)程向Zookeeper的/z寫入一個數(shù)據(jù),成功返回
- A進(jìn)程通知B進(jìn)程,A已經(jīng)修改了/z的數(shù)據(jù)
- B讀取Zookeeper的/z的數(shù)據(jù)
- 由于B連接的Zookeeper的服務(wù)器有可能還沒有得到A寫入數(shù)據(jù)的更新,那么B將讀不到A寫入的數(shù)據(jù)
滿足因果一致性的做法
- B進(jìn)程監(jiān)聽Zookeeper上/z的數(shù)據(jù)變化
- A進(jìn)程向Zookeeper的/z寫入一個數(shù)據(jù),成功返回前,Zookeeper需要調(diào)用注冊在/z上的監(jiān)聽器,Leader將數(shù)據(jù)變化的通知告訴B
- B進(jìn)程的事件響應(yīng)方法得到響應(yīng)后,去取變化的數(shù)據(jù),那么B一定能夠得到變化的值
- 這里的因果一致性提現(xiàn)在Leader和B之間的因果一致性,也就是是Leader通知了數(shù)據(jù)有變化
第二種事件監(jiān)聽機(jī)制也是對Zookeeper進(jìn)行正確編程應(yīng)該使用的方法,所以,Zookeeper應(yīng)該是滿足因果一致性的
所以我們在基于Zookeeper實(shí)現(xiàn)分布式鎖的時候,應(yīng)該使用滿足因果一致性的做法,即等待鎖的線程都監(jiān)聽Zookeeper上鎖的變化,在鎖被釋放的時候,Zookeeper會將鎖變化的通知告訴滿足公平鎖條件的等待線程。
可以直接使用zookeeper第三方庫客戶端,這個客戶端中封裝了一個可重入的鎖服務(wù)。
public boolean tryLock(long timeout, TimeUnit unit) throws InterruptedException {
try {
return interProcessMutex.acquire(timeout, unit);
} catch (Exception e) {
e.printStackTrace();
}
return true;
}
public boolean unlock() {
try {
interProcessMutex.release();
} catch (Throwable e) {
log.error(e.getMessage(), e);
} finally {
executorService.schedule(new Cleaner(client, path), delayTimeForClean, TimeUnit.MILLISECONDS);
}
return true;
}
使用ZK實(shí)現(xiàn)的分布式鎖好像完全符合了本文開頭我們對一個分布式鎖的所有期望。但是,其實(shí)并不是,Zookeeper實(shí)現(xiàn)的分布式鎖其實(shí)存在一個缺點(diǎn),那就是性能上可能并沒有緩存服務(wù)那么高。因為每次在創(chuàng)建鎖和釋放鎖的過程中,都要動態(tài)創(chuàng)建、銷毀瞬時節(jié)點(diǎn)來實(shí)現(xiàn)鎖功能。ZK中創(chuàng)建和刪除節(jié)點(diǎn)只能通過Leader服務(wù)器來執(zhí)行,然后將數(shù)據(jù)同不到所有的Follower機(jī)器上。
使用Zookeeper實(shí)現(xiàn)分布式鎖的優(yōu)點(diǎn)
有效的解決單點(diǎn)問題,不可重入問題,非阻塞問題以及鎖無法釋放的問題。實(shí)現(xiàn)起來較為簡單。
使用Zookeeper實(shí)現(xiàn)分布式鎖的缺點(diǎn)
性能上不如使用緩存實(shí)現(xiàn)分布式鎖。 需要對ZK的原理有所了解。
三種方案的比較從理解的難易程度角度(從低到高)
數(shù)據(jù)庫 > 緩存 > Zookeeper
從實(shí)現(xiàn)的復(fù)雜性角度(從低到高)
Zookeeper > 緩存 > 數(shù)據(jù)庫
從性能角度(從高到低)
緩存 > Zookeeper >= 數(shù)據(jù)庫
從可靠性角度(從高到低)
Zookeeper > 緩存 > 數(shù)據(jù)庫\
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
您可能感興趣的文章:- C# 實(shí)現(xiàn)Zookeeper分布式鎖的參考示例
- 分布式鎖為什么要選擇Zookeeper而不是Redis?看完這篇你就明白了
- ZooKeeper 實(shí)現(xiàn)分布式鎖的方法示例
- 淺談Java(SpringBoot)基于zookeeper的分布式鎖實(shí)現(xiàn)
- zookeeper實(shí)現(xiàn)分布式鎖
- 如何操作Redis和zookeeper實(shí)現(xiàn)分布式鎖
- java使用zookeeper實(shí)現(xiàn)的分布式鎖示例
- 分析ZooKeeper分布式鎖的實(shí)現(xiàn)