主頁(yè) > 知識(shí)庫(kù) > 正則表達(dá)式匹配解析過(guò)程探討分析(正則表達(dá)式匹配原理)

正則表達(dá)式匹配解析過(guò)程探討分析(正則表達(dá)式匹配原理)

熱門標(biāo)簽:阿里云 Mysql連接數(shù)設(shè)置 Linux服務(wù)器 團(tuán)購(gòu)網(wǎng)站 電子圍欄 服務(wù)器配置 銀行業(yè)務(wù) 科大訊飛語(yǔ)音識(shí)別系統(tǒng)

已經(jīng)有多篇關(guān)于正則表達(dá)式介紹的文章,隨著我們?cè)絹?lái)越多使用正則表達(dá)式,想對(duì)性能做優(yōu)化、減少我們正則表達(dá)式書寫匹配Bug。我們不得不進(jìn)一步深入了解正則表達(dá)式執(zhí)行過(guò)程了。下面我們一起學(xué)習(xí),分析下正則表達(dá)式執(zhí)行過(guò)程。我們會(huì)用regexbuddy測(cè)試工具分解執(zhí)行過(guò)程,具體工具使用,可以看:正則表達(dá)式性能測(cè)試工具推薦、優(yōu)化工具推薦(regexbuddy推薦)。要了解正則表達(dá)式解析過(guò)程前,我們先來(lái)熟悉幾個(gè)概念。

常見(jiàn)正則表達(dá)式引擎
引擎決定了正則表達(dá)式匹配方法及內(nèi)部搜索過(guò)程,了解它至關(guān)重要的。目前主要流行引擎有:DFA,NFA兩種引擎,我們比較區(qū)分下。

引擎 區(qū)別點(diǎn)
DFA
Deterministic finite automaton
確定型有窮自動(dòng)機(jī)
DFA引擎它們不要求回溯(并因此它們永遠(yuǎn)不測(cè)試相同的字符兩次),所以匹配速度快!DFA引擎還可以匹配最長(zhǎng)的可能的字符串。不過(guò)DFA引擎只包含有限的狀態(tài),所以它不能匹配具有反向引用的模式,還不可以捕獲子表達(dá)式。代表性有:awk,egrep,flex,lex,MySQL,Procmail
NFA
Non-deterministic finite automaton 非確定型有窮自動(dòng)機(jī),又分為傳統(tǒng)NFA,Posix NFA
傳統(tǒng)的NFA引擎運(yùn)行所謂的“貪婪的”匹配回溯算法(longest-leftmost),以指定順序測(cè)試正則表達(dá)式的所有可能的擴(kuò)展并接受第一個(gè)匹配項(xiàng)。傳統(tǒng)的NFA回溯可以訪問(wèn)完全相同的狀態(tài)多次,在最壞情況下,它的執(zhí)行速度可能非常慢,但它支持子匹配。代表性有:GNU Emacs,Java,ergp,less,more,.NET語(yǔ)言,
PCRE library,Perl,PHP,Python,Ruby,sed,vi等,
一般高級(jí)語(yǔ)言都采用該模式。

DFA以字符串字符,逐個(gè)在正則表達(dá)式匹配查找,而NFA以正則表達(dá)式為主,在字符串中逐一查找。盡管速度慢,但是對(duì)操作者來(lái)說(shuō)更簡(jiǎn)單,因此應(yīng)用更廣泛!下面所有以NFA引擎舉例說(shuō)明,解析過(guò)程!

解析引擎眼中的字符串組成
對(duì)于字符串“DEF”而言,包括D、E、F三個(gè)字符和 0、1、2、3 四個(gè)數(shù)字位置:0D1E2F3,對(duì)于正則表達(dá)式而言所有源字符串,都有字符和位置。正則表達(dá)式會(huì)從0號(hào)位置,逐個(gè)去匹配的。

占有字符和零寬度
正則表達(dá)式匹配過(guò)程中,如果子表達(dá)式匹配到的是字符內(nèi)容,而非位置,并被保存到最終的匹配結(jié)果中,那么就認(rèn)為這個(gè)子表達(dá)式是占有字符的;如果子表達(dá)式匹配的僅僅是位置,或者匹配的內(nèi)容并不保存到最終的匹配結(jié)果中,那么就認(rèn)為這個(gè)子表達(dá)式是零寬度的。占有字符是互斥的,零寬度是非互斥的。也就是一個(gè)字符,同一時(shí)間只能由一個(gè)子表達(dá)式匹配,而一個(gè)位置,卻可以同時(shí)由多個(gè)零寬度的子表達(dá)式匹配。常見(jiàn)零寬字符有:^,(?=)等

正則表達(dá)式匹配過(guò)程詳解實(shí)例
我們掌握了上面幾個(gè)概念,我們接下來(lái)分析下幾個(gè)常見(jiàn)的解析過(guò)程。結(jié)合使用軟件regexBuddy來(lái)分析。

Demo1: 源字符DEF,對(duì)應(yīng)標(biāo)記是:0D1E2F3,匹配正則表達(dá)式是:/DEF/

過(guò)程可以理解為:首先由正則表達(dá)式字符 /D/ 取得控制權(quán),從位置0開(kāi)始匹配,由 /D/ 來(lái)匹配“D”,匹配成功,控制權(quán)交給字符 /E/ ;由于“D”已被 /D/ 匹配,所以 /E/ 從位置1開(kāi)始嘗試匹配,由 /E/ 來(lái)匹配“E”,匹配成功,控制權(quán)交給 /F/ ;由 /F/ 來(lái)匹配“F”,匹配成功。

Demo2:源字符DEF,對(duì)應(yīng)標(biāo)記是:0D1E2F3,匹配正則表達(dá)式是:/D\w+F/

過(guò)程可以理解為:首先由正則表達(dá)式字符 /D/ 取得控制權(quán),從位置0開(kāi)始匹配,由 /D/ 來(lái)匹配“D”,匹配成功,控制權(quán)交給字符 /\w+/ ;由于“D”已被 /D/ 匹配,所以 /\w+/ 從位置1開(kāi)始嘗試匹配,\w+貪婪模式,會(huì)記錄一個(gè)備選狀態(tài),默認(rèn)會(huì)匹配最長(zhǎng)字符,直接匹配到EF,并且匹配成功,當(dāng)前位置3了。并且把控制權(quán)交給 /F/ ;由 /F/ 匹配失敗,\w+匹配會(huì)回溯一位,當(dāng)前位置變成2。并把控制權(quán)交個(gè)/F/,由/F/匹配字符F成功。因此\w+這里匹配E字符,匹配完成!

Demo3:源字符DEF,對(duì)應(yīng)標(biāo)記是:0D1E2F3,匹配正則表達(dá)式是:/^(?=D)[D-F]+$/

過(guò)程可以理解為:元字符 /^/ 和 /$/ 匹配的只是位置,順序環(huán)視 /(?=D)/ (匹配當(dāng)前位置,右邊是否有字符“D”字符出現(xiàn))只進(jìn)行匹配,并不占有字符,也不將匹配的內(nèi)容保存到最終的匹配結(jié)果,所以都是零寬度的。 首先由元字符 /^/ 取得控制權(quán),從位置0開(kāi)始匹配, /^/ 匹配的就是開(kāi)始位置“位置0”,匹配成功,控制權(quán)交給順序環(huán)視 /(?=D)/;/(?=D])/ 要求它所在位置右側(cè)必須是字母”D”才能匹配成功,零寬度的子表達(dá)式之間是不互斥的,即同一個(gè)位置可以同時(shí)由多個(gè)零寬度子表達(dá)式匹配,所以它也是從位置0嘗試進(jìn)行匹配,位置0的右側(cè)是字符“D”,符合要求,匹配成功,控制權(quán)交給 /[D-F]+/ ;因?yàn)?/(?=D)/ 只進(jìn)行匹配,并不將匹配到的內(nèi)容保存到最后結(jié)果,并且 /(?=D)/ 匹配成功的位置是位置0,所以 /[D-F]+/ 也是從位置0開(kāi)始嘗試匹配的, /[D-F]+/ 首先嘗試匹配“D”,匹配成功,繼續(xù)嘗試匹配,直到匹配完”EF”,這時(shí)已經(jīng)匹配到位置3,位置3的右側(cè)已沒(méi)有字符,這時(shí)會(huì)把控制權(quán)交給 /$/,元字符 /$/ 從位置3開(kāi)始嘗試匹配,它匹配的是結(jié)束位置,也就是“位置3”,匹配成功。此時(shí)正則表達(dá)式匹配完成,報(bào)告匹配成功。匹配結(jié)果為“DEF”,開(kāi)始位置為0,結(jié)束位置為3。其中 /^/ 匹配位置0, /(?=D)/ 匹配位置0, /[D-F]+/ 匹配字符串“DEF”, /$/ 匹配位置3。

后記:上面這幾個(gè)例子,我們分析了正則表達(dá)式普通匹配,還有回溯過(guò)程,然后零寬度字符,匹配過(guò)程。當(dāng)然,給出的例子比較簡(jiǎn)單,實(shí)際過(guò)程中會(huì)遇到更長(zhǎng),更復(fù)雜的正則表達(dá)式。但是,思想是類似的。只要我們把我解析原理,都可以逐一分解的。好了,就到這里,歡迎交流!

標(biāo)簽:衢州 廣元 大理 萍鄉(xiāng) 衡水 棗莊 蚌埠 江蘇

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《正則表達(dá)式匹配解析過(guò)程探討分析(正則表達(dá)式匹配原理)》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266