主頁 > 知識庫 > 正則基礎(chǔ)之 環(huán)視 Lookaround

正則基礎(chǔ)之 環(huán)視 Lookaround

熱門標(biāo)簽:電銷機(jī)器人公司簡介 湖南企業(yè)智能外呼系統(tǒng)供應(yīng)商 錫林郭勒盟地圖標(biāo)注位置 RO地圖標(biāo)注app 知名的電話機(jī)器人 自制電銷機(jī)器人 高德地圖標(biāo)注短信簽約 百音電話機(jī)器人 福州工作銷售電話機(jī)器人

1       環(huán)視基礎(chǔ)

環(huán)視只進(jìn)行子表達(dá)式的匹配,不占有字符,匹配到的內(nèi)容不保存到最終的匹配結(jié)果,是零寬度的。環(huán)視匹配的最終結(jié)果就是一個位置。

環(huán)視的作用相當(dāng)于對所在位置加了一個附加條件,只有滿足這個條件,環(huán)視子表達(dá)式才能匹配成功。

環(huán)視按照方向劃分有順序和逆序兩種,按照是否匹配有肯定和否定兩種,組合起來就有四種環(huán)視。順序環(huán)視相當(dāng)于在當(dāng)前位置右側(cè)附加一個條件,而逆序環(huán)視相當(dāng)于在當(dāng)前位置左側(cè)附加一個條件。

表達(dá)式

說明

(?=Expression)

逆序肯定環(huán)視,表示所在位置左側(cè)能夠匹配Expression

(?!Expression)

逆序否定環(huán)視,表示所在位置左側(cè)不能匹配Expression

(?=Expression)

順序肯定環(huán)視,表示所在位置右側(cè)能夠匹配Expression

(?!Expression)

順序否定環(huán)視,表示所在位置右側(cè)不能匹配Expression

 對于環(huán)視的叫法,有的文檔里叫預(yù)搜索,有的叫什么什么斷言的,這里使用了更多人容易接受的《精通正則表達(dá)式》中“環(huán)視”的叫法,其實叫什么無所謂,只要知道是什么作用就是了,就這么幾個語法規(guī)則, 還是很容易記的

2       環(huán)視匹配原理

 環(huán)視是正則中的一個難點,對于環(huán)視的理解,可以從應(yīng)用和原理兩個角度理解,如果想理解得更清晰、深入一些,還是從原理的角度理解好一些,正則匹配基本原理參考 NFA引擎匹配原理。

上面提到環(huán)視相當(dāng)于對“所在位置”附加了一個條件,環(huán)視的難點在于找到這個“位置”,這一點解決了,環(huán)視也就沒什么秘密可言了。

順序環(huán)視匹配過程

對于順序肯定環(huán)視(?=Expression)來說,當(dāng)子表達(dá)式Expression匹配成功時,(?=Expression)匹配成功,并報告(?=Expression)匹配當(dāng)前位置成功。

對于順序否定環(huán)視(?!Expression)來說,當(dāng)子表達(dá)式Expression匹配成功時,(?!Expression)匹配失?。划?dāng)子表達(dá)式Expression匹配失敗時,(?!Expression)匹配成功,并報告(?!Expression)匹配當(dāng)前位置成功;

順序肯定環(huán)視的例子已在NFA引擎匹配原理中講解過了,這里再講解一下順序否定環(huán)視。

 

源字符串:aap>one/p>bbdiv>two/div>cc

正則表達(dá)式:(?!/?p\b)[^>]+>

這個正則的意義就是匹配除p…>或/p>之外的其余標(biāo)簽。

匹配過程:

首先由字符“”取得控制權(quán),從位置0開始匹配,由于“”匹配“a”失敗,在位置0處整個表達(dá)式匹配失敗,第一次迭代匹配失敗,正則引擎向前傳動,由位置1處開始嘗試第二次迭代匹配。

重復(fù)以上過程,直到位置2,“”匹配“”成功,控制權(quán)交給“(?!/?p\b)”;“(?!/?p\b)”子表達(dá)式取得控制權(quán)后,進(jìn)行內(nèi)部子表達(dá)式的匹配。首先由“/?”取得控制權(quán),嘗試匹配“p”失敗,進(jìn)行回溯,不匹配,控制權(quán)交給“p”;由“p”來嘗試匹配“p”,匹配成功,控制權(quán)交給“\b”;由“\b”來嘗試匹配位置4,匹配成功。此時子表達(dá)式匹配完成,“/?p\b”匹配成功,那么環(huán)視表達(dá)式“(?!/?p\b)”就匹配失敗。在位置2處整個表達(dá)式匹配失敗,新一輪迭代匹配失敗,正則引擎向前傳動,由位置3處開始嘗試下一輪迭代匹配。

在位置8處也會遇到一輪“/?p\b”匹配“/p”成功,而導(dǎo)致環(huán)視表達(dá)式“(?!/?p\b)”匹配失敗,從而導(dǎo)致整個表達(dá)式匹配失敗的過程。

重復(fù)以上過程,直到位置14,“”匹配“”成功,控制權(quán)交給“(?!/?p\b)”;“/?”嘗試匹配“d”失敗,進(jìn)行回溯,不匹配,控制權(quán)交給“p”;由“p”來嘗試匹配“d”,匹配失敗,已經(jīng)沒有備選狀態(tài)可供回溯,匹配失敗。此時子表達(dá)式匹配完成,“/?p\b”匹配失敗,那么環(huán)視表達(dá)式“(?!/?p\b)”就匹配成功。匹配的結(jié)果是位置15,然后控制權(quán)交給“[^>]+”;由“[^>]+”從位置15進(jìn)行嘗試匹配,可以成功匹配到“div”,控制權(quán)交給“>”;由“>”來匹配“>”。

此時正則表達(dá)式匹配完成,報告匹配成功。匹配結(jié)果為“div>”,開始位置為14,結(jié)束位置為19。其中“”匹配“”,“(?!/?p\b)”匹配位置15,“[^>]+”匹配字符串“div”,“>”匹配“>”。

逆序環(huán)視基礎(chǔ)

對于逆序肯定環(huán)視(?=Expression)來說,當(dāng)子表達(dá)式Expression匹配成功時,(?=Expression)匹配成功,并報告(?=Expression)匹配當(dāng)前位置成功。

對于逆序否定環(huán)視(?!Expression)來說,當(dāng)子表達(dá)式Expression匹配成功時,(?!Expression)匹配失??;當(dāng)子表達(dá)式Expression匹配失敗時,(?!Expression)匹配成功,并報告(?!Expression)匹配當(dāng)前位置成功;

順序環(huán)視相當(dāng)于在當(dāng)前位置右側(cè)附加一個條件,所以它的匹配嘗試是從當(dāng)前位置開始的,然后向右嘗試匹配,直到某一位置使得匹配成功或失敗為止。而逆序環(huán)視的特殊處在于,它相當(dāng)于在當(dāng)前位置左側(cè)附加一個條件,所以它不是在當(dāng)前位置開始嘗試匹配的,而是從當(dāng)前位置左側(cè)某一位置開始,匹配到當(dāng)前位置為止,報告匹配成功或失敗。

順序環(huán)視嘗試匹配的起點是確定的,就是當(dāng)前位置,而匹配的終點是不確定的。逆序環(huán)視匹配的起點是不確定的,是當(dāng)前位置左側(cè)某一位置,而匹配的終點是確定的,就是當(dāng)前位置。

所以順序環(huán)視相對是簡單的,而逆序環(huán)視相對是復(fù)雜的。這也就是為什么大多數(shù)語言和工具都提供了對順序環(huán)視的支持,而只有少數(shù)語言提供了對逆序環(huán)視支持的原因。

JavaScript中只支持順序環(huán)視,不支持逆序環(huán)視。

Java中雖然順序環(huán)視和逆序環(huán)視都支持,但是逆序環(huán)視只支持長度確定的表達(dá)式,逆序環(huán)視中量詞只支持“?”,不支持其它長度不定的量詞。長度確定時,引擎可以向左查找固定長度的位置作為起點開始嘗試匹配,而如果長度不確定時,就要從位置0開始嘗試匹配,處理的復(fù)雜度是顯而易見的。

目前只有.NET中支持不確定長度的逆序環(huán)視。

逆序環(huán)視匹配過程

源字符串:div>a test/div>

正則表達(dá)式:(?=div>)[^]+(?=/div>)

這個正則的意義就是匹配div>和/div>標(biāo)簽之間的內(nèi)容,而不包括div>和/div>標(biāo)簽本身。

匹配過程:

首先由“(?=div>)”取得控制權(quán),從位置0開始匹配,由于位置0是起始位置,左側(cè)沒有任何內(nèi)容,所以“div>”必然匹配失敗,從而環(huán)視表達(dá)式“(?=div>)”匹配失敗,導(dǎo)致整個表達(dá)式在位置0處匹配失敗。第一輪迭代匹配失敗,正則引擎向前傳動,由位置1處開始嘗試第二次迭代匹配。

直到傳動到位置5,“(?=div>)”取得控制權(quán),向左查找5個位置,由位置0開始匹配,由“div>”匹配“div>”成功,從而“(?=div>)”匹配成功,匹配的結(jié)果為位置5,控制權(quán)交給“[^]+”;“[^]+”從位置5開始嘗試匹配,匹配“a test”成功,控制權(quán)交給“(?=/div>)”;由“/div>”匹配“/div>”成功,從而“(?=/div>)”匹配成功,匹配結(jié)果為位置11。

此時正則表達(dá)式匹配完成,報告匹配成功。匹配結(jié)果為“a test”,開始位置為5,結(jié)束位置為11。其中“(?=div>)”匹配位置5,“[^]+”匹配“a test”,“(?=/div>)”匹配位置11。

逆序否定環(huán)視的匹配過程與上述過程類似,區(qū)別只是當(dāng)Expression匹配失敗時,逆序否定表達(dá)式(?!Expression)才匹配成功。

到此環(huán)視的匹配原理已基本講解完,環(huán)視也就沒有什么秘密可言了,所需要的,也只是多加練習(xí)而已。

3       環(huán)視應(yīng)用

今天寫累了,暫時就給出一個環(huán)視的綜合應(yīng)用實例吧,至于環(huán)視的應(yīng)用場景和技巧,后面再整理。

需求:數(shù)字格式化成用“,”的貨幣格式。

正則表達(dá)式:(?=\d)(?!\.\d*)(?=(?:\d{3})+(?:\.\d+|$))

測試代碼:

double[] data = new double[] { 0, 12, 123, 1234, 12345, 123456, 1234567, 123456789, 1234567890, 12.345, 123.456, 1234.56, 12345.6789, 123456.789, 1234567.89, 12345678.9 };

foreach (double d in data)

{

    richTextBox2.Text += "源字符串:" + d.ToString().PadRight(15) + "格式化:" + Regex.Replace(d.ToString(), @"(?=\d)(?!\.\d*)(?=(?:\d{3})+(?:\.\d+|$))", ",") + "\n";

}

輸出結(jié)果:

源字符串:0              格式化:0

源字符串:12             格式化:12

源字符串:123            格式化:123

源字符串:1234           格式化:1,234

源字符串:12345          格式化:12,345

源字符串:123456         格式化:123,456

源字符串:1234567        格式化:1,234,567

源字符串:123456789      格式化:123,456,789

源字符串:1234567890     格式化:1,234,567,890

源字符串:12.345         格式化:12.345

源字符串:123.456        格式化:123.456

源字符串:1234.56        格式化:1,234.56

源字符串:12345.6789     格式化:12,345.6789

源字符串:123456.789     格式化:123,456.789

源字符串:1234567.89     格式化:1,234,567.89

源字符串:12345678.9     格式化:12,345,678.9

實現(xiàn)分析:

首先根據(jù)需求可以確定是把一些特定的位置替換為“,”,接下來就是分析并找到這些位置的規(guī)律,并抽象出來以正則表達(dá)式來表示。

1、   這個位置的左側(cè)必須為數(shù)字

2、   這個位置右側(cè)到出現(xiàn)“.”或結(jié)尾為止,必須是數(shù)字,且數(shù)字的個數(shù)必須為3的倍數(shù)

3、   這個位置左側(cè)相隔任意個數(shù)字不能出現(xiàn)“.”

由以上三條,就可以完全確定這些位置,只要實現(xiàn)以上三條,組合一下正則表達(dá)式就可以了。

根據(jù)分析,最終匹配的結(jié)果是一個位置,所以所有子表達(dá)式都要求是零寬度。

1、   是對當(dāng)前所在位置左側(cè)附加的條件,所以要用到逆序環(huán)視,因為要求必須出現(xiàn),所以是肯定的,符合這一條件的子表達(dá)式即為“(?=\d)

2、   是對當(dāng)前所在位置右側(cè)附加的條件,所以要用到順序環(huán)視,也是要求出現(xiàn),所以是肯定的,是數(shù)字,且個數(shù)為3的倍數(shù),即“(?=(?:\d{3})*)”,到出現(xiàn)“.”或結(jié)尾為止,即“(?=(?:\d{3})*(?:\.|$))

3、   是對當(dāng)前所在位置左側(cè)附加的條件,所以要用到逆序環(huán)視,因為要求不能出現(xiàn),所以是否定的,即“(?!\.\d*)

因為零寬度的子表達(dá)式是非互斥的,最后匹配的都是同一個位置,所以先后順序是不影響最后的匹配結(jié)果的,可以任意組合,只是習(xí)慣上把逆序環(huán)視寫在左側(cè),順序環(huán)視寫在右側(cè)。

您可能感興趣的文章:
  • 正則表達(dá)式中環(huán)視的簡單應(yīng)用示例【基于java】
  • 正則應(yīng)用之 逆序環(huán)視探索 .
  • 正則匹配原理之 逆序環(huán)視深入 .
  • javascript 正則表達(dá)式分組、斷言詳解
  • 正則表達(dá)式之零寬斷言實例詳解【基于PHP】
  • 正則表達(dá)式零寬斷言詳解
  • 正則表達(dá)式斷言、巡視(Assertions)、正向斷言、反向斷言介紹
  • 正則表達(dá)式環(huán)視概念與用法分析

標(biāo)簽:秦皇島 怒江 玉林 昆明 河北 西寧 吉林 茂名

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《正則基礎(chǔ)之 環(huán)視 Lookaround》,本文關(guān)鍵詞  正則,基礎(chǔ),之,環(huán)視,Lookaround,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《正則基礎(chǔ)之 環(huán)視 Lookaround》相關(guān)的同類信息!
  • 本頁收集關(guān)于正則基礎(chǔ)之 環(huán)視 Lookaround的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章