主頁 > 知識庫 > 關(guān)于html字符串正則判斷和匹配的具體使用

關(guān)于html字符串正則判斷和匹配的具體使用

熱門標(biāo)簽:百度競價(jià)點(diǎn)擊價(jià)格的計(jì)算公式 美圖手機(jī) 阿里云 檢查注冊表項(xiàng) 硅谷的囚徒呼叫中心 使用U盤裝系統(tǒng) 智能手機(jī) 網(wǎng)站建設(shè)

前言

最近在寫一個(gè)組件,需要傳入html字符串,里面用到了很多正則來判斷是否是html標(biāo)簽或者匹配標(biāo)簽內(nèi)的文本等,這里記錄下。

如何判斷傳入的字符串包含一個(gè)閉合html標(biāo)簽

  • /<\/?[a-z][\s\S]*>/i

這個(gè)其實(shí)并不能判斷標(biāo)簽閉合的完整性或者順序等,只是判斷字符串中是否有html標(biāo)簽(包含自定義標(biāo)簽),這對我來說足夠了。這給正則里面需要學(xué)習(xí)的就是[\s\S]可以代表一切字符串。

  • /<([a-z][\s\S]*)>.*<\/\1>/i

這個(gè)就更加規(guī)范一些可以匹配一個(gè)完整閉合的標(biāo)簽,\1代表前面的圓括號內(nèi)捕獲的內(nèi)容,是正則的比較高級的用法。

如何匹配出一個(gè)標(biāo)簽內(nèi)的文本內(nèi)容

str = str.replace(/<title>[\s\S]*?<\/title>/, '<title>' + newTitle + '<\/title>');
  • 最好用一個(gè)語義化標(biāo)簽或者自定義標(biāo)簽來做匹配,如果使用div這種一段字符串中可能有好多個(gè)的,問題會很多。
  • [sS]*代表任意字符
  • *后面的?代表非貪婪模式,因?yàn)檎齽t匹配默認(rèn)都是貪婪模式的

總結(jié)

用正則從html標(biāo)簽中匹配文字其實(shí)是一種很低效的方式,不到必要時(shí)候也沒必要去使用,有篇文章深刻的批判了這種行為有興趣可以看一下。

常見正則表達(dá)式

匹配中文字符的正則表達(dá)式: [u4e00-u9fa5]  
評注:匹配中文還真是個(gè)頭疼的事,有了這個(gè)表達(dá)式就好辦了
匹配雙字節(jié)字符(包括漢字在內(nèi)):[^x00-xff]
評注:可以用來計(jì)算字符串的長度(一個(gè)雙字節(jié)字符長度計(jì)2,ASCII字符計(jì)1)
匹配空白行的正則表達(dá)式:ns*r
評注:可以用來刪除空白行
匹配HTML標(biāo)記的正則表達(dá)式:<(S*?)[^>]*>.*?|<.*? />
評注:網(wǎng)上流傳的版本太糟糕,上面這個(gè)也僅僅能匹配部分,對于復(fù)雜的嵌套標(biāo)記依舊無能為力
匹配首尾空白字符的正則表達(dá)式:^s*|s*$
評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達(dá)式
匹配Email地址的正則表達(dá)式:w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
評注:表單驗(yàn)證時(shí)很實(shí)用
匹配網(wǎng)址URL的正則表達(dá)式:^(http|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&amp;:/~\+#]*[\w\-\@?^=%&amp;/~\+#])?$
評注:網(wǎng)上流傳的版本功能很有限,上面這個(gè)基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16字節(jié),允許字母數(shù)字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注:表單驗(yàn)證時(shí)很實(shí)用
匹配國內(nèi)電話號碼:d{3}-d{8}|d{4}-d{7}
評注:匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號:[1-9][0-9]{4,}
評注:騰訊QQ號從10000開始
匹配中國郵政編碼:[1-9]d{5}(?!d)
評注:中國郵政編碼為6位數(shù)字
匹配身份證:d{15}|d{18}
評注:中國的身份證為15位或18位
匹配ip地址:d+.d+.d+.d+
評注:提取ip地址時(shí)有用
匹配特定數(shù)字:
  ^[1-9]d*$    //匹配正整數(shù)
  ^-[1-9]d*$   //匹配負(fù)整數(shù)
  ^-?[1-9]d*$   //匹配整數(shù)
  ^[1-9]d*|0$  //匹配非負(fù)整數(shù)(正整數(shù) + 0)
  ^-[1-9]d*|0$   //匹配非正整數(shù)(負(fù)整數(shù) + 0)
  ^[1-9]d*.d*|0.d*[1-9]d*$   //匹配正浮點(diǎn)數(shù)
  ^-([1-9]d*.d*|0.d*[1-9]d*)$  //匹配負(fù)浮點(diǎn)數(shù)
  ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$  //匹配浮點(diǎn)數(shù)
  ^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$   //匹配非負(fù)浮點(diǎn)數(shù)(正浮點(diǎn)數(shù) + 0)
  ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$  //匹配非正浮點(diǎn)數(shù)(負(fù)浮點(diǎn)數(shù) + 0)
評注:處理大量數(shù)據(jù)時(shí)有用,具體應(yīng)用時(shí)注意修正
匹配特定字符串:
  ^[A-Za-z]+$  //匹配由26個(gè)英文字母組成的字符串
  ^[A-Z]+$  //匹配由26個(gè)英文字母的大寫組成的字符串
  ^[a-z]+$  //匹配由26個(gè)英文字母的小寫組成的字符串
  ^[A-Za-z0-9]+$  //匹配由數(shù)字和26個(gè)英文字母組成的字符串
  ^w+$  //匹配由數(shù)字、26個(gè)英文字母或者下劃線組成的字符串
在使用RegularExpressionValidator驗(yàn)證控件時(shí)的驗(yàn)證功能及其驗(yàn)證表達(dá)式介紹如下:
只能輸入數(shù)字:“^[0-9]*$”
只能輸入n位的數(shù)字:“^d{n}$”
只能輸入至少n位數(shù)字:“^d{n,}$”
只能輸入m-n位的數(shù)字:“^d{m,n}$”
只能輸入零和非零開頭的數(shù)字:“^(0|[1-9][0-9]*)$”
只能輸入有兩位小數(shù)的正實(shí)數(shù):“^[0-9]+(.[0-9]{2})?$”
只能輸入有1-3位小數(shù)的正實(shí)數(shù):“^[0-9]+(.[0-9]{1,3})?$”
只能輸入非零的正整數(shù):“^+?[1-9][0-9]*$”
只能輸入非零的負(fù)整數(shù):“^-[1-9][0-9]*$”
只能輸入長度為3的字符:“^.{3}$”
只能輸入由26個(gè)英文字母組成的字符串:“^[A-Za-z]+$”
只能輸入由26個(gè)大寫英文字母組成的字符串:“^[A-Z]+$”
只能輸入由26個(gè)小寫英文字母組成的字符串:“^[a-z]+$”
只能輸入由數(shù)字和26個(gè)英文字母組成的字符串:“^[A-Za-z0-9]+$”
只能輸入由數(shù)字、26個(gè)英文字母或者下劃線組成的字符串:“^w+$”
驗(yàn)證用戶密碼:“^[a-zA-Z]w{5,17}$”正確格式為:以字母開頭,長度在6-18之間, 只能包含字符、數(shù)字和下劃線。
驗(yàn)證是否含有^%&'',;=?$"等字符:“[^%&'',;=?$x22]+”
只能輸入漢字:“^[u4e00-u9fa5],{0,}$”
驗(yàn)證Email地址:“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”
驗(yàn)證電話號碼:“^((d{3,4})|d{3,4}-)?d{7,8}$”
正確格式為:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,
“XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。
驗(yàn)證身份證號(15位或18位數(shù)字):“^d{15}|d{}18$”
驗(yàn)證一年的12個(gè)月:“^(0?[1-9]|1[0-2])$”正確格式為:“01”-“09”和“1”“12”
驗(yàn)證一個(gè)月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”
正確格式為:“01”“09”和“1”“31”。
匹配中文字符的正則表達(dá)式: [u4e00-u9fa5]
匹配雙字節(jié)字符(包括漢字在內(nèi)):[^x00-xff]
匹配空行的正則表達(dá)式:n[s| ]*r
匹配HTML標(biāo)記的正則表達(dá)式:/<(.*)>.*|<(.*) />/
匹配首尾空格的正則表達(dá)式:(^s*)|(s*$) 

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

標(biāo)簽:通遼 懷化 賀州 湘潭 山南 湖北 煙臺 黃山

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《關(guān)于html字符串正則判斷和匹配的具體使用》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266