正則表達(dá)式是一個(gè)特殊的字符序列,可以幫助您使用模式中保留的專門語(yǔ)法來(lái)匹配或查找其他字符串或字符串集。 正則表達(dá)式在UNIX世界中被廣泛使用。
下面給大家介紹下Python使用正則表達(dá)式去除(過(guò)濾)HTML標(biāo)簽提取文字,具體代碼如下所示:
# -*- coding: utf-8-*- import re ##過(guò)濾HTML中的標(biāo)簽 #將HTML中標(biāo)簽等信息去掉 #@param htmlstr HTML字符串. def filter_tags(htmlstr): #先過(guò)濾CDATA re_cdata=re.compile('//![CDATA[[^>]*//]]>',re.I) #匹配CDATA re_script=re.compile('s*script[^>]*>[^]*s*/s*scripts*>',re.I)#Script re_style=re.compile('s*style[^>]*>[^]*s*/s*styles*>',re.I)#style re_br=re.compile('brs*?/?>')#處理?yè)Q行 re_h=re.compile('/?w+[^>]*>')#HTML標(biāo)簽 re_comment=re.compile('!--[^>]*-->')#HTML注釋 s=re_cdata.sub('',htmlstr)#去掉CDATA s=re_script.sub('',s) #去掉SCRIPT s=re_style.sub('',s)#去掉style s=re_br.sub('n',s)#將br轉(zhuǎn)換為換行 s=re_h.sub('',s) #去掉HTML 標(biāo)簽 s=re_comment.sub('',s)#去掉HTML注釋 #去掉多余的空行 blank_line=re.compile('n+') s=blank_line.sub('n',s) s=replaceCharEntity(s)#替換實(shí)體 return s ##替換常用HTML字符實(shí)體. #使用正常的字符替換HTML中特殊的字符實(shí)體. #你可以添加新的實(shí)體字符到CHAR_ENTITIES中,處理更多HTML字符實(shí)體. #@param htmlstr HTML字符串. def replaceCharEntity(htmlstr): CHAR_ENTITIES={'nbsp':' ','160':' ', 'lt':'','60':'', 'gt':'>','62':'>', 'amp':'','38':'', 'quot':'"','34':'"',} re_charEntity=re.compile(r'#?(?Pname>w+);') sz=re_charEntity.search(htmlstr) while sz: entity=sz.group()#entity全稱,如> key=sz.group('name')#去除;后entity,如>為gt try: htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1) sz=re_charEntity.search(htmlstr) except KeyError: #以空串代替 htmlstr=re_charEntity.sub('',htmlstr,1) sz=re_charEntity.search(htmlstr) return htmlstr def repalce(s,re_exp,repl_string): return re_exp.sub(repl_string,s) if __name__=='__main__': str='' # 需要提取的html字符串 str=filter_tags(str) print(str)
總結(jié)
以上所述是小編給大家介紹的Python使用正則表達(dá)式去除(過(guò)濾)HTML標(biāo)簽提取文字功能 ,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
如果你覺得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!
標(biāo)簽:常州 湖州 大興安嶺 涼山 哈密 本溪 泰安
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python使用正則表達(dá)式去除(過(guò)濾)HTML標(biāo)簽提取文字功能》,本文關(guān)鍵詞 Python,使用,正則,表達(dá)式,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。