用beautifulsoup并不能將全部的去除得到剩余的txt,特別在興趣段找關鍵字的時候。
使用re模塊可以實現這個功能。
for a in a_d:em_name = str(a.find('em'))pattern = re.compile(r'<[^>]+>', re.S)result = pattern.sub('', em_name)result = result.strip('\n')name_value.append(result)
假設a_d是find_all得到的興趣模塊
循環進入后先使用find找到模塊內層興趣模塊,比如<em>
使用pattern來查找其中帶有<>的修飾詞
用sub剔除這些修飾詞得到result
剔除其中的回車符號,可選
最后將這些關鍵字append到list
該語法的關鍵是re模塊匹配的正則表達式。