我正在嘗試將包含2個不同字符的序列的字符串拆分為多個組.如果我們假設字符是a和b,則用于分組的純文本規則為:
>組包含0 a,后跟1 b
>后面的所有a都包含在下一組中,除非我們在單詞末尾.
例如:處理測試后,目標是分成預期的組.
tests = ['abab',
'ababab',
'aabab',
'aababa',
'aba',
'baba']
expected = [['ab','ab'],
['ab','ab','ab'],
['aab','ab'],
['aab','aba'],
['aba'],
['b','aba']]
我最近得到的是以下內容:
import re
# filter() returns iterator not list in Python 3
def testing(s):
return list(filter(None, re.compile('(a*b+a*(?=$))').split(s)))
output = [testing(s) for s in tests]
output
[['ab', 'ab'], ['abab', 'ab'], ['aab', 'ab'], ['aab', 'aba'], ['aba']]
在1-2組上效果很好,但對于大于1-2的組效果不好,這意味著我的正則表達式需要改進.我應該重新考慮這種方法嗎?我可能可以使用for循環來做一些蠻力的工作,但是希望能做些更優雅的事情.
N.B .: This post使我相信.split()可能不是這里的解決方法,但是到目前為止,我已經獲得了最好的結果.