正規表現でテキストをクリーニング

自然言語処理




正規表現でテキストをクリーニング-テキトーです

テキトーです

正規表現とは

text = re.sub(r',', '', text)
text = re.sub(r'\(.*?\)', '', text)
# アルファベット
p = re.compile('[a-z]+')
p.findall(textdata)

# 数字
p = re.compile('[1-9]+')
p.findall(textdata)

# [#]を抽出
annotations = re.compile(r'[#.*?]')
annotations.findall(textdata)
タイトルとURLをコピーしました