形態素解析
意味を持つ最小の記号・文字列の単位を形態素(morpheme)という。
文を形態素ごとに分割し、品詞や記号の名称等を付け加える作業を形態素解析という。
例えば、
“私の名前は、βshortです。ブログを書いています”
これを形態素解析した結果は下のようになる。(MeCabで実行した)
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
β 記号,アルファベット,*,*,*,*,β,ベータ,ベータ
short 名詞,一般,*,*,*,*,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
ブログ 名詞,一般,*,*,*,*,*
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
書い 動詞,自立,*,*,五段・カ行イ音便,連用タ接続,書く,カイ,カイ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
い 動詞,非自立,*,*,一段,連用形,いる,イ,イ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS
日本語の代表的な形態素解析ツール
- JUMAN
- ChaSen
- MeCab
など
日本語の形態素解析
- MeCab
- janome
MeCab
import MeCab text = "私の名前は、βshortです。ブログを書いています" t = MeCab.Tagger('') print(t.parse(text))
英語の形態素解析
- NLTK