形態素解析とPythonライブラリ

自然言語処理




形態素解析

意味を持つ最小の記号・文字列の単位を形態素(morpheme)という。

文を形態素ごとに分割し、品詞や記号の名称等を付け加える作業を形態素解析という。
例えば、
“私の名前は、βshortです。ブログを書いています”
これを形態素解析した結果は下のようになる。(MeCabで実行した)

私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
β 記号,アルファベット,*,*,*,*,β,ベータ,ベータ
short 名詞,一般,*,*,*,*,*
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
ブログ 名詞,一般,*,*,*,*,*
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
書い 動詞,自立,*,*,五段・カ行イ音便,連用タ接続,書く,カイ,カイ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
い 動詞,非自立,*,*,一段,連用形,いる,イ,イ
ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
EOS

日本語の代表的な形態素解析ツール

  1. JUMAN
  2. ChaSen
  3. MeCab

など

日本語の形態素解析

  1. MeCab
  2. janome

MeCab

import MeCab
text = "私の名前は、βshortです。ブログを書いています"
t = MeCab.Tagger('')
print(t.parse(text))

英語の形態素解析

  1. NLTK

参考

タイトルとURLをコピーしました