gensimで、日本語のword2vec

自然言語処理




gensimで、日本語のword2vec

gensimの準備

pip install gensim

日本語 Wikipedia エンティティベクトルの学習済みモデルを使う。

gensim

モデルの訓練&変換と、学習済みモデルを使った変換を行う。

モデル学習して変換する

参考:Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ 10-titanicの先へ行く-テキストデータに触れてみよう

from gensim.models import word2vec
model = word2vec.Word2Vec(text_data,
                          size=10,
                          min_count=1,
                          window=2,
                          seed=7
                         )
model.wv['keyword']
model.wv.most_similar('keyword')

学習済みのモデルを使ってみる

参考:学習済みWord2Vec モデルをサクッと使ってみる

from gensim.models import KeyedVectors

model_dir = './entity_vector.model.bin'
model = KeyedVectors.load_word2vec_format(model_dir, binary=True)
results = model.most_similar(u'[ディープラーニング]')
for result in results:
    print(result)

出力

('[機械学習]', 0.6342067122459412)
('[グリッド・コンピューティング]', 0.5937871932983398)
('[タンパク質構造予測]', 0.5929729342460632)
('[クリティカルパス法]', 0.5910710096359253)
('[デジタル信号処理]', 0.5864137411117554)
('[量子コンピュータ]', 0.5849090814590454)
('[分散コンピューティング]', 0.5813807249069214)
('[分子動力学]', 0.577800989151001)
('[データマイニング]', 0.5750172734260559)
('[モンテカルロ法]', 0.5733920335769653)

参考

  1. 学習済みWord2Vec モデルをサクッと使ってみる
  2. 日本語 Wikipedia エンティティベクトル
タイトルとURLをコピーしました