gensimで、日本語のword2vec
gensimの準備
pip install gensim
日本語 Wikipedia エンティティベクトルの学習済みモデルを使う。
gensim
モデルの訓練&変換と、学習済みモデルを使った変換を行う。
モデル学習して変換する
参考:Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ 10-titanicの先へ行く-テキストデータに触れてみよう
from gensim.models import word2vec
model = word2vec.Word2Vec(text_data,
size=10,
min_count=1,
window=2,
seed=7
)
model.wv['keyword']
model.wv.most_similar('keyword')
学習済みのモデルを使ってみる
from gensim.models import KeyedVectors
model_dir = './entity_vector.model.bin'
model = KeyedVectors.load_word2vec_format(model_dir, binary=True)
results = model.most_similar(u'[ディープラーニング]')
for result in results:
print(result)
出力
('[機械学習]', 0.6342067122459412)
('[グリッド・コンピューティング]', 0.5937871932983398)
('[タンパク質構造予測]', 0.5929729342460632)
('[クリティカルパス法]', 0.5910710096359253)
('[デジタル信号処理]', 0.5864137411117554)
('[量子コンピュータ]', 0.5849090814590454)
('[分散コンピューティング]', 0.5813807249069214)
('[分子動力学]', 0.577800989151001)
('[データマイニング]', 0.5750172734260559)
('[モンテカルロ法]', 0.5733920335769653)

