@listenviolet
2019-01-25T16:09:33.000000Z
字数 618
阅读 623
cs224n
在cs224n 2019的Lecture 1 的note中,写道:
“In practice, hierarchical softmax tends to be better for infrequent word, while negtive sampling works better for frequent words and lower dimensional vectors.”
读到这里有所疑问,为什么hierarchical的较之negtive sampling对于低频词更好呢?
自己思考了一下,有以下猜想:
举个例子
以cs224n lecture 1 note 4.4 中所给出数据为例:
"is":