-
Notifications
You must be signed in to change notification settings - Fork 27
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
ELMo-data #3
Comments
@2hip3ng 数据是自己爬的,没有什么特殊的地方,数据格式就是分词后的文件:
一行行这样的就行,中文的ELMO觉得还是字向量比较好一些。 |
嗯,老板让我训一个ELMo的字向量 |
你是用每个词作为一个输入吧 |
输入是 (batch_size,max_seq_word_len,max_char_len) , |
max_seq_word_len就是分词之后的最大词长度吧 |
@2hip3ng 一句话最多有多少个单词组成,不足就padding,max_char_len及时一个单词最多由多少个字组成,不足同样padding |
可不可以直接用sentence来训这个字向量,就是max_seq_word_len换成最大sentence长度。 |
你可以试一下,哈哈,有收获记得和大家分享下😄 |
可以,我老板应该是要我直接用句子训,没看论文,不知道论文是用词训的还是句子训的啊? |
你是工作了,还是学生啊。预测是学生😄 |
哈哈,是啊,你咋知道的啊,你呢 |
深度学习学出来的,😄(有“老板”这个关键字) |
我加你QQ了,额额 |
想请教一下: |
@JepsonWong 1、词向量会好一些,但是会占用较大的内存,因为每个字的组合会很多,最后decode时候会很慢,而字向量相对较少,常用的差不多2000左右,词的话就会大的多;2、用sentence理论是可以的,但是不现实,文本按照这个层级,就是 text-seq-word-char;这个就偏长文本了,层次多了。 |
综合,建议还是使用字向量好一些,因为分词还有误差呢。😄 |
好的 多谢 |
数据可用分享一份吗
The text was updated successfully, but these errors were encountered: