Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ELMo-data #3

Open
2hip3ng opened this issue Dec 21, 2018 · 17 comments
Open

ELMo-data #3

2hip3ng opened this issue Dec 21, 2018 · 17 comments

Comments

@2hip3ng
Copy link

2hip3ng commented Dec 21, 2018

数据可用分享一份吗

@YC-wind
Copy link
Owner

YC-wind commented Dec 21, 2018

@2hip3ng 数据是自己爬的,没有什么特殊的地方,数据格式就是分词后的文件:

美好 的 生活 , 离 不 开 越来越 鼓 的 “ 钱 袋子 ” , 同样 离 不 开 的 还有 干净 整洁 有序 的 “ 美 村子 ”

一行行这样的就行,中文的ELMO觉得还是字向量比较好一些。

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

嗯,老板让我训一个ELMo的字向量

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

你是用每个词作为一个输入吧

@YC-wind
Copy link
Owner

YC-wind commented Dec 21, 2018

输入是 (batch_size,max_seq_word_len,max_char_len) ,
输出是(batch_size,max_seq_word_len) ,后移一位

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

max_seq_word_len就是分词之后的最大词长度吧

@YC-wind
Copy link
Owner

YC-wind commented Dec 21, 2018

@2hip3ng 一句话最多有多少个单词组成,不足就padding,max_char_len及时一个单词最多由多少个字组成,不足同样padding

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

可不可以直接用sentence来训这个字向量,就是max_seq_word_len换成最大sentence长度。

@YC-wind
Copy link
Owner

YC-wind commented Dec 21, 2018

你可以试一下,哈哈,有收获记得和大家分享下😄

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

可以,我老板应该是要我直接用句子训,没看论文,不知道论文是用词训的还是句子训的啊?

@YC-wind
Copy link
Owner

YC-wind commented Dec 21, 2018

你是工作了,还是学生啊。预测是学生😄

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

哈哈,是啊,你咋知道的啊,你呢

@YC-wind
Copy link
Owner

YC-wind commented Dec 21, 2018

深度学习学出来的,😄(有“老板”这个关键字)

@2hip3ng
Copy link
Author

2hip3ng commented Dec 21, 2018

我加你QQ了,额额

@JepsonWong
Copy link

想请教一下:
1.中文的ELMO是不是词向量比较好一些,因为中文词基本2到4个字,卷积基本一次就没了。
2.还有,直接用sentence来训这个字向量是什么意思呀?为什么用sentence来训练的话是把max_seq_word_len换成最大sentence长度?现在max_seq_word_len指的不就是一个句子中的单词个数吗,不足的话补padding。
谢谢!@YC-wind

@YC-wind
Copy link
Owner

YC-wind commented Jan 7, 2019

@JepsonWong 1、词向量会好一些,但是会占用较大的内存,因为每个字的组合会很多,最后decode时候会很慢,而字向量相对较少,常用的差不多2000左右,词的话就会大的多;2、用sentence理论是可以的,但是不现实,文本按照这个层级,就是 text-seq-word-char;这个就偏长文本了,层次多了。

@YC-wind
Copy link
Owner

YC-wind commented Jan 7, 2019

综合,建议还是使用字向量好一些,因为分词还有误差呢。😄

@JepsonWong
Copy link

综合,建议还是使用字向量好一些,因为分词还有误差呢。😄

好的 多谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants