ELMo-data #3

2hip3ng · 2018-12-21T08:27:55Z

数据可用分享一份吗

YC-wind · 2018-12-21T08:39:51Z

@2hip3ng 数据是自己爬的，没有什么特殊的地方，数据格式就是分词后的文件：

美好 的 生活 ， 离 不 开 越来越 鼓 的 “ 钱 袋子 ” ， 同样 离 不 开 的 还有 干净 整洁 有序 的 “ 美 村子 ”

一行行这样的就行，中文的ELMO觉得还是字向量比较好一些。

2hip3ng · 2018-12-21T08:42:26Z

嗯，老板让我训一个ELMo的字向量

2hip3ng · 2018-12-21T08:43:14Z

你是用每个词作为一个输入吧

YC-wind · 2018-12-21T08:45:02Z

输入是 (batch_size,max_seq_word_len,max_char_len) ,
输出是(batch_size,max_seq_word_len) ,后移一位

2hip3ng · 2018-12-21T08:47:05Z

max_seq_word_len就是分词之后的最大词长度吧

YC-wind · 2018-12-21T08:49:35Z

@2hip3ng 一句话最多有多少个单词组成，不足就padding，max_char_len及时一个单词最多由多少个字组成，不足同样padding

2hip3ng · 2018-12-21T08:49:35Z

可不可以直接用sentence来训这个字向量，就是max_seq_word_len换成最大sentence长度。

YC-wind · 2018-12-21T08:53:30Z

你可以试一下，哈哈，有收获记得和大家分享下😄

2hip3ng · 2018-12-21T08:54:39Z

可以，我老板应该是要我直接用句子训，没看论文，不知道论文是用词训的还是句子训的啊？

YC-wind · 2018-12-21T08:56:17Z

你是工作了，还是学生啊。预测是学生😄

2hip3ng · 2018-12-21T08:59:04Z

哈哈，是啊，你咋知道的啊，你呢

YC-wind · 2018-12-21T09:02:09Z

深度学习学出来的，😄（有“老板”这个关键字）

2hip3ng · 2018-12-21T09:03:26Z

我加你QQ了，额额

JepsonWong · 2019-01-07T11:52:07Z

想请教一下：
1.中文的ELMO是不是词向量比较好一些，因为中文词基本2到4个字，卷积基本一次就没了。
2.还有，直接用sentence来训这个字向量是什么意思呀？为什么用sentence来训练的话是把max_seq_word_len换成最大sentence长度？现在max_seq_word_len指的不就是一个句子中的单词个数吗，不足的话补padding。
谢谢！@YC-wind

YC-wind · 2019-01-07T12:22:32Z

@JepsonWong 1、词向量会好一些，但是会占用较大的内存，因为每个字的组合会很多，最后decode时候会很慢，而字向量相对较少，常用的差不多2000左右，词的话就会大的多；2、用sentence理论是可以的，但是不现实，文本按照这个层级，就是 text-seq-word-char;这个就偏长文本了，层次多了。

YC-wind · 2019-01-07T12:29:04Z

综合，建议还是使用字向量好一些，因为分词还有误差呢。😄

JepsonWong · 2019-01-07T12:44:27Z

综合，建议还是使用字向量好一些，因为分词还有误差呢。😄

好的多谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ELMo-data #3

ELMo-data #3

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018 •

edited

Loading

2hip3ng commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

JepsonWong commented Jan 7, 2019

YC-wind commented Jan 7, 2019 •

edited

Loading

YC-wind commented Jan 7, 2019

JepsonWong commented Jan 7, 2019

ELMo-data #3

ELMo-data #3

Comments

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018 • edited Loading

2hip3ng commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

YC-wind commented Dec 21, 2018

2hip3ng commented Dec 21, 2018

JepsonWong commented Jan 7, 2019

YC-wind commented Jan 7, 2019 • edited Loading

YC-wind commented Jan 7, 2019

JepsonWong commented Jan 7, 2019

YC-wind commented Dec 21, 2018 •

edited

Loading

YC-wind commented Jan 7, 2019 •

edited

Loading