Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

是否有参数可以指定分词时,不作联想组合,只返回最小词组? #11

Open
hotoo opened this issue Jan 26, 2014 · 1 comment

Comments

@hotoo
Copy link

hotoo commented Jan 26, 2014

分词模块自动联想合并词组本来是挺好的,但是作为拼音的依赖模块,这个功能反而带来了麻烦。
这种不确定性导致词组拼音库极大的增加,如果可以不做联想,返回最小词组(成语例外)就比较好处理了。比如:

文本 实际结果 期望结果
香港特别行政区 香港特别行政区 香港, 特别, 行政, 区
重庆市 重庆市 重庆, 市
重庆市政府 重庆市, 政府 重庆, 市, 政府
重庆市区 重庆, 市区 重庆, 市区
重庆市民 重庆, 市民 重庆, 市民

注:最小词组也许不准确,比如成语可以继续拆分,应该优先返回成语。

不同的使用场景可以要求不同,比如对于拼音来说,拆分成『最小』、准确的词组会比较好;而对于语义分析坑能联想会较好。

期待你的意见 😃

@hotoo
Copy link
Author

hotoo commented Jan 26, 2014

hotoo/node-pinyin#18

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant