hltbyr / NLHack Public

Notifications You must be signed in to change notification settings
Fork 1
Star 2

A novel approach to generate word embeddings for Turkish language #Acıkhack2021

2 stars 1 fork Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.ipynb_checkpoints		.ipynb_checkpoints
.vscode		.vscode
__pycache__		__pycache__
data		data
.gitattributes		.gitattributes
LICENSE		LICENSE
README.md		README.md
data.py		data.py
evaluate.py		evaluate.py
models.py		models.py
train.ipynb		train.ipynb
utils.py		utils.py

Repository files navigation

NLHack

A novel approach to generate word embeddings for Turkish language #Acıkhack2021

Data:

"42 bin haber" from http://www.kemik.yildiz.edu.tr/veri_kumelerimiz.html
"69 yazar" from http://www.kemik.yildiz.edu.tr/veri_kumelerimiz.html
"270 köşeyazısı" from http://www.kemik.yildiz.edu.tr/veri_kumelerimiz.html
"630 köşeyazısı" from http://www.kemik.yildiz.edu.tr/veri_kumelerimiz.html
"1150 haber" from http://www.kemik.yildiz.edu.tr/veri_kumelerimiz.html
"Old Newspapers" from https://www.kaggle.com/alvations/old-newspapers (Turkish part of the dataset)
"Turkish wiki dump" from https://www.kaggle.com/mustfkeskin/turkish-wikipedia-dump

Used external libraries:

pandas
Corpus-py from https://github.com/StarlangSoftware/Corpus-Py

About

A novel approach to generate word embeddings for Turkish language #Acıkhack2021

nlp acikhack2021

Report repository

Releases

No releases published

Packages

No packages published

Contributors 2

Languages