Skip to content

Latest commit

 

History

History
69 lines (56 loc) · 7.32 KB

README.md

File metadata and controls

69 lines (56 loc) · 7.32 KB

English | 简体中文

autox_nlp是什么

AutoX_nlp 是针对文本数据进行处理的辅助工具。 它的特点包括:

  • 效果出色:基于该工具与AutoX通用自动化建模的解决方案,在多个kaggle数据集上,效果显著优于其他解决方案(见效果对比)。
  • 高效处理:该工具在不同字符长度的文本数据处理上,速度显著优于其他AutoML的文本处理工具(见处理效率对比)。
  • 多方式提取:该工具支持TFIDF、Word2Vec、Glove、FastText、Bert 和 Zero-shot labeling 六种特征提取方式。
  • 多样化特征:支持直接输出Embedding特征,也支持输出离散型、连续型特征。
框架图

目录

安装

github仓库安装

git clone https://github.com/4paradigm/autox.git
## github访问速度较慢时可以通过gitee地址 https://gitee.com/poteman/autox
pip install ./autox

pip安装

## pip安装包可能更新不及时,建议用github安装方式安装最新版本
!pip install automl-x -i https://www.pypi.org/simple/

比赛案例

效果对比处理效率对比。 点击表格中的超链接可跳转至kaggle平台的线上demo,无需配置环境直接运行

快速上手

如何给AutoX_nlp做贡献

如何给AutoX_nlp做贡献

效果对比

Task type Dataset name Evaluation Metric AutoX AutoGluon H2o
Regression CommonlitReadability RMSE 0.597 1.022 1.023
Regression Amazonbookprice RMSE 629.792 687.870 642.167
Regression MercariPrice RMSE 32.042 34.500 43.960
Classification Titanic AUC 0.794 0.780 0.768
Classification Stumbleupon AUC 0.855 0.503 0.707
Classification DisasterTweets AUC 0.786 0.746 0.721

处理效率对比

使用文本处理工具,将数据集中特定文本列 (不同文本列的平均字符数不同) 转化为数值特征,统计整个流程所用时间并除以文本条数,得到处理效率 (TPS)。
注:不同工具处理方式不同,具体流程可以点击表格中的超链接访问对应demo查看。

Dataset Text Column Average Text Length TPS AutoX AutoGluon H2O
MercariPrice BrandName 6 item/s 3480.66 127.15 979.18
MercariPrice CategoryName 30 item/s 2215.40 118.92 656.80
MercariPrice ItemDescription 150 item/s 466.73 65.46 183.14
TMDBBoxOffice Overview 300 item/s 282.73 20.74 79.18
CommonlitReadability Excerpt 1000 item/s 103.99 12.39 30.30