From 618a3906a06c5dc1927b0314e323faf0c5fe5c8d Mon Sep 17 00:00:00 2001 From: way Date: Thu, 4 Feb 2021 20:00:10 +0800 Subject: [PATCH] =?UTF-8?q?update=20jupyter=20notebook=20=E7=9B=B8?= =?UTF-8?q?=E5=85=B3=E8=AF=B4=E6=98=8E?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .gitattributes | 1 + .gitignore | 1 + ...\346\215\256\345\210\206\346\236\220.html" | 57593 ---------------- README.md | 20 +- 4 files changed, 15 insertions(+), 57600 deletions(-) create mode 100644 .gitattributes delete mode 100644 "DeathCompany/\345\200\222\351\227\255\344\274\201\344\270\232\346\225\260\346\215\256\345\210\206\346\236\220.html" diff --git a/.gitattributes b/.gitattributes new file mode 100644 index 0000000..9030923 --- /dev/null +++ b/.gitattributes @@ -0,0 +1 @@ +*.ipynb linguist-vendored \ No newline at end of file diff --git a/.gitignore b/.gitignore index 59f2a17..ee1d626 100644 --- a/.gitignore +++ b/.gitignore @@ -2,3 +2,4 @@ /rent.db *csv */.ipynb_checkpoints/ +*html \ No newline at end of file diff --git "a/DeathCompany/\345\200\222\351\227\255\344\274\201\344\270\232\346\225\260\346\215\256\345\210\206\346\236\220.html" "b/DeathCompany/\345\200\222\351\227\255\344\274\201\344\270\232\346\225\260\346\215\256\345\210\206\346\236\220.html" deleted file mode 100644 index 3704091..0000000 --- "a/DeathCompany/\345\200\222\351\227\255\344\274\201\344\270\232\346\225\260\346\215\256\345\210\206\346\236\220.html" +++ /dev/null @@ -1,57593 +0,0 @@ - - - - -倒闭企业数据分析 - - - - - - - - - - - - - - - - - - - - - - -
-
- -
-
-
-

1. 数据集说明

这是一份来自和鲸社区的倒闭企业数据集,总计 6,272 条记录,大小为 2.3 M,包含 21 个字段。

- -
-
-
-
-
-
In [2]:
-
-
-
import pandas as pd 
-data = pd.read_csv('com.csv')
-data.head()
-
- -
-
-
- -
-
- - -
- -
Out[2]:
- - - -
-
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
bianhcom_namecom_addrcatse_catcom_desborn_datadeath_datalive_daysfinancing...death_reasoninvest_nameceo_nameceo_desceo_per_desUnnamed: 16Unnamed: 17Unnamed: 18Unnamed: 19Unnamed: 20
01麦子金服上海金融借贷麦子金服是一家移动互联网金融服务集团,为个人和企业提供包括财富管理、股权投资、投融资咨询等综...2015-03-012019-11-251730B轮...政策监管 法律法规风险海通开元&中缔资本黄大容董事长黄大容,80后,经济学硕士,精通中英德三国语言。连续创业者,23岁创立第一家公司,25岁涉足...NaNNaNNaNNaNNaN
11拓道金服浙江金融借贷拓道金服是一家专注于汽车抵押贷款这一细分市场的P2P互联网金融公司。拓道金服通过互联网民间的...2013-11-012019-11-242214A轮...政策监管 法律法规风险蓝山中国资本&帮实资本&宏桥资本张罗军创始人杭州拓道科技有限公司执行董事兼总经理,重庆邮电学院计算机专业,创立杭州仁润科技有限公司,具有...NaNNaNNaNNaNNaN
21云柏科技广东医疗健康医疗器械及硬件云柏科技是一家智能健康检测腕表研发商,专注于智能可穿戴设备领域。主要产品包括可穿戴式多功能云...2014-09-012019-11-011887尚未获投...行业竞争NaNNaNNaNNaNNaNNaNNaNNaNNaN
31迷你生鲜福建电子商务生鲜食品迷你生鲜是一家会员制水果生鲜电商网站,平台产品由基地直供,采购深入全国及东南亚各地区,减少中...2017-11-012019-10-29727尚未获投...现金流断裂 行业竞争NaNNaNNaNNaNNaNNaNNaNNaNNaN
41一生健康北京医疗健康寻医诊疗微爱康一款基于移动互联网的癌症患者互助型垂直社区产品,通过在线社会化问答和类轻博客交流模式,...2015-01-012019-10-171750尚未获投...政策监管 法律法规风险NaN张耀斌CEO张耀斌,为一生(北京)健康科技有限公司的创始人。NaNNaNNaNNaNNaN
-

5 rows × 21 columns

-
-
- -
- -
-
- -
-
-
-
-

2、数据分析可视化

-
-
-
-
-
-
-

2.1 死亡公司的地区分布

-
-
-
-
-
-
In [3]:
-
-
-
from pyecharts import options as opts
-from pyecharts.charts import Map
-
-data['com_addr'] = data['com_addr'].apply(lambda x: x.strip())
-s = data.groupby('com_addr').size()
-
-c = (
-Map()
-    .add("死亡企业数量", [*s.items()], "china")
-    .set_global_opts(
-        title_opts=opts.TitleOpts(title="地区分布"),
-        visualmap_opts=opts.VisualMapOpts(max_=200),
-    )
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[3]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.2 行业排行TOP10

-
-
-
-
-
-
In [4]:
-
-
-
from pyecharts import options as opts
-from pyecharts.charts import Bar
-from pyecharts.faker import Faker
-
-s = data.groupby('cat').size().sort_values(ascending=False)[:10].to_dict()
-
-c = (
-    Bar()
-    .add_xaxis(list(s.keys()))
-    .add_yaxis("死亡企业数量", list(s.values()))
-    .set_global_opts(title_opts=opts.TitleOpts(title="行业排行TOP10"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[4]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.3 细分领域TOP20

-
-
-
-
-
-
In [5]:
-
-
-
s = data.groupby('se_cat').size().sort_values(ascending=False)[:20].sort_values(ascending=True).to_dict()
-
-c = (
-    Bar()
-    .add_xaxis(list(s.keys()))
-    .add_yaxis("死亡企业数量", list(s.values()))
-    .reversal_axis()
-    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
-    .set_global_opts(title_opts=opts.TitleOpts(title="细分领域TOP20"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[5]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.4 年份分布

-
-
-
-
-
-
In [6]:
-
-
-
data['born_year'] = data['born_data'].apply(lambda x: x[:4])
-data['death_year'] = data['death_data'].apply(lambda x: x[:4])
-s1 = data.groupby('born_year').size()
-s2 = data.groupby('death_year').size()
-s1 = pd.DataFrame({'year': s1.index, 'born': s1.values})
-s2 = pd.DataFrame({'year': s2.index, 'death': s2.values})
-s = pd.merge(s1,s2, on='year', suffixes=['born', 'death'])
-s = s[s['year'] > '2008']
-
-c = (
-    Bar()
-    .add_xaxis( s['year'].to_list())
-    .add_yaxis("新生企业数量", s['born'].to_list())
-    .add_yaxis("死亡企业数量", s['death'].to_list())
-    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[6]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.5 企业存活时长

-
-
-
-
-
-
In [7]:
-
-
-
def live_year(x):
-    if x < 365:
-        return '不到1年'
-    if x < 365 * 2:
-        return '1-2年'
-    if x < 365 * 3:
-        return '2-3年'
-    if x < 365 * 4:
-        return '3-4年'
-    if x < 365 * 5:
-        return '4-5年'
-    if x < 365 * 10:
-        return '5-10年'
-    return '10年以上'
-
-s = data.groupby(data['live_days'].apply(lambda x: live_year(x))).size()
-
-from pyecharts import options as opts
-from pyecharts.charts import Pie
-
-c = (
-    Pie()
-    .add("", [*s.items()])
-    .set_global_opts(title_opts=opts.TitleOpts(title="企业存活时长"))
-    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[7]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.6 投资人词云

-
-
-
-
-
-
In [8]:
-
-
-
from pyecharts import options as opts
-from pyecharts.charts import WordCloud
-from pyecharts.globals import SymbolType
-
-invest = {}
-for row in data['invest_name'].values:
-    if not pd.isnull(row):
-        for name in row.split('&'):
-            invest[name] = invest.get(name, 0) + 1
-               
-c = (
-    WordCloud()
-    .add("", [*invest.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
-    .set_global_opts(title_opts=opts.TitleOpts(title="投资人词云"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[8]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.7 倒闭原因词云

-
-
-
-
-
-
In [9]:
-
-
-
death_reason = {}
-for row in data['death_reason'].values:
-    if not pd.isnull(row):
-        for name in row.split(' '):
-            death_reason[name] = death_reason.get(name, 0) + 1
-               
-c = (
-    WordCloud()
-    .add("", [*death_reason.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
-    .set_global_opts(title_opts=opts.TitleOpts(title="倒闭原因词云"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[9]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
-
-

2.8 ceo描述词云

-
-
-
-
-
-
In [12]:
-
-
-
import jieba
-ceo_per_des = {}
-for row in data['ceo_per_des'].values:
-    if not pd.isnull(row):
-        result = jieba.lcut(row)
-        for name in result:
-            if len(name) == 1:
-                break
-            ceo_per_des[name] = ceo_per_des.get(name, 0) + 1
-
-c = (
-    WordCloud()
-    .add("", [*ceo_per_des.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
-    .set_global_opts(title_opts=opts.TitleOpts(title="ceo描述词云"))
-)
-c.render_notebook()
-
- -
-
-
- -
-
- - -
- -
Out[12]:
- - - -
- - - -
- - - -
- -
- -
-
- -
-
-
- - - - - - diff --git a/README.md b/README.md index e7f4c2f..d61ebf8 100644 --- a/README.md +++ b/README.md @@ -10,17 +10,23 @@ - 增加大数据批处理、流处理的实践经验 - 增加数据挖掘的实践经验 +## tip + +- 主要使用的编程语言是 python、sql、hql +- .ipynb 可以用 jupyter notebook 打开,如何安装 [jupyter notebook](http://blog.turboway.top/article/jupyter/) +>jupyter notebook 是一种网页交互形式的 python 编辑器,直接通过 pip 安装,也支持 markdown,很适合用来做数据分析可视化以及写文章、写示例代码等。 + ## list | 主题 | 处理方式 | 技术栈 | 数据集下载 | | ------------ | ------------ | ------------ | ------------ | -| [1 亿条淘宝用户行为数据分析](https://github.com/TurboWay/bigdata_analyse/blob/master/UserBehaviorFromTaobao_Batch/用户行为数据分析.md) | 离线处理 | 清洗 hive + 分析 hive + 可视化 echarts | [阿里云](https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1) 或者 [百度网盘](https://pan.baidu.com/s/15Ss-nDMA120EHhuwpzYm0g) 提取码:5ipq | -| [1000 万条淘宝用户行为数据实时分析](https://github.com/TurboWay/bigdata_analyse/blob/master/UserBehaviorFromTaobao_Stream/用户行为数据实时分析.md) | 实时处理 | 数据源 kafka + 实时分析 flink + 可视化(es + kibana) | [百度网盘](https://pan.baidu.com/s/1wDVQpRV7giIlLJJgRZAInQ) 提取码:gja5 | -| [300 万条《野蛮时代》的玩家数据分析](https://github.com/TurboWay/bigdata_analyse/blob/master/AgeOfBarbarians/野蛮时代数据分析.md) | 离线处理 | 清洗 pandas + 分析 mysql + 可视化 pyecharts | [百度网盘](https://pan.baidu.com/s/1Mi5lvGDF405Nk8Y2BZDzdQ) 提取码:paq4 | -| [130 万条深圳通刷卡数据分析](https://github.com/TurboWay/bigdata_analyse/blob/master/SZTcard/深圳通刷卡数据分析.md) | 离线处理 | 清洗 pandas + 分析 impala + 可视化 dbeaver | [百度网盘](https://pan.baidu.com/s/1WslwKXKhVH1q_6u4SvuKkQ) 提取码:t561 | -| [10 万条厦门招聘数据分析](https://github.com/TurboWay/bigdata_analyse/blob/master/AmoyJob/2021厦门招聘数据分析.md) | 离线处理 | 清洗 pandas + 分析 hive + 可视化 ( hue + pyecharts ) + 预测 sklearn | [百度网盘](https://pan.baidu.com/s/199_Rss8Y2nLBAbM1qBycgA) 提取码:ef1n | -| [7000 条租房数据分析](https://github.com/TurboWay/bigdata_analyse/blob/master/RentFromDanke/租房数据分析.md) | 离线处理 | 清洗 pandas + 分析 sqlite + 可视化 matplotlib | [百度网盘](https://pan.baidu.com/s/1l1x5qurJdkyUxAuhknj_Qw) 提取码:9en3 | -| [6000 条倒闭企业数据分析](https://github.com/TurboWay/bigdata_analyse/blob/master/DeathCompany/倒闭企业数据分析.html) | 离线处理 | 清洗 pandas + 分析 pandas + 可视化 (jupyter notebook + pyecharts) | [百度网盘](https://pan.baidu.com/s/1W1KT2XialQK7gmyXdszfKw) 提取码:y7x4 | +| [1 亿条淘宝用户行为数据分析](https://github.com/TurboWay/bigdata_analyse/blob/main/UserBehaviorFromTaobao_Batch/用户行为数据分析.md) | 离线处理 | 清洗 hive + 分析 hive + 可视化 echarts | [阿里云](https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1) 或者 [百度网盘](https://pan.baidu.com/s/15Ss-nDMA120EHhuwpzYm0g) 提取码:5ipq | +| [1000 万条淘宝用户行为数据实时分析](https://github.com/TurboWay/bigdata_analyse/blob/main/UserBehaviorFromTaobao_Stream/用户行为数据实时分析.md) | 实时处理 | 数据源 kafka + 实时分析 flink + 可视化(es + kibana) | [百度网盘](https://pan.baidu.com/s/1wDVQpRV7giIlLJJgRZAInQ) 提取码:gja5 | +| [300 万条《野蛮时代》的玩家数据分析](https://github.com/TurboWay/bigdata_analyse/blob/main/AgeOfBarbarians/野蛮时代数据分析.md) | 离线处理 | 清洗 pandas + 分析 mysql + 可视化 pyecharts | [百度网盘](https://pan.baidu.com/s/1Mi5lvGDF405Nk8Y2BZDzdQ) 提取码:paq4 | +| [130 万条深圳通刷卡数据分析](https://github.com/TurboWay/bigdata_analyse/blob/main/SZTcard/深圳通刷卡数据分析.md) | 离线处理 | 清洗 pandas + 分析 impala + 可视化 dbeaver | [百度网盘](https://pan.baidu.com/s/1WslwKXKhVH1q_6u4SvuKkQ) 提取码:t561 | +| [10 万条厦门招聘数据分析](https://github.com/TurboWay/bigdata_analyse/blob/main/AmoyJob/2021厦门招聘数据分析.md) | 离线处理 | 清洗 pandas + 分析 hive + 可视化 ( hue + pyecharts ) + 预测 sklearn | [百度网盘](https://pan.baidu.com/s/199_Rss8Y2nLBAbM1qBycgA) 提取码:ef1n | +| [7000 条租房数据分析](https://github.com/TurboWay/bigdata_analyse/blob/main/RentFromDanke/租房数据分析.md) | 离线处理 | 清洗 pandas + 分析 sqlite + 可视化 matplotlib | [百度网盘](https://pan.baidu.com/s/1l1x5qurJdkyUxAuhknj_Qw) 提取码:9en3 | +| [6000 条倒闭企业数据分析](https://nbviewer.jupyter.org/github/TurboWay/bigdata_analyse/blob/main/DeathCompany/倒闭企业数据分析.ipynb) | 离线处理 | 清洗 pandas + 分析 pandas + 可视化 (jupyter notebook + pyecharts) | [百度网盘](https://pan.baidu.com/s/1W1KT2XialQK7gmyXdszfKw) 提取码:y7x4 | ## refer