AirClientWeb项目是一个航空公司客户数据可视化项目,本项目的技术栈基于 Spring Boot 框架,整合了 Thymeleaf 模板引擎、MyBatis ORM、MySQL 数据库、Druid 连接池以及 Log4j2 日志管理等技术
本项目使用的数据集是RITA数据集,它是美国国内商业航班从1987年到2008年航班到达和起飞详细信息的航空公司数据集,该数据集是以逗号分隔的CSV格式,数据集下载位置:http://stat-computing.org/dataexpo/2009/the-data.html
考虑到设备处理性能,我们并没有用这个完整的数据,我们截取其中的一部分(大概6万条数据)进行分析和处理
本项目使用 HDFS + Hive + HBase 技术进行数据处理和存储,并通过 Sqoop 技术将数据存储到 Mysql 数据库中
为了模拟分布式计算环境,我们构建了一个由三台 CentOS 虚拟机组成的集群。在这个集群中,一台虚拟机被配置为主节点,负责协调和管理整个计算流程;其余两台虚拟机则作为从节点,执行具体的计算任务