400-888-4851
掌握Hadoop/Spark生态体系,完成从Linux基础到机器学习的企业级项目实战
教学模块 | 核心技术点 |
Linux系统管理 | Shell脚本编程、Apache服务配置、系统性能优化 |
Hadoop生态体系 | HDFS分布式存储、MapReduce计算模型、Hive数据仓库 |
Spark实战开发 | 实时流处理、机器学习库MLlib、GraphX图计算 |
从文件权限管理到内核编译,掌握Shell脚本自动化运维技巧。通过LAMP环境搭建实战,完成Web服务器集群部署。
基于电商用户行为数据,完成Hive数据仓库构建。通过MapReduce实现海量数据清洗,结合Sqoop实现关系型数据库同步。
基于Spark MLlib构建推荐算法模型,使用HBase存储用户特征数据。通过Flume实时采集用户行为日志,最终生成可视化分析报告。
技术栈:Spark Streaming + Kafka + ElasticSearch
运用Python机器学习库构建信用评分模型,利用Hadoop进行大规模数据处理。通过Tableau实现多维数据可视化展示。
技术栈:Scikit-learn + Hive + Impala