

每期班课程都在更新迭代,所授技术与企业需求无缝对接,对标BAT等一线大厂
大数据研发
大数据分析
算法工程师
大数据运维
大数据企业的商业项目直接为学员所用,一线大牛工程师亲自指导实战开发
项目名称 数据采集平台项目
项目简介 本项目主要讲解大数据技术中的数据采集技术,作为大数据的开源活水,教你从头搭建高并发、高可靠、可扩展的海量日志采集系统,供离线和在线数据分析系统使用。
项目架构 Centos7.5 + Nginx + SpringBoot + MySQL5.7 + Flume1.9 + Kafka2.4.1 + Sqoop1.4.6 + Hadoop3.1.3 + Zookeeper3.5.7 + Hive3.1.2 + Shell
项目场景 为大多数企业提供用户行为数据采集、后台业务数据采集的可扩展、高容错的日志收集方案
技术点 Hadoop3.1.3安装、HDFS存储多目录、多磁盘数据均衡、LZO压缩、Hadoop基准测试、Hadoop参数调优;Zookeeper3.5.7安装配置、启动停止脚本;Kafka2.4.1集群配置、Kafka压测、机器数量计算、分区数计算、启动停止脚本;Flume1.9安装、Flume组件和配置、自定义Flume拦截器、Flume的内存优化;Sqoop1.4.6数据导入并保证数据一致性、空值处理、LZO压缩处理;Hive-3.1.2安装配置、启动、优化
项目特色 针对多种多样、数据量大,变化快的数据源搭建数据采集系统、如何保证数据采集的可靠性的性能、如何避免重复数据、保证实现atleast-once消费语义、如何保证数据的质量,基于企业实战经验,给出最优解决方案,掌握数据采集核心技术要点
项目名称 离线数据仓库项目
项目简介 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。
项目架构 Flume1.9 + Kafka2.4.1 + Sqoop1.4.6 + MySQL5.7 + Hadoop3.1.3 + Hive3.1.2 + Tez、Spark2.4.5 + Ranger2.0 + Presto + Druid + Kylin3.0 + Azkaban3.0 + Atlas2.0 + Zabbix + Griffin + Superset + Sqoop1.4.6 + Echart + Centos7.5
项目场景 数仓项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线教育、传媒、电信、交通等各领域;
技术点 采集:Flume/Kafka/Sqoop;存储:MySQL/Hadoop/HBase/;计算:Hive/Tez;查询:Presto/Druid/Kylin;可视化:ECharts/Superset;任务调度:Azkaban;集群监控:Zabbix;元数据管理:Atlas;脚本:Shell;权限管理:Ranger;
项目特色 本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验总结。项目中包括:Shell脚本40多个、用户行为原始表11张、业务表原始表27张、数仓总表近100张、标准的数仓建模理论(确定业务过程、声明粒度、确定维度、确定事实)、包含的业务指标近100个(日活、周活、月活、新增、沉默、回流、流失、留存数、留存率、最近连续三周活跃、最近七天连续三天活跃、漏斗分析、spu个数、sku个数、商品销量排名、商品收藏排名、商品加入购物车排名、商品退款率排名、商品差评率、单日下单笔数、单日下单金额、单日下单用户数、单日支付笔数、单日支付金额、单日支付人数、单日支付商品数、下单到支付的平均时长、单次复购率、多次复购率、购买人数、多次购买人数、累积登录天数、最近30日登录天数、累积下单次数、累积下单金额、最近30日下单次数、最近30日下单金额、累积支付次数、累积支付金额、最近30日支付次数、最近30日支付金额、累积退款次数、累积退款件数、累积退款金额、最近30日被加入购物车次数、最近30日被加入购物车件数、累积被加入购物车次数。。。。)。 通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题
项目名称 实时数据处理项目
项目简介 对于实时性要求高的应用,如用户即时订单查询,业务量监控等,需要应用实时处理架构。
项目架构 Nginx + SpringBoot + MySQL5.7 + Flume1.9 + Kafka2.4.1 + SparkStreaming2.4.5 + Canal HA + Redis + ElasticSearch + HBase2.2.4 + Phoenix + Echart + MaxWell + ClickHouse + DataV
项目场景 对于实时要求高的应用、有对数据进行实时展示和查询需求时
技术点 分别使用Canal和Kafka搭建各自针对业务数据库和用户行为数据的实时数据采集系统,使用SparkStreaming消费Kafka实现精确一致性消费。搭建高吞吐的数据实时处理模块,选用ES和HBase作为最终的实时数据处理结果的存储位置,并从中获取数据采用DataV进行展示。采用ClickHouse进行数据分析。针对ES和HBase对外发布接口,方便外部查询。
项目特色 本项目读取的用户行为数据11张表、业务表27张、实时业务主题包括(流量、销售、活动、异常、风控、热门等)指标30多个。针对不同数据来源的实时数据处理制定相应方案,能广泛适配大部分企业的实时处理系统
项目名称 风险控制项目
项目简介 使用Flink框架计算各种电商网站指标,如滑动窗口TopN,日志流量统计。使用Flink框架做风控,例如监控订单失效、 恶意登录等需求。
项目架构 Flume1.9 + Kafka2.4.1 + Flink1.10 + Elasticsearch6 + Kibana
项目场景 电商各类指标实时计算,风险实时监控
技术点 Flink DataStream各种算子的使用,Flink Low Level API的使用,Flink CEP复杂事件处理库的使用,Flink的流批处理功能
项目特色 这个项目的特色在于如何使用Flink解决对实时性要求非常高的场景,也就是说通过项目来学习Flink的杀手级应用场景,而非解决Spark,Storm框架等已经解决的问题
项目名称 推荐和机器学习项目
项目简介 尚硅谷打造的电商推荐系统项目,就是以经过修改的中文亚马逊电商数据集作为依托,并以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。
项目架构 MongoDB + ElasticSearch + Redia + Spark Core + Spark SQL + Spark Mllib + Flume + Kafka + SparkStreaming + SpringBoot + AngularJS2
项目场景 让用户更快更好的获取到自己需要的内容,让内容更快更好的推送到喜欢它的用户手中,让平台更有效的保留用户资源。
技术点 以某电商网站真实的业务架构作为基础来实现的,其中包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。具体实现的模块主要有:基于统计的离线推荐、基于隐语义模型的离线推荐、基于自定义模型的实时推荐,以及基于内容的、和基于Item-CF的离线相似推荐
项目特色 整个项目具有很强的实操性和综合性,对已有的大数据和机器学习相关知识是一个系统性的梳理和整合,通过学习,同学们可以深入了解推荐系统在电商企业中的实际应用,可以为有志于增加大数据项目经验的开发人员、特别是对电商业务领域感兴趣的求职人员,提供更好的学习平台
项目名称 用户画像项目
项目简介 用数字化的标签描述用户个性特征、勾画目标用户,用以联系用户诉求与设计方向。
项目架构 Flume1.9 + Kafka2.4.1 + Hadoop3.1.3 + Hive3.1.2 + SparkSQL2.4.5 + Sqoop1.4.6 + Azkaban3.0 + Zookeeper3.5.7 + MySQL5.7
项目场景 根据用户标签快速筛选人群,进行精准营销
技术点 标签定义模块、标签开发模块、任务调度模块、用户分群UI模块的搭建,用户标签窄表的定义开发,用户标签宽表的整合和结构转换
项目特色 结合目前各种规模企业对于用户画像的需求给出最简解决方案,在最短时间里对整个用户画像系统有最全面系统的认知。
项目名称 在线教育项目实战
项目简介 该项目基于洋葱教育的实际业务场景,带你从0到1搭建实现数据采集系统、离线指标统计、实时计算以及用户画像等各种实际企业需求场景。紧跟企业前沿新技术,项目在手,天下你有。
项目架构 CDH全套组件:Flume、Kafka、Hadoop、Hive、HUE、SparkSQL、SparkStreaming、Zookeeper、MySQL、DataX、PowerDesigner、IBM HeapAnalyzer、Impala
项目场景 以真实企业在线教育项目为蓝图设计的实操性很高的项目,助你了解大数据从业人员的真实工作流程;
技术点 离线指标计算:课程学习反馈指标、系统版本访问统计、渠道新用户统计、访问次数分布、漏斗分析、七日留存分析;实时数据处理:实时统计VIP用户新增数、订单行为异常用户及时运营、Exactly-Once语义数据消费机制;
项目特色 参照真实企业项目流程打造,从服务器搭建选型到数据处理全流程呈现,主流数据采集系统搭建,常见离线指标需求 多种解决方案,构建高可用高性能的实时流式计算
项目名称 实时数仓项目实战
项目简介 该项目采用某在线教育公司的脱敏数据,参考美团、OPPO、知乎等大数据实时数仓项目架构,大家当前主流的实时数仓项目。授课方式采用讲练结合的方式,筛选出多个经典需求要求学生独立完成,在项目完成过程中,让学生从大数据项目的搭建到需求的实现与展示全方位的了解大数据生态,获取宝贵的项目实战经验。
项目架构 Flink1.10 + HBase2.2.4 + Zookeeper3.5.7 + Hadoop3.1.3 + Kafka2.4.1 + MySQL5.7 + 阿里云服务器
项目场景 以互联网在线教育为背景,多方面了解大数据在各行业的应用。
技术点 基于HBase和Kafka作数仓分层;数据原始层ODS,通Canal或MaxWell监听数据库binlog,打入Kafka;通过Flink流式处理清洗数据,并拆分出事实表数据和维度表数据,维度表数据写入HBase,事实表写入Kafka;Flink流式处理对接第二层Kafka,进行流与流Join得到聚合数据;流数据聚合后再使用Flink Async IO功能关联HBase维度表数据,获得宽表数据;通过Flink将宽表数据写入HBase中;HBase宽表rowkey设计
项目特色 课程注重学生的实战经验累积培养,在项目中对大数据生态中的各个常用框架加强认知,针对不同水平学生制定对应 学习计划,短时间内提升学生实战水平。
项目名称 阿里云电商项目
项目简介 本项目以国内电商巨头实际业务应用场景为背景,整个数仓体系完全搭建在阿里云架构上,详细解析了数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。让学员理解并学会运用各个阿里云服务组件,了解各个组件 之间如何配合联动。
项目架构 ECS + Flume + DataHub + MaxCompute + DataWorks + RDS + QuickBI
项目场景 以真实企业项目为背景,采用阿里云平台的全套大数据产品重构整个电商项目,其中涵盖电商平台的离线数仓阿里云解决方案,实时指标分析阿里云解决方案。
技术点 本项目采用阿里云服务器ECS搭配开源框架Flume进行用户日志的采集,将采集到的数据推送到阿里云数据总线模块DataHub,然后将DataHub的数据传输到大数据计算平台MaxCompute中,利用DataWorks数据开发平台进行数据的集成,计算和开发,得出我们需要统计的业务指标。将统计出的结果存储到阿里云RDS数据库中,最后用QuickBI读取RDS中的数据做出相应的报表,展示数据。
项目特色 本项目采用全套阿里云大数据产品重构了电商平台大数据项目,实现了电商平台离线、实时等指标分析的阿里云解决方案。整个项目架构部署在云端,完全脱离了本地服务器,并且项目组件全部采用阿里云大数据产品,各组件之间实现了界面图形化配置,无缝对接。
技术在进步,尚硅谷始终超越平凡
授课内容全面深入,直击核心
JavaSE基础核心
数据库关键技术
大数据基础核心
Spark生态体系框架
&
大数据高薪精选项目
Spark生态体系框架
&
企业无缝对接项目
Flink流式数据处理框架
从心出发,助你学习、求职、晋升一路顺畅!
科学量化开发潜力
从一开始就知道自己的特长,让学习更明确!
学习小组,自习辅导,阶段测评,个人学习分析
讲师、助教、班主任时时陪同,让你从此爱上学习!
纵向拓展专业技术,横向拓展综合实力
挤进尚硅谷,注定你优秀,不只是说说而已!
知名企业技术大牛分享,老学员分享
在尚硅谷,你永远不是一个人在奋斗!