基于HBase和Spark构建企业级数据处理平台

2020-05-1905:27:53数据库教程Comments1,973 views字数 1314阅读模式
基于HBase和Spark构建企业级数据处理平台

面临的场景文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

金融风控文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 用户画像库
  • 爬虫抓取信息
  • 反欺诈系统
  • 订单数据

个性化推荐文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 用户行为分析
  • 用户画像
  • 推荐引擎
  • 海量实时数据处理

社交Feeds文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 海量帖子、文章
  • 聊天、评论
  • 海量实时数据处理

时空时序文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 监控数据
  • 轨迹、设备数据
  • 地理信息
  • 区域分布统计
  • 区域查询

大数据文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 维表和结果表
  • 离线分析
  • 海量实时数据存储

新的挑战文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

Apache HBase(在线查询) 的特点有:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 松散表结构(Schema free)
  • 随机查询、范围查询
  • 原生海量数据分布式存储
  • 高吞吐、低延迟
  • 在线分布式数据库
  • 多版本、增量导入、多维删除

面临的新的挑战:文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 流式及批量入库
  • 复杂分析
  • 机器学习、图计算
  • 生态及联邦分析

选择Spark的原因文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台
  • 快:通过query的执行优化、Cache等技术,Spark能够对任意数据量的数据进行快速分析。逻辑回归场景比Hadoop快100倍
  • 一站式:Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型,且一个应用中可组合上面多个模型解决场景问题
  • 开发者友好:同时友好支持SQL、Python、Scala、Java、R多种开发者语言
  • 优秀的生态:支持与Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL Server等配合使用

平台机构及案例文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

一站式数据处理平台架构文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 数据入库:借助于Spark Streaming,能够做流式ETL以及增量入库到HBase/Phoenix。
  • 在线查询:HBase/Phoenix能够对外提供高并发的在线查询
  • 离线分析及算法:如果HBase/Phoenix的数据需要做复杂分析及算法分析,可以使用Spark的SQL、机器学习、图计算等

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

典型业务场景:爬虫 搜索引擎文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台
  • 性能:流吞吐 20万条/秒
  • 查询能力:HBase自动同步到solr对外提供全文检索的查询
  • 一站式解决方案:Spark服务原生支持通过SQL读取HBase 数据能力进行ETL,Spark HBase Solr一站式数据处理平台

典型业务场景:大数据风控系统文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台
  • Spark同时支持事中及事后风控
  • Spark友好对接HBase、RDS、MongoDB多种在线库

典型业务场景:构建数据仓库(推荐、风控)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 毫秒级识别拦截代充订单,并发十万量级
  • Spark优秀的计算能力:Spark基于列式存储Parquet的分析在数据量大的情况下比Greenplum集群有10倍的性能提升
  • 一站式解决方案:Spark服务原生支持通过SQL读取
  • HBase SQL(Phoenix)数据能力
  • 聚焦业务:全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了spark作业管理成本

 文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

原理及实践文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

Spark API的发展经历了RDD、DataFrame、DataSet文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台

Spark Streaming采用的是Micro-Batch方式处理实时数据。文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台

作业堆积、延迟高、并发不够?文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 每批次的并发:调大kafka的订阅的分区、
  • 代码热点优化:查看堆栈、broadcast、代码优化

Spark流式处理入库HBase文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台

Micro-Batch Processing:100ms延迟ConKnuous Processing:1ms延迟文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

Spark HBase Connector的一些优化文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

基于HBase和Spark构建企业级数据处理平台

代码托管在: (包含Spark操作Hbase和Phoenix)文章源自菜鸟学院-https://www.cainiaoxueyuan.com/sjk/19104.html

  • 本站内容整理自互联网,仅提供信息存储空间服务,以方便学习之用。如对文章、图片、字体等版权有疑问,请在下方留言,管理员看到后,将第一时间进行处理。
  • 转载请务必保留本文链接:https://www.cainiaoxueyuan.com/sjk/19104.html

Comment

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定