大数据 - Page 7 - 有赞技术团队

08 Mar 2019

Flume在有赞大数据的实践

一、前言 Flume 是一个分布式的高可靠，可扩展的数据采集服务。 Flume 在有赞的大数据业务中一直扮演着一个稳定可靠的日志数据“搬运工”的角色。本文主要讲一下有赞大数据部门在 Flume 的应用实践，同时也穿插着我们对 Flume 的一些理解。二、Delivery 保证认识 Flume 对事件投递的可靠性保证是非常重要的，它往往是我们是否使用 Flume 来解决问题的决定因素之一。消息投递的可靠保证有三种：…

08 Mar 2019

Druid Segment Balance 及其代价计算函数分析

一. 引言 Druid 的查询需要有实时和历史部分的 Segment，历史部分的 Segment 由 Historical 节点加载，所以加载的效率直接影响了查询的 RT（不考虑缓存）。查询通常需要指定一个时间范围[StartTime, EndTime]，该时间范围的内所有 Segment 需要由 Historical 加载，最差的情况是所有 Segment 不幸都储存在一个节点上，加载无疑会很慢；…

28 Feb 2019

Spark Streaming在数据平台日志解析功能的应用

一、日志解析功能的背景：通过日志，我们可以获得很多有用的信息，最常见的日志信息包括应用产生的访问日志、系统的监控日志，本文所针对的日志是大数据离线任务产生的运行日志。目前日志解析功能依附于有赞大数据平台，也就是有赞的data_platform，为该平台的一个功能。目前支持解析的日志类型包括：Hive任务、Spark任务、Datay增量任务、导入任务、导出、MR任务、Hbasebulk、脚本任务等。dataplatform支持的调度类型为：批量重跑、测试类型、正常调度和手动导入任务。做这个日志解析部分的目的分为几个，…

26 Feb 2019

HBase 读流程解析与优化的最佳实践

一、前言本文首先对 HBase 做简单的介绍，包括其整体架构、依赖组件、核心服务类的相关解析。再重点介绍 HBase 读取数据的流程分析，并根据此流程介绍如何在客户端以及服务端优化性能，同时结合有赞线上 HBase 集群的实际应用情况，将理论和实践结合，希望能给读者带来启发。如文章有纰漏请在下面留言，我们共同探讨共同学习。二、 HBase 简介 HBase 是一个分布式，可扩展，…

14 Feb 2019

Druid在有赞的实践

一、Druid介绍 Druid 是 MetaMarket 公司研发，专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统，目前Druid 已经在Apache基金会下孵化。Druid的主要特性：交互式查询( Interactive Query ): Druid 的低延迟数据摄取架构允许事件在它们创建后毫秒内查询，因为 Druid 的查询延时通过只读取和扫描有必要的元素被优化。Druid 是列式存储，…