SparkSQL在有赞大数据的实践(二)

一、前言 在 2019 年 1 月份的时候,我们发表过一篇博客 SparkSQL在有赞大数据的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的内容。本文会接着上次的话题继续讲一下我们之后在 SparkSQL 上所做的一些改进,以及如何做到 SparkSQL 占比提升到 91% 以上,最后也分享一些在 Spark 踩过的坑和经验希望能帮助到大家。 本文主要的内容包括: Thrift…

Read More

HBase Bulkload 实践探讨

一、 背景 HBase 是一个面向列,schemaless,高吞吐,高可靠可水平扩展的 NoSQL 数据库,用户可以通过 HBase client 提供的 put get 等 api 实现在数据的实时读写。在过去的几年里,HBase 有了长足的发展,它在越来越多的公司里扮演者越来越重要的角色。同样的,在有赞 HBase…

Read More

Flink Checkpoint 原理流程以及常见失败原因分析

前言 目前有赞实时任务主要以 Flink 为主,为了保证实时任务的容错恢复以及停止重启时的状态恢复,几乎所有的实时任务都会开启 Checkpoint 或者触发 Savepoint 进行状态保存。由于 Savepoint 底层原理的实现和 Checkpoint 几乎一致,本文结合 Flink 1.9 版本,重点讲述 Flink Checkpoint 原理流程以及常见原因分析,让用户能够更好的理解…

Read More

数据资产,赞之治理

一、背景介绍 大数据概念的提出已十年有余,这期间风靡全球,与其相关的理论、技术和实践遍地开花,整个领域都在飞速发展。野蛮生长之下,“数据治理”的呼声水涨船高。工信部19年提出:将加强数据治理,扎实推进国家大数据发展战略,将数据治理重要性上升到新的高度。在各行业畅想AI驱动未来的大背景下,数据治理保障大数据有效管理、高质量、高效能,显得尤为重要。这个领域方兴未艾。 何为数据治理?没有标准答案。我们不妨顾名思义:“数据”的“…

Read More

有赞数据中台建设实践

一. 概述 究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 ThoughtWorks 提出的"企业级能力复用平台". 各个领域涌现出很多中台产品, 如业务中台, 搜索中台, 数据中台等. 其中数据中台这个词汇越来越多的出现在视野中, 从百度指数中可以看到这一趋势. 本文, 笔者将从有赞数据团队面临的业务场景出发, 介绍有赞的数据中台产生的背景和建设思路. 简单来说, 有赞的数据中台解决的是"有赞的数据资产的加工和复用", 这里提到了数据中台的两个重要功能: 数据加工和数据复用, 分别由数据技术中台和数据资产中台解决. 数据技术中台主要解决数据的加工问题,…

Read More