03 Jul 2020
作者:小君 部门:数据中台 一、前言 多维分析是数据仓库系统下游常见的基础应用,底层数据是包含多种粒度汇总结果的Cube,用于提供上卷,下钻等操作的数据支持。创建Cube的工具有很多,本文重点介绍在多维汇总场景下,由传统开发模式替换为HiveCube开发模式过程中碰到的问题以及处理经验,主要包括以下方面的内容: 背景 理论 实践 二、背景 在今年上半年,我们接到公司一个项目,项目的大致内容是给有赞商家提供自助取数功能。自助取数功能是给有赞商家提供不同维度下不同主题域指标的预览和下载服务。比如商家可以查看交易域的下单金额,客户域的客户数,…
Read More
19 Jun 2020
一、前言 机器学习/深度学习在有赞应用的越来越多,例如在营销、推荐、风控等场景下都起着越来越重要的作用。对于深度学习在实际业务场景的落地来说,除了数据和算法,工程和系统上的支持同样必不可少,这样的支持包括模型的快速构建与评估,稳定的线上模型服务环境等等。为此,我们开发了有赞智能平台 Sunfish ,本文详细介绍 Sunfish 的设计和实现。 二、背景 在有赞,机器学习/深度学习在各个业务场景下发挥着越来越重要的作用。这里以推荐系统为例,介绍一下深度学习的落地实践。…
Read More
26 Apr 2020
一、前言 本文主要介绍了 Presto 的简单原理,以及 Presto 在有赞的实践之路。 二、Presto 介绍 Presto 是由 Facebook 开发的开源大数据分布式高性能 SQL 查询引擎。起初,Facebook 使用 Hive 来进行交互式查询分析,但 Hive 是基于…
Read More
19 Mar 2020
一、概述 1.1 遇到的挑战 不知道大家在日常工作中是否会经常遇到如下类似的问题: 商家:为什么 A 页面上的数据和 B 页面上的数据对不上?开发:我去看看(一段时间后),A 是来自 a 表,B 是来自 b 表,一个包含 XXX…
Read More
19 Mar 2020
一、大数据环境下的有赞数仓 关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能 Business Intelligence 的核心部分。在数据仓库诞生之初,它只被设计成面向管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。 然而在大数据环境的背景下,当 Hadoop 生态已然成为大数据现实意义上的载体,以 Hive 为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足某些业务上对数据的统计需求。 因此,当下的数据仓库应该有一个新的定义:大数据环境下的数据仓库是指对全局数据(包含时间和空间:…
Read More