一、概述
1.1 背景介绍
有赞是一家SaaS公司,为商家提供全渠道、全场景的SaaS产品服务,也因此积累了全渠道、全场景的商家经营数据。面对大量数据,大数据工程师从多方面、多维度的分析挖掘数据价值,以此助力商家成功。其中,DMP(Data Management Platform)作为有赞大数据生态的一部分,结合全渠道、全场景数据,以用户,商品,店铺等作为主体,进行画像洞察,旨在辅助业务实现精细化、智能化的运营。
1.2 术语解释
名词 | 说明 | 示例 |
---|---|---|
主体 |
对某一类对象的抽象 |
用户,商品,店铺 |
标签 |
对主体的某些特征进行抽象分类 |
用户的男,女特征可抽象为性别标签 |
标签值 |
标签的具体内容 |
性别的标签值有:男,女,未知 |
画像 |
某一对象通过多个标签值的具体描述 |
小明的画像:男,青年,杭州 |
人群 |
满足一个或多个标签的组合条件的特定群体 |
满足“性别=男”,“地域=杭州”的用户群体 |
二、平台架构设计
整体技术架构图:
有赞DMP平台整体架构分层可以分为:数据,存储,服务,应用四个层级。
2.1 数据层
数据层主要是收集、沉淀各个业务域的原始数据,数仓开发工程师对源数据进行数据清洗、数据建模,沉淀一套规范化的数仓中间层。再由业务方数据开发工程师和算法工程师基于数仓中间层,进行数据分析、数据挖掘、机器学习等手段,产出统计指标数据和偏好类数据,用于对主体进行标签化。
2.2 存储层
存储层的技术选型是基于不同的业务场景以及结合有赞现有的组件体系考虑,选择最佳的存储方案。
存储方案 | 适用场景 | 说明 |
---|---|---|
HBase |
画像 |
基于主体 ID 的 rowkey 设计,可以快速获取主体画像数据 |
ClickHouse |
人群 |
利用 ClickHouse 提供的丰富的 bitmap 运算函数,可以在复杂的标签组合条件下,实现快速计算人群预估人数、人群圈选、人群标签分布洞察等功能 |
ElasticSearch |
画像 + 人群 |
在未引入 ClickHouse 之前,使用 ES 作为标签的底层存储方案,利用 ES 的索引机制,将复杂的标签组合条件转化成DSL语言,实现快速的人群计算。目前已在 DMP 平台淘汰 |
MySQL |
持久化数据库 |
存储主体和标签的元数据信息 |
Redis |
缓存数据库 |
缓存主体和标签的元数据信息,降低对 MySQL 的查询依赖 |
2.3 服务层
服务层主要功能有:
- 数据摄入:识别主体的数据源表,根据数据源表一方面自动解析主体的属性,另一方面自动分析指标分布,用于后续的标签打标。
- 元数据管理:主要是维护主体信息,标签信息,主体与标签关系,自定义的标签规则,以及标签对应的任务调度信息。
- 画像洞察:基于底层的主体-标签体系,提供主体的标签画像洞察能力。
- 人群管理:基于底层的主体-标签体系,提供人群圈选,人群扩展,人群洞察等相关能力。
- 平台基础能力:
- 权限管理:保证数据的安全性。
- 监控告警:保证稳定的自动化标签生产。
- 审批管理:规范化流程,降低误操作带来的故障风险。
- 快恢能力:基于可回滚的原则,通过版本控制,数据分区等手段,快速修复问题数据。
2.4 应用层
dmp平台在有赞的主要应用场景有:
- 广告投放:商家可以通过DMP平台提供的用户标签,圈选出特定的人群包,制定广告投放计划,实现对目标人群的精准定向,帮助商家提升广告投放效果。
- 精准营销:针对一些营销活动,通过 DMP 平台提供的用户标签,圈选出符合营销活动的人群,或者基于活动精准人群,通过 DMP 平台的人群扩展能力,扩展出相似人群,制定营销运营计划,实现人群精准营销。
- 个性化推荐:为有赞推荐平台提供基于标签的商品推荐策略。dmp平台维护着用户、商品、店铺主体下的标签,推荐平台可以根据不同主体的标签映射,更加灵活的为用户推荐可能感兴趣的商品,促进GVM提升。
- 人群ABTest:与有赞ABTest实验平台结合,针对特定的场景采用特定的人群进行实验,促进GMV提升。
- 长尾业务:dmp平台提供的标签画像能力,还助力有赞域内的其他业务。
- 有赞CRM系统通过意向商家线索和成功店铺案例标签化,通过标签映射匹配,为意向客户匹配成功店铺案例,助力销售人员快速拓客。
- 微商城的销售员插件通过集成dmp平台的标签画像能力,为销售员提供用户的标签画像,助力销售员更有针对性的分销商品。
三、平台内容建设
四、未来规划
更丰富的内容建设:支持更多的主体和标签,赋能更多业务线
更精准的人群扩展能力:不断优化人群扩展算法,提高相似人群的精准度