大数据 - Page 1 - 有赞技术团队

28 Oct 2022

知识库检索匹配的服务化实践

一、背景　　知识库是企业经营过程中的面向客户和内部员工的知识沉淀文档库，里面包含各类教程、问答、案例等，知识库的检索匹配是自然语言处理(NLP)中一个重要的基础问题，本质是进行文本语义的相似度计算，也就是语义匹配，我们很多领域的任务都可以抽象为文本匹配检索任务，例如检索引擎、智能客服、知识检索、信息推荐等领域。　　知识库检索匹配可以概述为：给定一个query和大量候选知识库的文档，从这些文档中找出与用户输入query最匹配的TopK个文档。二、架构流程 2.1、整体架构 2.…

16 Sep 2022

Spark App 血缘解析方案

一、背景随着数据仓库的数据量的增长，数据血缘( Data Lineage or Data Provence ) 对于数据分析来说日益重要，通过数据血缘可以追溯表-表，表-任务，任务-任务的上下游关系，用来支撑问题数据溯源，孤岛数据下线的需求。目前已经基于 ANTLR 语法解析支持了 SQL 任务的血缘解析，而 Spark App 任务的血缘仍然是通过人工配置方式进行。我们希望能够将…

05 Sep 2022

浅谈有赞搜索QP架构设计

一、有赞搜索平台整体设计在介绍QP前先简单介绍一下搜索平台的整体结构，方便大家快速了解QP在搜索平台中的作用。下图简单展示了一个搜索请求开始到结束的全部流程。业务通过简洁的api接入los，管理员在搜索平台新建配置并下发，完成整个搜索接入，并通过abtest验证QP带来的优化效果。二、QP的作用在NLP中，QP被称作Query理解（QueryParser），简单来说就是从词法、句法、语义三个层面对query进行结构化解析。这里query从广义上来说涉及的任务比较多，最常见的就是搜索系统中输入的查询词，也可以是FAQ问答或阅读理解中的问句，又或者可以是人机对话中用户的聊天输入。…

05 Jul 2022

对比学习在有赞的应用

1. 对比学习的引入一般做算法任务时，都需要搜集大量标注的数据，假如我们要预测一个商品的产品词（中心词），下面是一个商品标题：三亚亚龙湾玫瑰谷JESS玫瑰臻白颜透润花瓣免洗面膜收缩毛孔这个商品的产品词就是“面膜”，任务就是要把面膜识别出来，看起来是个标准的NER任务，我们也确实使用了CRF和指针网络之类的方法，对于上面这种标题效果还不错，但是由于SaaS商家的经营习惯不同于平台，很少依赖平台搜索流量，所以很多标题很简短甚至不会包含产品词，比如：迪奥丝绒系列760 专属女团色蓝调正红可盐可甜澳优能立多3段对于这种问题，…

21 Jun 2022

有赞算法平台之模型部署演进

一、前言模型部署作为算法工程落地的最后一公里，其天然对算法团队而言具有较高的复杂性，不仅要考虑如何高效地部署、管理不同框架模型，还需要考虑分布式服务的负载均衡、故障容错、可扩展性、资源隔离、限流、核心指标监控等问题。这些都极大的依赖于工程团队的能力，不是算法团队的强项，如何解决这最后一公里，让焦点聚焦在模型开发上，是模型部署服务模块需要解决的问题。二、原有架构 2.1 架构设计在有赞算法平台Sunfish包含算法训练和模型部署两部分，模型部署的模块称为ABox（小盒子）…