大数据文摘出品
作者:朱玲
本文为清华大学大数据研究中心联合大数据文摘发起的年度白皮书《顶级数据团队建设全景报告》系列专访的第六篇内容。《报告》囊括专家访谈、问卷、网络数据分析美团采集网址,力求为行业内数据团队的组建和高校数据人才的培养提供指导性意见。前往文末参与填写问卷,将获得《报告》完整版~
“你每一次花钱,都是在为自己想要的生活投票。”
2010年3月4日,美团网站上线当天,美团创始人兼CEO王兴发出了这样一条微博,希望以“吃”为核心,去打造一个帮大家吃得更好,生活更好的全方位生活服务平台。
当然,要协调日订单已经突破3000万单的外卖配送以及包括快驴、买菜、单车、酒旅在内的多个业务线,一个稳定、强大的数据基础架构必不可少。
王兴给美团定的下一个目标是每天服务十亿人次,这个并发量对美团数据团队来说,将是不小的挑战。但同时,为了应对异常复杂的业务场景,保证跟技术的极致融合,美团数据团队也发展出了自己独有的特点。
“指挥部”核心支撑,“小兵团”灵活作战
据美团数据平台负责人李闻介绍,从宏观方面来说,美团内部整个大数据团队主要涵盖两大技术方向:一个是数据研发方向,涵盖面向数据资产的数据清洗、加工、整合、挖掘、管理、运营等技术领域,主要包括批处理和实时数据仓库的建设、数据管理、数据价值落地以及数据运营美团采集网址;另一个是数据系统研发方向,涵盖批处理、实时数仓开发工具链、BI系统、数据管理系统等数据系统研发。
大数据团队作为一个整体,希望通过数据内容建设、数据系统建设,来提升美团整个公司数据质量、数据效率、数据安全,以数据驱动的方式帮助公司完成业务目标,持续提高公司的运营效率和核心竞争力。
美团数据平台&机器学习平台
但是,涉及到实际的业务时,美团跟不少单一业务线公司“数据团队中央化管理”又有所不同,他们采取了基础研发部以“指挥部”的形式核心支撑,各业务线通过自有的规模较小的嵌入式数据闭环形成“小兵团”,灵活高效的完成单线任务。
李闻说,美团是多业务线多BG的组织形式,每一个业务线都有自己的研发团队,即每个BG下面有自己的数据工程师(DE)和数据科学家(DS)。其中工程师团队主要负责中心化的公共数据建设,而数据科学家团队则是面向公司集团层面的经营分析和决策,一些涉及公司重大发展方向的战略性问题,都会优先进行数据分析再进行决策。
而在每个业务的“小兵团”之下,也有一个中心化的大数据团队,服务对象是全公司所有的业务线,为全公司所有的BG业务线提供能力支撑,这点与其他互联网公司相比也有很大的不同。
这个中心化的大数据团队,对全公司所有业务线提供全公司统一的数据技术平台和公共数据内容平台支撑,以及面向集团的商业分析支持,除此之外,美团中小业务在孵化阶段,也由这个大团队提供人力、技术资源支撑,快速建立数据能力。
这一组织形式是由美团复杂的业务场景特点决定的。
美团目前有超过200个生活服务场景,每个场景都具有自身的业务特点和数据维度特点,如果只是通过平台式的数据中心来进行相关处理,无法实现最高效的数据处理和灵活的技术迭代。而中心的平台能够在其中实现最大限度的资源协调,并从集团层面处理可复用性的公共数据,整体负责整个公司的公共流量、公共维度,还有一些和用户相关的用户画像都数据内容。
以美团金融服务业务为例,数据工程师的工作职责包括以下几个方面:
搭建并优化金融服务数据体系,包括数据仓库、数据应用和实时统计等系统的开发,及对安全性、存储计算成本、查询性能和使用体验进行综合优化。参与商业智能系统建设,建设PB级高效、灵活的在线分析、自动归因和智能预测。为各类业务场景提供综合数据解决方案,包括数据生产采集、安全合规、实验设计、评价监控、数据挖掘和智能决策等。
对美团来说,金融服务是极重度的数据型业务,业务的高效运行和有效决策都依赖于数据技术的支撑。另一方面,数据是金融科技的前沿,美团希望通过互联网数据技术的发展和应用,帮助合作的金融机构提升技术生产力,从而促进整个生态的发展。
四大发展阶段,数据团队承担着不同的角色
作为一家非常重业务的公司,美团业务经营核心诉求包括战略决策、经营策略、运营策略(从人工运营到机器运营),而这些都离不开数据的支撑。
但是,随着信息技术的发展和普及,产生数据的信息源越来越多,获得洞察所需要的信息也越加丰富,但是这些错综复杂甚至是无序不规范设计的信息系统的数据是不一致的、分散的,所以就需要有一个非常重要角色把这些数据进行重新的清洗、整合,形成统一商业视角下的数据“模型”。
访谈过程中,李闻也从“互联网业务”整个生命周期的视角解读了数据和的价值和数据团队在这一周期过程中的发展阶段:
1.初创期:这是业务从无到有的阶段。此时企业经营的重点是找到让人信服的商业模式。对研发的诉求主要是后台和前端,让面向用户的产品能够运转起来。此时公司对数据的诉求主要是一些基础指标的表现,用以判断商业模式的合理性,往往让了解数据产生机制的后台和前端同学承担数据统计工作就可以了。当然,在基础比较好的团队里,可以通过敏捷的统计工具直接连接数据源,写SQL统计数据并做基本的数据展现。基础类的数据指标工具比如美团的“魔数”在此时发挥的作用最大,属于一个基础设施。
2.成长期:在这个阶段,商业模式已经被证明是可行的,进入扩张规模抢占市场阶段。业务规模快速膨胀,此时的数据量也随之大量增加,需求也在不断迭代。既要保障现有任务的稳定性,还要快速支持蜂拥而至的需求,需要打好数据基础,做好需求管理。该阶段是对数据技术压力最大的阶段,更多是如何高效应对需求且保障现有任务的稳定性和数据的准确性。
3.成熟期:在保障规模下追求“毛利”为正。此时,企业经营的基本思路已经成型,需要系统建设指标体系,利用数据科学严谨的指导经营,并利用用户画像等技术更精细地理解用户从而精准营销,提高运营ROI。此时需要做好数据的治理以及内容的体系化管理。比如美团数据中台就是在这个阶段演化出来的。
4.持续发展期:这属于通过数据来扩大利润的阶段,企业需要结合对业务的深刻理解和行业的发展趋势,采集和整合更多元的数据内容,结合本业务特点,发现高价值用户、挖掘更多商业机会、输出更多增值服务,丰富业务的利润结构。此时,还需要更深刻的理解用户,理解数据,通过数据产生更多洞察,提高经营效率。数据开发领域的终极发展目标,应该是懂数据开发(集成)技术,懂产品的业务逻辑,懂商业,懂分析,懂经营策略,懂运营策略,同时还能推动各相关角色配合行动的综合性人才。数据源越复杂,为保障交付数据的准确性,挑战就越大,数据开发的核心价值就越大。
“走在业务前面思考问题”
“走在业务线前面主动去做一些工作,每当业务碰到的问题时,最好平台都有解。”
在谈到如何定义一个好的数据团队时,李闻如此回应。因为美团属于跨业务线、多BG的模式,这让每个业务线的数据都存在很大的可复用性。那么,如何在兼顾安全的前提下,让各业务线能够更高效地用到跨团队数据呢美团采集网址?这也是业界不少数据团队在建设初期面临的一个比较棘手的问题。
美团目前的解决方案称之为“分场景分角色安全域”,即在整个数据体系中按照数据、算法、商业分析分场景分角色建立安全域,在保障数据安全的同时,简化授权模型,建立起一套比较清晰的数据权责体系,减少数据供给方和需求方的数据交换成本。
另外,沟通机制和认知提升也很重要,美团数据团队不倾向于把大数据和业务线分隔得太清晰,一方面直接深入到业务线,积极响应每一条业务线的需求,另一方面也在构建底层基础能力,大力研发,不断进阶,为未来的业务发展做好充足的准备。
大数据平台是重要“基础设施”,支撑AI和大数据两条线此外,为了让整个工程团队和基础架构团队能够最大效率地发挥效用,美团的大数据平台和机器学习平台是在组织和平台技术上是重合的,这种设置在业界也非常少见。
众所周知,AI是目前互联网领域炙手可热的“明星”,无论是老牌“巨头”,还是流量“新贵”,都在大力研发AI技术,为自家的业务赋能。
在刚刚过去的世界人工智能大会上,美团首席科学家夏华夏首次公开呈现了美团AI的建设图谱,在这一图谱中能看到李闻所在的大数据平台部门是美团AI建设的一个重要“基础设施”,同时支持着大数据和机器学习两条线。他认为,公司数据团队之所以发展成这种形式,从本质上讲,是因为大数据和机器学习两个领域底层的基础设施和能力实际上是可以“共用”的,包括一些工程方法也比较类似。
李闻说:“大数据和机器学习平台技术,其实在技术角度没有清晰边界,在其他公司强行拆在两个团队,更多是组织和人的原因。”
“比如做数据清洗,一样会用到数据挖掘算法,做一些深度学习中前置的特征处理或者特征准备,实际都在用大数据的技术。其次,大数据和机器学习底层的一些架构技术、工程方法和能力模型实际是很类似的,包括一些分布式的技术,都是可以复用的。美团这种组织形式,在实际工作中,确实对提高工作效率有非常大的助力。”
数据治理老大难,在支撑和治理间寻求平衡由于美团的业务线众多,应用场景也非常复杂,跟其他互联网公司一样,美团也在同样面临着数据治理的问题。在业界,数据治理有两大难题:数据资产治理和数据成本治理,其中数据成本相较于业务成本的投入会呈现长期累加的特征。那么,如何在效率和成本之间找到平衡,李闻详细讲述了美团采取的自主摸索的方法。
据李闻介绍,从数据源头整个加工到产出报表再到使用,其链条会非常长,涉及的角色也非常多,变量也很多,伴随着业务系统的变化,中间的数据逻辑,以及指标口径定义也会随之变化。如何去管理这样的一些变化,去拿到一些预期的数据结果,就是一件非常具有挑战的事情。
数据平台团队作为公司中心化技术团队,同时需要扮演两种角色,一方面要以客户为中心,提供能力支撑好公司各业务在大数据和算法领域的工程技术需求,另一方面同时要扮演公司的治理抓手,驱动整个数据、算法体系成本、效率、质量、安全的提高,“我们本质上有两拨客户,一波是公司各业务数据、算法研发,一波是公司管理层,同时满足好两拨客户的诉求,是需要极大的韧性、极强的技术能力的”,在谈及数据治理问题时,李闻表示。
资源内部按钱结算是美团在成本治理层面所使用的核心策略。在这一策略的支撑下美团在2017年就已经做到了内部的云化和资源按钱结算,在美团内部,数据平台对每种资源类型都会有定价,各条业务线技术负责人提出储存和计算的需求,业务线BM可以直接看到本业务线在大数据上花多少钱,数据平台会从技术视角Review资源需求的合理性,最后结合全局优化目标将资源转化为机器采购,提交给云计算。数据平台除了作为公司大数据成本的技术把关人,同时也提供能力和工具支持各业务线成本优化,以及在底层引擎层面做持续的迭代和优化,底层引擎每年都会有接近10%的效率提升。
“实际上,通过这样一套机制能持续去推动每一个业务线去做优化。因为每一个业务线都有一套自己的商业模型,要去核算自己的成本和收益,你只告诉他们花多少资源,花多少机器,实际上是没有什么帮助的。
”如果从这一角度而言,在业界,美团算是一个“先行者”。
从支撑业务到驱动业务
目前,美团的数据平台技术体系,早已经度过了“基于开源搭一搭,魔改一下就能解决问题”的阶段,业界开源技术已经不能满足业务需求,需要在部分领域构建能力做自研。另一方面,也度过了“对外对标业界技术、学一学就能坐时光机少走弯路”的阶段,由于美团业务特点和发展阶段,数据平台技术领域碰到的问题,很多是独特的,通过对标业界已经无法获得更多有效输入,已经需要通过紧密结合业务问题和领域技术发展趋势,向内深度自我洞察、自我反思,在领域内自我技术突破、从工程技术支撑业务到工程技术驱动业务的转变。
“美团整个数据平台技术在业界应该还是比较靠前的,例如整个架构技术,很早就解决了大规模数据复杂关联场景多地域的平滑扩展性问题。”在谈及美团技术优势时,李闻表示,“我们很早就做完了计算引擎的内存化升级,持续做计算效率的一些迭代,在成本治理领域是比较独特的。另外,在整个工具层面实际是一套平台,一个大的集群。而其他很多公司只是一些小的平台或者小的自建的集群,数据打通共享是个大问题,当然这跟公司的发展阶段有很大的关系。在机器学习训练部分,我们可以做到700并发0.7倍的加速比,推理部分BERT模型性能可以超越业界state-of-the-art 1~2倍的样子,虽然取得了一些成绩,但是未来的挑战也很大,美团数据团队还是会本着求真、务实的心态,长期有耐心,去迎接这些挑战。”
互联网下半场,数据团队的未来
2020年3月4日,美团迎来十周岁的生日。
根据美团2019年年度财报显示,美团平台上有单骑手数量已经达到了399万,高峰期外卖日订单量达到了3000万单,超过4.5亿的用户在美团上获取生活服务,而线上有超过610万的商户……这些数据背后能带来的产出对美团来说是一笔重要的财富。
也正是因此,数据团队在美团的位置举足轻重。问及在权衡数据团队的商业影响力方面的思考,李闻提到数据技术团队的KPI主要看两部分,一是能不能支撑好全公司所有数据团队的工作,比如开发效率、数据使用效率等美团采集网址;二是要考虑与全局数据成本、全局数据质量相关的一些KPI。
李闻说:“在美团有一条非常重要的价值观,就是追求卓越。未来的路还很长,美团数据团队也希望能够挖掘出更多的数据价值,并将这些价值转为生产力,帮助公司乃至帮助社会提升效率,创造出更大的价值。”
添加上方▲技术, 在线咨询
复制微信号
声明
一、本站原创内容,其版权属于本网站所有。其他媒体、网站或个人转载使用时不得进行商业性的原版原式的转载,也不得歪曲和篡改本网站所发布的内容。如转载须注明文章来源。
二、本网站转载其它媒体作品的目的在于传递更多信息,并不代表本网站赞同其观点和对其真实性负责;如侵犯你的权益请告诉我们立即删除;其他媒体、网站或个人转载使用自负法律责任。
发表评论
2022-06-17 09:30:22回复