在抖音集团内部,早期的向量化检索引擎是围绕搜索、推荐、广告业务来构建的,由于这些业务天然具有极大的数据规模,因此从一开始,就需要思考如何在向量索引中支持百亿数据的检索需求,比如图虫拥有几亿图片素材,数量规模早已超出单机内存的极限,举个例子,对于1亿条128维的Float向量,不考虑任何辅助结构,就需要100000000 * 128 * 4 bytes 也就是约48GB的服务器内存。
DataWind 覆盖的人群非常广泛,几乎支持字节跳动内部所有业务线,覆盖绝大多数员工使用需求,每天运行 20 万张以上活跃的仪表盘,支持超过 500 万次巨大数据量的查询,每天有超过 5 万人在使用 DataWind。
Data Catalog 已经随着 DataLeap 一起作为公有云产品正式在火山引擎对外发布,下面是 Data Catalog 在功能演进上的一些重要时间节点:2021 年 9 月,Data Catalog 随着 DataLeap 完成在火山引擎公有云首个版本部署和发布,包含 60% 内部核心功能,支持 EMR Hive 数据源元数据管理。
AI大模型爆发,云市场加速变革。18日,2023火山引擎春季FORCE原动力大会在上海召开。现场,字节跳动旗下的火山引擎发布自研DPU等系列云产品,推出支持万卡级大模型训练、微秒级延迟网络,将为AI大模型发展提供强劲动力。
导读 DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。