导读: 小米集团于 2019 年首次引入了 Apache Doris ,目前 Apache Doris 已经在小米内部数十个业务中得到广泛应用,并且在小米内部已经形成一套以 Apache Doris 为核心的数据生态。
基于Apache Doris大数据实时MPP数据库,构建新一代云原生实时数仓,充分发挥Apache Doris高性能、易用MPP引擎能力和云计算极致弹性,解决海量日志等半结构化、非结构化数据存储成本高、分析困难的痛点。
数据导入方案,我们在调研了 Stream Load 和 Broker Load 之后,从导入性能、开发成本上进行了评估,在导入性能上,Broker Load 要比 Stream Load 略胜一筹,而在开发成本上两种方式并没有明显的差异。
在原有数仓架构中, Hive 作为数据计算层,MySQL、ES、PG 作为数据存储层,我们简单介绍一下架构的运行原理:数据源层和数据接入层: MySQL 通过 Canal 将 BinLog 接入 Kafka、埋点日志通过 Flume 接入 Kafka,最后由 DataX 把 Kafka 中的数据接入数据计算层 Hive 中;
在数据的同步过程中,使⽤了 Flink CDC+MySQL 全量加增量的数据同步⽅式,同时还利⽤ Doris 的 Light Schema Change 特性实时同步 Binlog ⾥的 DDL 表结构变更,实现数据接⼊数仓零开发成本。
作者|杨鷖 资深大数据开发工程师编辑整理|SelectDB领健是健康科技行业 SaaS 软件的引领者,专注于消费医疗口腔和医美行业,为口腔诊所、医美机构、生美机构提供经营管理一体化系统,提供了覆盖单店管理、连锁管理、健康档案/电子病历、客户关系管理、智能营销、B2B交易平台、进销
基于以上问题,从 Apache Doris 1.1.0 版本开始,我们增加了主动触发式 QuickCompaction、引入了 Cumulative Compaction 任务的隔离调度并增加了小文件合并的梯度合并策略,对高并发写入和数据实时可见等场景都进行了针对性优化。
中新经纬12月9日电 随着信贷科技的不断发展,使大数据分析场景相应地增加了许多,对于金融科技平台而言,这些新场景对数据的安全性、准确性、实时性提出更严格的要求。与此同时,指数级增长的用户数,也向业务端施加了交付效率、稳定性、用户体验等多重压力。
数仓架构 2.0 版本是基于 MaxCompute + Hologres/MySQL 来搭建的。产品侧要求数据查询响应时间在 5 秒以内,虽然我们也基于 MySQL 进行了许多优化,但优化效果十分有限,仍无法达到 5s 的响应要求;
作者介绍: 肖康,SelectDB 技术副总裁导语日志数据的处理与分析是最典型的大数据分析场景之一,过去业内以 Elasticsearch 和 Grafana Loki 为代表的两类架构难以同时兼顾高吞吐实时写入、低成本海量存储、实时文本检索的需求。
马如悦说到,Apache Doris 自 2013 年创立至今已有 10 年,截至目前,GitHub Stars 已近 13k,社区的贡献者达到近 670 名,平均每月活跃贡献者超过 120 名,成为众多开源大数据、数据库项目中月活开发者最高的项目。
在过去 Apache Doris 主要通过 Unique Key 数据模型来实现数据实时 Upsert,因底层采取了类似 LSM Tree 结构,对于大数据量的高频写入具有足够强劲的支撑,但由于采取了 Merge on Read 的更新模式,因此读取效率成了制约 Apache Doris 发挥实时更新能力的瓶颈,在应对实时数据的并行读写时可能引发查询抖动问题。
在前段时间,InfoQ 邀请了 ArchSummit 架构师峰会上的专家小质科技 技术 VP 胡月军、天翼云资深研发专家 刘超,和 高级架构师 / 大数据基础架构负责人 王海华老师来直播,一起聊了聊他们团队在 AI 环境下更智能的处理数据和利用数据的。