近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准牵头起草单位为阿里云计算有限公司,将于2025年2月1日起正式实施。
《信息技术 大数据 批流融合计算技术要求》对批流融合技术作了清晰定义,规定了批流融合系统需能同时支持实时和离线计算模型,并应具备统一资源管理、统一计算框架、统一API、统一SQL接口、统一作业管理、统一权限管理及弹性拓展等关键能力。
批流融合是大数据领域重要的新兴技术趋势。随着互联网的发展,企业在电商推荐、交通物流、金融交易监控等众多场景对大规模实时数据计算的需求不断攀升,传统批量计算范式在时延方面难以满足要求,将实时处理数据的流式计算与批量计算在统一技术框架下融合成为行业必经之路。
以流计算兼容批计算的开源计算引擎Apache Flink是大数据计算的后起之秀,允许用户以一套代码进行流处理或批处理,节省了大量开发成本。2019年,阿里收购Apache Flink母公司,结合自身电商场景实践,投入大量研发力量优化Apache Flink产品,使其达到高吞吐、低延迟、高可用、高准确性的企业级应用标准,并持续为全球开源社区贡献,成为推动社区和技术创新的主导力量。目前,Apache Flink已成为行业内批流融合计算的事实标准,阿里巴巴、蚂蚁集团、字节跳动、小米、快手、小红书、哔哩哔哩、滴滴、中国联通等上百家企业都在使用Apache Flink进行实时计算。
作为国内大数据领域领导者,阿里云在2019年发起了批流融合计算技术的国家标准立项和编制工作,并联合行业内各单位共同起草完善。融合了阿里云实时计算Flink版的打造经验和丰富的行业实践,国家标准《信息技术 大数据 批流融合计算技术要求》将更好地推动批流融合计算的技术发展,指导国内批流融合计算系统的设计、开发和部署,并进一步帮助批流融合技术在各行业中落地应用。
据了解,阿里云在大数据领域积累了深厚技术实力。阿里云拥有从大数据处理分析、数据仓库到AI工程化服务的全栈技术能力,自主研发的MaxCompute、Dataworks、Hologres等旗舰产品可提供业界最高水平的数据处理性能、伸缩弹性和稳定性;同时,阿里云积极贡献并维护了一系列开源项目,包括Apache Flink、Apache Paimon等,为开发者提供丰富的工具选择,并提供全托管式云服务。