批处理是流处理的理想特例
批处理并非与流处理并列的技术范式,而是流处理在完美假设下的简化特例。真实世界的数据具有无界、乱序、延迟三大特性,流处理通过事件时间、窗口和水位线机制直面不确定性,更贴近数据本质。
批处理是流处理的子集
批处理并非与流处理并列,而是其在理想假设(数据完整、零延迟、严格有序)下的退化形态。现代流引擎如Flink支持统一模型,仅通过参数即可切换批/流行为,印证了二者本质上的包含关系。
数据三原罪:无界乱序迟到
真实数据天然具备无界、乱序、延迟三大特征。批处理靠‘冻结时间’回避问题,流处理则直面不确定性,以事件时间为锚点重建因果逻辑,这才是面向现实的工程选择。
流处理铁三角:时间+窗口+水位
事件时间定义‘何时发生’,窗口划分‘计算范围’,水位线判断‘何时可关窗’。三者协同,使流处理能在不确定数据流中产出低延迟、高准确的结果,形成稳定的技术契约。