本篇文章1838字,读完约5分钟
如何支撑流量洪峰,是每年双十一艺术节的技术大考试。 随着流量激增,这个大考试一定越来越难了。
双11销售节刚过,各大电商相继公布了当天的战绩。 从目前公布的数据可以明显看出,今年双十一艺术节订单创下高峰创下新高,单日数据解决量纪录再次刷新。
双十一艺术节的数据量不仅很大,而且会实时变化。 各个购物数据是个性化的、动态的,可以说为了解决这些业务,需要强大的计算能力。
今年的数据解决事业除了批量解决(批量解决数据)外,还有流解决,即实时解决数据。 庞大的交易数据每分每秒都在变化,它们不是从数据库中统计出来的,而是由系统自动整合成一个层次。 阿里巴巴集团首席技术官张建锋表示。 他嘴里的流解决是流计算,即实时计算。 担负着双11销售的节流量洪峰,其功不可没。
那么,什么是流计算? 如何抵制双11销售的节流量洪峰? 对此,科技日报记者采访了业内专家。
使用内存代替硬盘实现快速解决
北京理工大学计算机学院副院长、教授刘驰在接受《科技日报》记者采访时表示,所谓的流媒体计算,是指一个数据解决后,很快被串行传输到内存,通过互联网传输到下一个节点,在下一个节点继续 该流媒体技术通过用内存替换硬盘来实现数据的快速解决。 这是流媒体技术能够有效解决数据的根本原因。 他说
刘凯表示,流量计算具有高性能、大批量公式、实时性、分布式、易用性、可靠性等诸多特征,首要应用方向是快速计算和分析金融和科学计算中的数据。 快速解决和反馈社交网站、电子邮件、视频、电话记录、电子传感器中存在的数字新闻流等。
流式传输解决方案可用于两个不同的计算场景:事件流和连续计算。 刘凯介绍说,在事件的走向场景中,系统持续生成大量数据,这类数据最先出现在银行和股票交易行业,也出现在网络监控、无线通信等行业。 这些行业的相关业务需要流媒体计算技术以几乎实时的方式对数据流进行大量的分解。
在连续计算场景(如大型网站)中,流媒体技术可以动态、实时地更新客户访问数据,展示网站实时流量的变化,并分析每天各个时间的流量和客户分布 需要实时解决数据的场景还可以应用于流媒体计算技术,如实时分析基于顾客行为生成的日志文件,向顾客实时推荐商品等。 刘凯介绍了。
实时收集、实时计算、实时查询
刘凯向记者介绍说,流媒体解决过程通常包括数据实时采集、数据实时计算和实时查询服务三个阶段。
首先,后台员工使用实时数据整合工具将数据实时传输到流媒体数据存储系统。 具体来说,系统将长期积累的大量数据平均化到各个计算时间节点,数据不断进行少量的实时传输。 此时,数据将陆续写入流数据存储系统,不需要预加载的过程。 另外,在这个过程中数据持续流动,计算完成后马上被废弃。
然后,批量计算不是在数据集成完成后再开始计算作业,而是流式作业是驻留计算服务,一旦启动,始终等待触发事件。 也就是说,少量数据进入流式数据存储系统后,流式计算系统会立即计算并得出结果。 另外,一些EC平台的流量计算团队采用增量计算模型,批量增量计算大量数据,进一步减少了一次运算规模,较有效地降低了整体运算延迟。 刘凯说。
最后,在将数据批量传输到在线系统之前,必须使用数据批处理解决方案等待数据计算结果出来。 流式传输解决方案可以在每次小批量的数据计算工作完成后,将计算结果写入在线系统。 这样,无需等待所有数据计算业务的完成,就可以通过流式计算数据查询系统查询在线系统的数据解析结果。 技术人员还可以将实时结果发送到可视化系统,实现计算结果的实时化展示。 刘凯说。
技术虽强,但还有短板
但刘凯表示,虽然流量计算很强,但也存在技术短板。
即使系统内存不足,如果满足多个客户的数据请求,每个客户实际分配的内存也会减少。 此时,应用流式技术会增加内存的诉求,因此系统会将原本分配给多个客户的内存资源全部分配给一个客户。 需要其他内存的客户由于内存不可用而陷入等待状态。 在占用内存资源的客户退出之前,其他客户无法使用内存。 刘凯表示,实时计算环境由于互联网延迟等多种原因,程序到达计算节点的顺序将会发生变化。
此外,虽然流式计算技术面临着不断涌入的数据,但如果像批处理解决那样计算数据,则计算可能完全无法完成,或者随着时间的推移需要保存的数据会增加,从而给内存带来很大的压力 刘凯补充说,数据层出不穷,计算需要持续进行。 但是,如果计算时间变长,发生问题的概率就会大幅增加。 一旦发生问题,在计算过程中缓存的数据应该保留多久,应该如何恢复就成了大问题。 崔爽
标题:财讯:“双十一销售节”流量大考是怎么过关的?
地址:http://www.cmguhai.com/cxjrkj/18795.html