作为从事汽车AI应用的大数据公司,在过去的三年中,我们已经积累了300万辆汽车算法的数据包括哪些,10亿行程,150亿公里和320亿分钟的庞大数据规模,数据建模和分析,我们为汽车生产研发,性能测试,智能调度,营销,汽车保险和其他应用场景提供服务.
在数据压缩方面,由于海量数据,我们不得不尝试一种更有效的压缩方案来缓解压力. 最后,我们的方案实现了100行GPS数据,大小为20CSV,Protobuf的比例为50%. 整个数据压缩方法包括柱状压缩,数据完整性,前缀提取,混合编码和边界值处理方案. 具体来说:
首先,列类型
列压缩可以收集具有相同特征的数据,并选择最佳的数据压缩和处理方法.
第二,数据诠释
数据使用Int类型格式,可以最大程度地压缩数据字节.
三,前缀提取
Gps数据和传感器数据具有很多相同的数据前缀,例如GPS纬度和经度数据的前4位基本不变,这可以极大地压缩数据大小.
四种混合编码
根据数据的特性(例如波动率的微小变化),使用差分编码;大量数据是连续的,并且使用RLE编码;重复大量数据并使用字典编码;数据的最大值不大,并且使用BitPacked编码.
五,边界值处理
对于gps和传感器数据,数字在一定范围内波动. 使用差异编码后,会有一个极值过渡,例如0算法的数据包括哪些,需要特殊处理.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-232750-1.html
反而是悲哀
10