内容简介:Hadoop 文件格式
CSV
CSV(Comma-Separated Value 逗号分隔值)
特性
- 文本文件
- 面向行
- 记录被分隔符分隔为字段
- 记录有着相同的字段序列
场景
易于解析,适用于从 Sqoop 导入到 HDFS 或从 HDFS 导出到数据库的文件格式
提示
- 文本编码
- 保证记录中的字段不包含分隔符(使用不常用的字符作为分隔符或者替换字段中的分隔符)
-
使用 Apache Commons Lang 3 项目的
StringUtils.splitPreserveAllTokens
替换 Java String 自带的string.split
解析 CSV
JSON
JSON(JavaScript Object Notation JavaScript 对象标记)
特性
- 文本文件
- 面向行
场景
可读性好,适用于调试
Avro
特性
- 序列化框架
- 自描述 Schema
- 面向行
- 可分片
- 支持内部压缩
场景
空间利用率高,适用于归档数据
Parquet
特性
- 自描述 Schema
- 面向列
- 可分片
- 支持内部压缩
场景
列式存储,适用于结构化查询
Kudu
特性
- 面向列
场景
列式存储,适用于流处理
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- Class 文件格式详解
- 一张图看懂FLV文件格式
- [译] 文件系统格式算是 ABI 吗?
- X.509、PKCS文件格式介绍
- Linux EXT系列文件系统格式
- 解决从旧格式的 csproj 迁移到新格式的 csproj 格式 AssemblyInfo 文件值重复问题
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
区块链技术驱动金融
阿尔文德·纳拉亚南、约什·贝努、爱德华·费尔顿、安德鲁·米勒、史蒂文·戈德费德 / 林华、王勇 / 中信出版社,中信出版集团 / 2016-8-25 / CNY 79.00
从数字货币及智能合约技术层面,解读了区块链技术在金融领域的运用。“如果你正在寻找一本在技术层面解释比特币是如何运作的,并且你有一定计算机科学和编程的基本知识,这本书应该很适合你。” 《区块链:技术驱动金融》回答了一系列关于比特币如何运用区块链技术运作的问题,并且着重讲述了各种技术功能,以及未来会形成的网络。比特币是如何运作的?它因何而与众不同?你的比特币安全吗?比特币用户如何匿名?区块链如何......一起来看看 《区块链技术驱动金融》 这本书的介绍吧!