관점 : 파일포맷, 압축, 저장소
파일포맷 :
TEXTFILE, SEQUENCEFILE, RCFILE, ORC, PARQUET
압축방식 :
Deflate, GZip, Bzip2, LZO, LZ4, Snappy
선택은?
ORC with Snappy 인듯한데, 자세한내용은 아래 참조
https://www.slideshare.net/oom65/file-format-benchmarks-avro-json-orc-parquet
SerDe
SerDe는 직렬화 (Serializer)와 역직렬화 (Deserializer)의 약자
SerDe는 테이블 컬럼 데이터 타입에 직렬화와 역직렬화를 적용하여 어떻게 데이터를 처리할지를 다루는 기술
종류 :
LazySimpleSerDe:
STORED AS TEXTFILE
ColumnarSerDe :
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'
STORED AS RCFile
RegexSerDe :
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
HBaseSerDe :
ROW FORMAT SERDE 'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
AvroSerDe :
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro'
ParquetHiveSerDe :
STORED AS PARQUET
OpenCSVSerDe :
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
STORED AS TEXTFILE
JSONSerDe :
ROW FORMAT SERDE
'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
참조 :
https://cwiki.apache.org/confluence/display/Hive/SerDe
https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe
'IT기술관련 > 빅데이터관련' 카테고리의 다른 글
HIVE 데이터타입 (0) | 2018.03.27 |
---|