관점 : 파일포맷, 압축, 저장소

 

파일포맷 :

TEXTFILE, SEQUENCEFILE, RCFILE, ORC, PARQUET

 

압축방식 :

Deflate, GZip, Bzip2, LZO, LZ4, Snappy

 

선택은?

 

ORC with Snappy 인듯한데, 자세한내용은 아래 참조

 

https://www.slideshare.net/oom65/file-format-benchmarks-avro-json-orc-parquet

 

 

SerDe

SerDe는 직렬화 (Serializer)와 역직렬화 (Deserializer)의 약자

SerDe는 테이블 컬럼 데이터 타입에 직렬화와 역직렬화를 적용하여 어떻게 데이터를 처리할지를 다루는 기술

 

종류 :

 

LazySimpleSerDe: 

STORED AS TEXTFILE

 

ColumnarSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'

STORED AS RCFile 

 

RegexSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'

 

HBaseSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.hbase.HBaseSerDe'

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

 

AvroSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'

STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro'

OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro'

 

ParquetHiveSerDe :

STORED AS PARQUET 

 

OpenCSVSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

STORED AS TEXTFILE

 

JSONSerDe :

ROW FORMAT SERDE 

'org.apache.hive.hcatalog.data.JsonSerDe' 

STORED AS INPUTFORMAT 

'org.apache.hadoop.mapred.TextInputFormat' 

OUTPUTFORMAT 

'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

 

참조 :

https://cwiki.apache.org/confluence/display/Hive/SerDe

https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe

 

 

 

 

'IT기술관련 > 빅데이터관련' 카테고리의 다른 글

HIVE 데이터타입  (0) 2018.03.27

+ Recent posts