'deflate' 태그의 글 목록

deflate

HIVE 저장 포맷 2018.03.27 1

HIVE 저장 포맷

ColinKang 2018. 3. 27. 13:23

2018. 3. 27. 13:23

관점 : 파일포맷, 압축, 저장소

파일포맷 :

TEXTFILE, SEQUENCEFILE, RCFILE, ORC, PARQUET

압축방식 :

Deflate, GZip, Bzip2, LZO, LZ4, Snappy

선택은?

ORC with Snappy 인듯한데, 자세한내용은 아래 참조

https://www.slideshare.net/oom65/file-format-benchmarks-avro-json-orc-parquet

SerDe

SerDe는 직렬화 (Serializer)와 역직렬화 (Deserializer)의 약자

SerDe는 테이블 컬럼 데이터 타입에 직렬화와 역직렬화를 적용하여 어떻게 데이터를 처리할지를 다루는 기술

종류 :

LazySimpleSerDe:

STORED AS TEXTFILE

ColumnarSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'

STORED AS RCFile

RegexSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'

HBaseSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.hbase.HBaseSerDe'

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

AvroSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'

STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro'

OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro'

ParquetHiveSerDe :

STORED AS PARQUET

OpenCSVSerDe :

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'

STORED AS TEXTFILE

JSONSerDe :

ROW FORMAT SERDE

'org.apache.hive.hcatalog.data.JsonSerDe'

STORED AS INPUTFORMAT

'org.apache.hadoop.mapred.TextInputFormat'

OUTPUTFORMAT

'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

참조 :

https://cwiki.apache.org/confluence/display/Hive/SerDe

https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe

'IT기술관련 > 빅데이터관련' 카테고리의 다른 글

HIVE 데이터타입 (0)	2018.03.27

PREV 이전 1 NEXT 다음

Colin Kang

deflate

HIVE 저장 포맷

'IT기술관련 > 빅데이터관련' 카테고리의 다른 글

+ Recent posts

티스토리툴바