doc/html/dict-encoding_8h_source.html

 // Copyright 2012 Cloudera Inc.

 //

 // Licensed under the Apache License, Version 2.0 (the "License");

 // you may not use this file except in compliance with the License.

 // You may obtain a copy of the License at

 //

 // http://www.apache.org/licenses/LICENSE-2.0

 //

 // Unless required by applicable law or agreed to in writing, software

 // distributed under the License is distributed on an "AS IS" BASIS,

 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 // See the License for the specific language governing permissions and

 // limitations under the License.


 #ifndef IMPALA_UTIL_DICT_ENCODING_H

 #define IMPALA_UTIL_DICT_ENCODING_H


 #include <map>


 #include <boost/foreach.hpp>

 #include <boost/scoped_ptr.hpp>

 #include <boost/unordered_map.hpp>


 #include "exec/parquet-common.h"

 #include "runtime/mem-pool.h"

 #include "runtime/string-value.h"

 #include "util/rle-encoding.h"

 #include "util/runtime-profile.h"


 namespace impala {


 class DictEncoderBase {

  public:

   virtual ~DictEncoderBase() {

     DCHECK(buffered_indices_.empty());

   }


   virtual void WriteDict(uint8_t* buffer) = 0;


   virtual int num_entries() const = 0;


   void ClearIndices() { buffered_indices_.clear(); }


   int EstimatedDataEncodedSize() {

     return 1 + RleEncoder::MaxBufferSize(bit_width(), buffered_indices_.size());

   }


   int bit_width() const {

     if (UNLIKELY(num_entries() == 0)) return 0;

     if (UNLIKELY(num_entries() == 1)) return 1;

     return BitUtil::Log2(num_entries());

   }


   int WriteData(uint8_t* buffer, int buffer_len);


   int dict_encoded_size() { return dict_encoded_size_; }


  protected:

   DictEncoderBase(MemPool* pool)

     : dict_encoded_size_(0), pool_(pool) {

   }


   std::vector<int> buffered_indices_;


   int dict_encoded_size_;


   MemPool* pool_;

 };


 template<typename T>

 class DictEncoder : public DictEncoderBase {

  public:

   DictEncoder(MemPool* pool, int encoded_value_size) :

       DictEncoderBase(pool), buckets_(HASH_TABLE_SIZE, Node::INVALID_INDEX),

       encoded_value_size_(encoded_value_size) { }


   int Put(const T& value);


   virtual void WriteDict(uint8_t* buffer);


   virtual int num_entries() const { return nodes_.size(); }


  private:

   enum { HASH_TABLE_SIZE = 1 << 16 };


   typedef uint16_t NodeIndex;


   std::vector<NodeIndex> buckets_;


   struct Node {

     Node(const T& v, const NodeIndex& n) : value(v), next(n) { }


     T value;


     NodeIndex next;


     enum { INVALID_INDEX = 40000 };

   };


   std::vector<Node> nodes_;


   int encoded_value_size_;


   inline uint32_t Hash(const T& value) const;


   int AddToTable(const T& value, NodeIndex* bucket);

 };


 class DictDecoderBase {

  public:

   void SetData(uint8_t* buffer, int buffer_len) {

     DCHECK_GT(buffer_len, 0);

     uint8_t bit_width = *buffer;

     DCHECK_GE(bit_width, 0);

     ++buffer;

     --buffer_len;

     data_decoder_.reset(new RleDecoder(buffer, buffer_len, bit_width));

   }


   virtual ~DictDecoderBase() {}


   virtual int num_entries() const = 0;


  protected:

   boost::scoped_ptr<RleDecoder> data_decoder_;

 };


 template<typename T>

 class DictDecoder : public DictDecoderBase {

  public:

   DictDecoder(uint8_t* dict_buffer, int dict_len, int fixed_len_size);


   virtual int num_entries() const { return dict_.size(); }


   bool GetValue(T* value);


  private:

   std::vector<T> dict_;

 };


 template<typename T>

 inline int DictEncoder<T>::Put(const T& value) {

   NodeIndex* bucket = &buckets_[Hash(value) & (HASH_TABLE_SIZE - 1)];

   NodeIndex i = *bucket;

   // Look for the value in the dictionary.

   while (i != Node::INVALID_INDEX) {

     const Node* n = &nodes_[i];

     if (LIKELY(n->value == value)) {

       // Value already in dictionary.

       buffered_indices_.push_back(i);

       return 0;

     }

     i = n->next;

   }

   // Value not found. Add it to the dictionary if there's space.

   i = nodes_.size();

   if (UNLIKELY(i >= Node::INVALID_INDEX)) return -1;

   buffered_indices_.push_back(i);

   return AddToTable(value, bucket);

 }


 template<typename T>

 inline uint32_t DictEncoder<T>::Hash(const T& value) const {

   return HashUtil::Hash(&value, sizeof(value), 0);

 }


 template<>

 inline uint32_t DictEncoder<StringValue>::Hash(const StringValue& value) const {

   return HashUtil::Hash(value.ptr, value.len, 0);

 }


 template<typename T>

 inline int DictEncoder<T>::AddToTable(const T& value, NodeIndex* bucket) {

   DCHECK_GT(encoded_value_size_, 0);

   // Prepend the new node to this bucket's chain.

   nodes_.push_back(Node(value, *bucket));

   *bucket = nodes_.size() - 1;

   dict_encoded_size_ += encoded_value_size_;

   return encoded_value_size_;

 }


 template<>

 inline int DictEncoder<StringValue>::AddToTable(const StringValue& value,

     NodeIndex* bucket) {

   char* ptr_copy = reinterpret_cast<char*>(pool_->Allocate(value.len));

   memcpy(ptr_copy, value.ptr, value.len);

   StringValue sv(ptr_copy, value.len);

   // Prepend the new node to this bucket's chain.

   nodes_.push_back(Node(sv, *bucket));

   *bucket = nodes_.size() - 1;

   int bytes_added = ParquetPlainEncoder::ByteSize(sv);

   dict_encoded_size_ += bytes_added;

   return bytes_added;

 }


 template<typename T>

 inline bool DictDecoder<T>::GetValue(T* value) {

   DCHECK(data_decoder_.get() != NULL);

   int index;

   bool result = data_decoder_->Get(&index);

   if (!result) return false;

   if (index >= dict_.size()) return false;

   *value = dict_[index];

   return true;

 }


 template<>

 inline bool DictDecoder<Decimal16Value>::GetValue(Decimal16Value* value) {

   DCHECK(data_decoder_.get() != NULL);

   int index;

   bool result = data_decoder_->Get(&index);

   if (!result) return false;

   if (index >= dict_.size()) return false;

   // Workaround for IMPALA-959. Use memcpy instead of '=' so addresses

   // do not need to be 16 byte aligned.

   uint8_t* addr = reinterpret_cast<uint8_t*>(&dict_[0]);

   addr = addr + index * sizeof(*value);

   memcpy(value, addr, sizeof(*value));

   return true;

 }


 template<typename T>

 inline void DictEncoder<T>::WriteDict(uint8_t* buffer) {

   BOOST_FOREACH(const Node& node, nodes_) {

     buffer += ParquetPlainEncoder::Encode(buffer, encoded_value_size_, node.value);

   }

 }


 inline int DictEncoderBase::WriteData(uint8_t* buffer, int buffer_len) {

   // Write bit width in first byte

   *buffer = bit_width();

   ++buffer;

   --buffer_len;


   RleEncoder encoder(buffer, buffer_len, bit_width());

   BOOST_FOREACH(int index, buffered_indices_) {

     if (!encoder.Put(index)) return -1;

   }

   encoder.Flush();

   return 1 + encoder.len();

 }


 template<typename T>

 inline DictDecoder<T>::DictDecoder(uint8_t* dict_buffer, int dict_len,

     int fixed_len_size) {

   uint8_t* end = dict_buffer + dict_len;

   while (dict_buffer < end) {

     T value;

     dict_buffer +=

         ParquetPlainEncoder::Decode(dict_buffer, fixed_len_size, &value);

     dict_.push_back(value);

   }

 }


 }

 #endif

impala::DictEncoder::NodeIndex
uint16_t NodeIndex
Dictates an upper bound on the capacity of the hash table.
Definition: dict-encoding.h:124

runtime-profile.h

impala::StringValue
Definition: string-value.h:33

impala::RleEncoder
Definition: rle-encoding.h:111

impala::DictEncoderBase
Definition: dict-encoding.h:48

impala::DictDecoderBase::data_decoder_
boost::scoped_ptr< RleDecoder > data_decoder_
Definition: dict-encoding.h:183

impala::DictEncoder::Hash
uint32_t Hash(const T &value) const
Hash function for mapping a value to a bucket.
Definition: dict-encoding.h:230

impala::StringValue::len
int len
Definition: string-value.h:38

impala::DictEncoder::encoded_value_size_
int encoded_value_size_
Size of each encoded dictionary value. -1 for variable-length types.
Definition: dict-encoding.h:151

impala::DictDecoderBase::~DictDecoderBase
virtual ~DictDecoderBase()
Definition: dict-encoding.h:178

impala::DictEncoderBase::pool_
MemPool * pool_
Pool to store StringValue data. Not owned.
Definition: dict-encoding.h:98

impala::DictEncoderBase::WriteData
int WriteData(uint8_t *buffer, int buffer_len)
Definition: dict-encoding.h:296

impala::ParquetPlainEncoder::ByteSize
static int ByteSize(const T &v)
Returns the byte size of 'v'.
Definition: parquet-common.h:84

impala::DictEncoder::num_entries
virtual int num_entries() const
The number of entries in the dictionary.
Definition: dict-encoding.h:117

impala::DictEncoderBase::dict_encoded_size
int dict_encoded_size()
Definition: dict-encoding.h:84

impala::DictEncoder::buckets_
std::vector< NodeIndex > buckets_
Definition: dict-encoding.h:129

impala::DictDecoderBase
Definition: dict-encoding.h:166

impala::ParquetPlainEncoder::Encode
static int Encode(uint8_t *buffer, int fixed_len_size, const T &t)
Definition: parquet-common.h:166

impala::DictEncoder::Node::value
T value
The dictionary value.
Definition: dict-encoding.h:136

impala::DictEncoder::nodes_
std::vector< Node > nodes_
Definition: dict-encoding.h:148

impala::MemPool
Definition: mem-pool.h:77

impala::DictDecoder
Definition: dict-encoding.h:187

impala::DictEncoderBase::bit_width
int bit_width() const
The minimum bit width required to encode the currently buffered indices.
Definition: dict-encoding.h:71

impala::DictEncoderBase::~DictEncoderBase
virtual ~DictEncoderBase()
Definition: dict-encoding.h:50

impala::DictEncoderBase::num_entries
virtual int num_entries() const =0
The number of entries in the dictionary.

impala::DictEncoder::WriteDict
virtual void WriteDict(uint8_t *buffer)
Definition: dict-encoding.h:290

impala::HashUtil::Hash
static uint32_t Hash(const void *data, int32_t bytes, uint32_t seed)
Definition: hash-util.h:135

pool
ObjectPool pool
Definition: expr-benchmark.cc:89

impala::DecimalValue< int128_t >

impala::DictEncoderBase::dict_encoded_size_
int dict_encoded_size_
The number of bytes needed to encode the dictionary.
Definition: dict-encoding.h:95

impala::RleEncoder::len
int32_t len()
Definition: rle-encoding.h:162

Hash
static uint64_t Hash(const IntVal &v)
Definition: hyperloglog-uda.cc:56

rle-encoding.h

impala::DictEncoderBase::EstimatedDataEncodedSize
int EstimatedDataEncodedSize()
Definition: dict-encoding.h:66

impala::ParquetPlainEncoder::Decode
static int Decode(uint8_t *buffer, int fixed_len_size, T *v)
Definition: parquet-common.h:176

impala::DictEncoder
Definition: dict-encoding.h:102

impala::DictEncoder::AddToTable
int AddToTable(const T &value, NodeIndex *bucket)
Definition: dict-encoding.h:240

impala::DictEncoderBase::ClearIndices
void ClearIndices()
Clears all the indices (but leaves the dictionary).
Definition: dict-encoding.h:62

impala::StringValue::ptr
char * ptr
Definition: string-value.h:37

impala::DictEncoder::HASH_TABLE_SIZE
Definition: dict-encoding.h:121

impala::DictEncoder::Node
Node in the chained hash table.
Definition: dict-encoding.h:132

parquet-common.h

impala::DictDecoder::DictDecoder
DictDecoder(uint8_t *dict_buffer, int dict_len, int fixed_len_size)
Definition: dict-encoding.h:311

UNLIKELY
#define UNLIKELY(expr)
Definition: compiler-util.h:33

impala::RleEncoder::Put
bool Put(uint64_t value)
Definition: rle-encoding.h:264

impala::DictDecoder::dict_
std::vector< T > dict_
Definition: dict-encoding.h:205

LIKELY
#define LIKELY(expr)
Definition: compiler-util.h:32

impala::DictEncoderBase::WriteDict
virtual void WriteDict(uint8_t *buffer)=0

mem-pool.h

impala::RleEncoder::Flush
int Flush()
Definition: rle-encoding.h:370

impala::DictEncoder::Put
int Put(const T &value)
Definition: dict-encoding.h:209

impala::DictDecoderBase::num_entries
virtual int num_entries() const =0

impala::DictEncoder::DictEncoder
DictEncoder(MemPool *pool, int encoded_value_size)
Definition: dict-encoding.h:104

impala::DictDecoder::GetValue
bool GetValue(T *value)
Definition: dict-encoding.h:264

impala::DictEncoder::Node::Node
Node(const T &v, const NodeIndex &n)
Definition: dict-encoding.h:133

impala::DictEncoder::Node::INVALID_INDEX
Definition: dict-encoding.h:143

impala::DictDecoderBase::SetData
void SetData(uint8_t *buffer, int buffer_len)
The rle encoded indices into the dictionary.
Definition: dict-encoding.h:169

impala::RleEncoder::MaxBufferSize
static int MaxBufferSize(int bit_width, int num_values)
Returns the maximum byte size it could take to encode 'num_values'.
Definition: rle-encoding.h:142

impala::DictEncoderBase::buffered_indices_
std::vector< int > buffered_indices_
Indices that have not yet be written out by WriteData().
Definition: dict-encoding.h:92

impala::DictEncoderBase::DictEncoderBase
DictEncoderBase(MemPool *pool)
Definition: dict-encoding.h:87

string-value.h

impala::DictDecoder::num_entries
virtual int num_entries() const
Definition: dict-encoding.h:197

impala::RleDecoder
Decoder class for RLE encoded data.
Definition: rle-encoding.h:77

impala::BitUtil::Log2
static int Log2(uint64_t x)
Definition: bit-util.h:135

impala::DictEncoder::Node::next
NodeIndex next
Index into nodes_ for the next Node in the chain. INVALID_INDEX indicates end.
Definition: dict-encoding.h:139