doc/html/hdfs-rcfile-scanner_8cc_source.html

 // Copyright 2012 Cloudera Inc.

 //

 // Licensed under the Apache License, Version 2.0 (the "License");

 // you may not use this file except in compliance with the License.

 // You may obtain a copy of the License at

 //

 // http://www.apache.org/licenses/LICENSE-2.0

 //

 // Unless required by applicable law or agreed to in writing, software

 // distributed under the License is distributed on an "AS IS" BASIS,

 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 // See the License for the specific language governing permissions and

 // limitations under the License.


 #include "exec/hdfs-rcfile-scanner.h"


 #include <boost/algorithm/string.hpp>


 #include "exec/hdfs-scan-node.h"

 #include "exec/hdfs-sequence-scanner.h"

 #include "exec/scanner-context.inline.h"

 #include "exec/text-converter.inline.h"

 #include "exprs/expr.h"

 #include "runtime/descriptors.h"

 #include "runtime/runtime-state.h"

 #include "runtime/mem-pool.h"

 #include "runtime/raw-value.h"

 #include "runtime/tuple-row.h"

 #include "runtime/tuple.h"

 #include "runtime/string-value.h"

 #include "util/codec.h"

 #include "util/string-parser.h"


 #include "gen-cpp/PlanNodes_types.h"


 #include "common/names.h"

 using namespace impala;


 const char* const HdfsRCFileScanner::RCFILE_KEY_CLASS_NAME =

   "org.apache.hadoop.hive.ql.io.RCFile$KeyBuffer";


 const char* const HdfsRCFileScanner::RCFILE_VALUE_CLASS_NAME =

   "org.apache.hadoop.hive.ql.io.RCFile$ValueBuffer";


 const char* const HdfsRCFileScanner::RCFILE_METADATA_KEY_NUM_COLS =

   "hive.io.rcfile.column.number";


 const uint8_t HdfsRCFileScanner::RCFILE_VERSION_HEADER[4] = {'R', 'C', 'F', 1};


 // Macro to convert between SerdeUtil errors to Status returns.

 #define RETURN_IF_FALSE(x) if (UNLIKELY(!(x))) return parse_status_


 HdfsRCFileScanner::HdfsRCFileScanner(HdfsScanNode* scan_node, RuntimeState* state)

     : BaseSequenceScanner(scan_node, state) {

 }


 HdfsRCFileScanner::~HdfsRCFileScanner() {

 }


 Status HdfsRCFileScanner::Prepare(ScannerContext* context) {

   RETURN_IF_ERROR(BaseSequenceScanner::Prepare(context));

   text_converter_.reset(

       new TextConverter(0, scan_node_->hdfs_table()->null_column_value()));

   scan_node_->IncNumScannersCodegenDisabled();

   return Status::OK;

 }


 Status HdfsRCFileScanner::InitNewRange() {

   DCHECK(header_ != NULL);


   only_parsing_header_ = false;

   row_group_buffer_size_ = 0;


   // Can reuse buffer if there are no string columns (since the tuple won't contain

   // ptrs into the decompressed data).

   reuse_row_group_buffer_ = scan_node_->tuple_desc()->string_slots().empty();


   // The scanner currently copies all the column data out of the io buffer so the

   // stream never contains any tuple data.

   stream_->set_contains_tuple_data(false);


   if (header_->is_compressed) {

     RETURN_IF_ERROR(Codec::CreateDecompressor(NULL,

         reuse_row_group_buffer_, header_->codec, &decompressor_));

   }


   // Allocate the buffers for the key information that is used to read and decode

   // the column data.

   columns_.resize(reinterpret_cast<RcFileHeader*>(header_)->num_cols);

   int num_table_cols =

       scan_node_->hdfs_table()->num_cols() - scan_node_->num_partition_keys();

   for (int i = 0; i < columns_.size(); ++i) {

     if (i < num_table_cols) {

       int col_idx = i + scan_node_->num_partition_keys();

       columns_[i].materialize_column = scan_node_->GetMaterializedSlotIdx(

           vector<int>(1, col_idx)) != HdfsScanNode::SKIP_COLUMN;

     } else {

       // Treat columns not found in table metadata as extra unmaterialized columns

       columns_[i].materialize_column = false;

     }

   }


   // TODO: Initialize codegen fn here

   return Status::OK;

 }


 Status HdfsRCFileScanner::ReadFileHeader() {

   uint8_t* header;


   RcFileHeader* rc_header = reinterpret_cast<RcFileHeader*>(header_);

   // Validate file version

   RETURN_IF_FALSE(stream_->ReadBytes(

       sizeof(RCFILE_VERSION_HEADER), &header, &parse_status_));

   if (!memcmp(header, HdfsSequenceScanner::SEQFILE_VERSION_HEADER,

       sizeof(HdfsSequenceScanner::SEQFILE_VERSION_HEADER))) {

     rc_header->version = SEQ6;

   } else if (!memcmp(header, RCFILE_VERSION_HEADER, sizeof(RCFILE_VERSION_HEADER))) {

     rc_header->version = RCF1;

   } else {

     stringstream ss;

     ss << "Invalid RCFILE_VERSION_HEADER: '"

        << ReadWriteUtil::HexDump(header, sizeof(RCFILE_VERSION_HEADER)) << "'";

     return Status(ss.str());

   }


   if (rc_header->version == SEQ6) {

     // Validate class name key/value

     uint8_t* class_name_key;

     int64_t len;

     RETURN_IF_FALSE(

         stream_->ReadText(&class_name_key, &len, &parse_status_));

     if (len != strlen(HdfsRCFileScanner::RCFILE_KEY_CLASS_NAME) ||

         memcmp(class_name_key, HdfsRCFileScanner::RCFILE_KEY_CLASS_NAME, len)) {

       stringstream ss;

       ss << "Invalid RCFILE_KEY_CLASS_NAME: '"

          << string(reinterpret_cast<char*>(class_name_key), len)

          << "' len=" << len;

       return Status(ss.str());

     }


     uint8_t* class_name_val;

     RETURN_IF_FALSE(

         stream_->ReadText(&class_name_val, &len, &parse_status_));

     if (len != strlen(HdfsRCFileScanner::RCFILE_VALUE_CLASS_NAME) ||

         memcmp(class_name_val, HdfsRCFileScanner::RCFILE_VALUE_CLASS_NAME, len)) {

       stringstream ss;

       ss << "Invalid RCFILE_VALUE_CLASS_NAME: '"

          << string(reinterpret_cast<char*>(class_name_val), len)

          << "' len=" << len;

       return Status(ss.str());

     }

   }


   // Check for compression

   RETURN_IF_FALSE(

       stream_->ReadBoolean(&header_->is_compressed, &parse_status_));

   if (rc_header->version == SEQ6) {

     // Read the is_blk_compressed header field. This field should *always*

     // be FALSE, and is the result of using the sequence file header format in the

     // original RCFile format.

     bool is_blk_compressed;

     RETURN_IF_FALSE(

         stream_->ReadBoolean(&is_blk_compressed, &parse_status_));

     if (is_blk_compressed) {

       stringstream ss;

       ss << "RC files do no support block compression.";

       return Status(ss.str());

     }

   }

   if (header_->is_compressed) {

     uint8_t* codec_ptr;

     int64_t len;

     // Read the codec and get the right decompressor class.

     RETURN_IF_FALSE(stream_->ReadText(&codec_ptr, &len, &parse_status_));

     header_->codec = string(reinterpret_cast<char*>(codec_ptr), len);

     Codec::CodecMap::const_iterator it = Codec::CODEC_MAP.find(header_->codec);

     DCHECK(it != Codec::CODEC_MAP.end());

     header_->compression_type = it->second;

   } else {

     header_->compression_type = THdfsCompression::NONE;

   }

   VLOG_FILE << stream_->filename() << ": "

             << (header_->is_compressed ?  "compressed" : "not compressed");

   if (header_->is_compressed) VLOG_FILE << header_->codec;


   RETURN_IF_ERROR(ReadNumColumnsMetadata());


   // Read file sync marker

   uint8_t* sync;

   RETURN_IF_FALSE(stream_->ReadBytes(SYNC_HASH_SIZE, &sync, &parse_status_));

   memcpy(header_->sync, sync, SYNC_HASH_SIZE);


   header_->header_size = stream_->total_bytes_returned() - SYNC_HASH_SIZE;

   return Status::OK;

 }


 Status HdfsRCFileScanner::ReadNumColumnsMetadata() {

   int map_size = 0;

   RETURN_IF_FALSE(stream_->ReadInt(&map_size, &parse_status_));


   for (int i = 0; i < map_size; ++i) {

     uint8_t* key, *value;

     int64_t key_len, value_len;

     RETURN_IF_FALSE(stream_->ReadText(&key, &key_len, &parse_status_));

     RETURN_IF_FALSE(stream_->ReadText(&value, &value_len, &parse_status_));


     if (key_len == strlen(RCFILE_METADATA_KEY_NUM_COLS) &&

         !memcmp(key, HdfsRCFileScanner::RCFILE_METADATA_KEY_NUM_COLS, key_len)) {

       string value_str(reinterpret_cast<char*>(value), value_len);

       StringParser::ParseResult result;

       int num_cols =

           StringParser::StringToInt<int>(value_str.c_str(), value_str.size(), &result);

       if (result != StringParser::PARSE_SUCCESS) {

         stringstream ss;

         ss << "Could not parse number of columns in file " << stream_->filename()

            << ": " << value_str;

         if (result == StringParser::PARSE_OVERFLOW) ss << " (result overflowed)";

         return Status(ss.str());

       }

       RcFileHeader* rc_header = reinterpret_cast<RcFileHeader*>(header_);

       rc_header->num_cols = num_cols;

     }

   }

   return Status::OK;

 }


 BaseSequenceScanner::FileHeader* HdfsRCFileScanner::AllocateFileHeader() {

   return new RcFileHeader;

 }


 void HdfsRCFileScanner::ResetRowGroup() {

   num_rows_ = 0;

   row_pos_ = 0;

   key_length_ = 0;

   compressed_key_length_ = 0;


   for (int i = 0; i < columns_.size(); ++i) {

     columns_[i].buffer_len = 0;

     columns_[i].buffer_pos = 0;

     columns_[i].uncompressed_buffer_len = 0;

     columns_[i].key_buffer_len = 0;

     columns_[i].key_buffer_pos = 0;

     columns_[i].current_field_len = 0;

     columns_[i].current_field_len_rep = 0;

   }


   // We are done with this row group, pass along external buffers if necessary.

   if (!reuse_row_group_buffer_) {

     AttachPool(data_buffer_pool_.get(), true);

     row_group_buffer_size_ = 0;

   }

 }


 Status HdfsRCFileScanner::ReadRowGroup() {

   ResetRowGroup();


   while (num_rows_ == 0) {

     RETURN_IF_ERROR(ReadRowGroupHeader());

     RETURN_IF_ERROR(ReadKeyBuffers());

     if (!reuse_row_group_buffer_ || row_group_buffer_size_ < row_group_length_) {

       // Allocate a new buffer for reading the row group.  Row groups have a

       // fixed number of rows so take a guess at how big it will be based on

       // the previous row group size.

       // The row group length depends on the user data and can be very big. This

       // can cause us to go way over the mem limit so use TryAllocate instead.

       row_group_buffer_ = data_buffer_pool_->TryAllocate(row_group_length_);

       if (row_group_length_ > 0 && row_group_buffer_ == NULL) {

         return state_->SetMemLimitExceeded(

             scan_node_->mem_tracker(), row_group_length_);

       }

       row_group_buffer_size_ = row_group_length_;

     }

     RETURN_IF_ERROR(ReadColumnBuffers());

   }

   return Status::OK;

 }


 Status HdfsRCFileScanner::ReadRowGroupHeader() {

   int32_t record_length;

   RETURN_IF_FALSE(stream_->ReadInt(&record_length, &parse_status_));

   if (record_length < 0) {

     stringstream ss;

     int64_t position = stream_->file_offset();

     position -= sizeof(int32_t);

     ss << "Bad record length: " << record_length << " at offset: " << position;

     return Status(ss.str());

   }

   RETURN_IF_FALSE(stream_->ReadInt(&key_length_, &parse_status_));

   if (key_length_ < 0) {

     stringstream ss;

     int64_t position = stream_->file_offset();

     position -= sizeof(int32_t);

     ss << "Bad key length: " << key_length_ << " at offset: " << position;

     return Status(ss.str());

   }

   RETURN_IF_FALSE(stream_->ReadInt(&compressed_key_length_, &parse_status_));

   if (compressed_key_length_ < 0) {

     stringstream ss;

     int64_t position = stream_->file_offset();

     position -= sizeof(int32_t);

     ss << "Bad compressed key length: " << compressed_key_length_

        << " at offset: " << position;

     return Status(ss.str());

   }

   return Status::OK;

 }


 Status HdfsRCFileScanner::ReadKeyBuffers() {

   if (key_buffer_.size() < key_length_) key_buffer_.resize(key_length_);

   uint8_t* key_buffer = &key_buffer_[0];


   if (header_->is_compressed) {

     uint8_t* compressed_buffer;

     RETURN_IF_FALSE(stream_->ReadBytes(

         compressed_key_length_, &compressed_buffer, &parse_status_));

     {

       SCOPED_TIMER(decompress_timer_);

       RETURN_IF_ERROR(decompressor_->ProcessBlock32(true, compressed_key_length_,

           compressed_buffer, &key_length_, &key_buffer));

       VLOG_FILE << "Decompressed " << compressed_key_length_ << " to " << key_length_;

     }

   } else {

     uint8_t* buffer;

     RETURN_IF_FALSE(

         stream_->ReadBytes(key_length_, &buffer, &parse_status_));

     // Make a copy of this buffer.  The underlying IO buffer will get recycled

     memcpy(key_buffer, buffer, key_length_);

   }


   row_group_length_ = 0;

   uint8_t* key_buf_ptr = key_buffer;

   int bytes_read = ReadWriteUtil::GetVInt(key_buf_ptr, &num_rows_);

   key_buf_ptr += bytes_read;


   for (int col_idx = 0; col_idx < columns_.size(); ++col_idx) {

     GetCurrentKeyBuffer(col_idx, !columns_[col_idx].materialize_column, &key_buf_ptr);

     DCHECK_LE(key_buf_ptr, key_buffer + key_length_);

   }

   DCHECK_EQ(key_buf_ptr, key_buffer + key_length_);


   return Status::OK;

 }


 void HdfsRCFileScanner::GetCurrentKeyBuffer(int col_idx, bool skip_col_data,

                                             uint8_t** key_buf_ptr) {

   ColumnInfo& col_info = columns_[col_idx];


   int bytes_read = ReadWriteUtil::GetVInt(*key_buf_ptr, &col_info.buffer_len);

   *key_buf_ptr += bytes_read;


   bytes_read = ReadWriteUtil::GetVInt(*key_buf_ptr, &col_info.uncompressed_buffer_len);

   *key_buf_ptr += bytes_read;


   int col_key_buf_len;

   bytes_read = ReadWriteUtil::GetVInt(*key_buf_ptr , &col_key_buf_len);

   *key_buf_ptr += bytes_read;


   if (!skip_col_data) {

     col_info.key_buffer = *key_buf_ptr;


     // Set the offset for the start of the data for this column in the allocated buffer.

     col_info.start_offset = row_group_length_;

     row_group_length_ += col_info.uncompressed_buffer_len;

   }

   *key_buf_ptr += col_key_buf_len;

 }


 inline Status HdfsRCFileScanner::NextField(int col_idx) {

   ColumnInfo& col_info = columns_[col_idx];

   col_info.buffer_pos += col_info.current_field_len;


   if (col_info.current_field_len_rep > 0) {

     // repeat the previous length

     --col_info.current_field_len_rep;

   } else {

     // Get the next column length or repeat count

     int64_t length = 0;

     uint8_t* col_key_buf = col_info.key_buffer;

     int bytes_read = ReadWriteUtil::GetVLong(

         col_key_buf, col_info.key_buffer_pos, &length);

     if (bytes_read == -1) {

         int64_t position = stream_->file_offset();

         stringstream ss;

         ss << "Invalid column length at offset: " << position;

         return Status(ss.str());

     }

     col_info.key_buffer_pos += bytes_read;


     if (length < 0) {

       // The repeat count is stored as the logical negation of the number of repetitions.

       // See the column-key-buffer comment in hdfs-rcfile-scanner.h.

       col_info.current_field_len_rep = ~length - 1;

     } else {

       col_info.current_field_len = length;

     }

   }

   return Status::OK;

 }


 inline Status HdfsRCFileScanner::NextRow() {

   // TODO: Wrap this in an iterator and prevent people from alternating

   // calls to NextField()/NextRow()

   DCHECK_LT(row_pos_, num_rows_);

   for (int col_idx = 0; col_idx < columns_.size(); ++col_idx) {

     if (columns_[col_idx].materialize_column) {

       RETURN_IF_ERROR(NextField(col_idx));

     }

   }

   ++row_pos_;

   return Status::OK;

 }


 Status HdfsRCFileScanner::ReadColumnBuffers() {

   for (int col_idx = 0; col_idx < columns_.size(); ++col_idx) {

     ColumnInfo& column = columns_[col_idx];

     if (!columns_[col_idx].materialize_column) {

       // Not materializing this column, just skip it.

       RETURN_IF_FALSE(

           stream_->SkipBytes(column.buffer_len, &parse_status_));

       continue;

     }


     // TODO: Stream through these column buffers instead of reading everything

     // in at once.

     DCHECK_LE(column.uncompressed_buffer_len + column.start_offset, row_group_length_);

     if (header_->is_compressed) {

       uint8_t* compressed_input;

       RETURN_IF_FALSE(stream_->ReadBytes(

           column.buffer_len, &compressed_input, &parse_status_));

       uint8_t* compressed_output = row_group_buffer_ + column.start_offset;

       {

         SCOPED_TIMER(decompress_timer_);

         RETURN_IF_ERROR(decompressor_->ProcessBlock32(true, column.buffer_len,

             compressed_input, &column.uncompressed_buffer_len,

             &compressed_output));

         VLOG_FILE << "Decompressed " << column.buffer_len << " to "

                   << column.uncompressed_buffer_len;

       }

     } else {

       uint8_t* uncompressed_data;

       RETURN_IF_FALSE(stream_->ReadBytes(

           column.buffer_len, &uncompressed_data, &parse_status_));

       // TODO: this is bad.  Remove this copy.

       memcpy(row_group_buffer_ + column.start_offset,

           uncompressed_data, column.buffer_len);

     }

   }

   return Status::OK;

 }


 Status HdfsRCFileScanner::ProcessRange() {

   ResetRowGroup();


   // HdfsRCFileScanner effectively does buffered IO, in that it reads all the

   // materialized columns into a row group buffer.

   // It will then materialize tuples from the row group buffer.  When the row

   // group is complete, it will move onto the next row group.

   while (!finished()) {

     DCHECK_EQ(num_rows_, row_pos_);

     // Finished materializing this row group, read the next one.

     RETURN_IF_ERROR(ReadRowGroup());

     if (num_rows_ == 0) break;


     while (num_rows_ != row_pos_) {

       SCOPED_TIMER(scan_node_->materialize_tuple_timer());


       // Indicates whether the current row has errors.

       bool error_in_row = false;

       const vector<SlotDescriptor*>& materialized_slots =

           scan_node_->materialized_slots();

       vector<SlotDescriptor*>::const_iterator it;


       // Materialize rows from this row group in row batch sizes

       MemPool* pool;

       Tuple* tuple;

       TupleRow* current_row;

       int max_tuples = GetMemory(&pool, &tuple, &current_row);

       max_tuples = min(max_tuples, num_rows_ - row_pos_);


       if (materialized_slots.empty()) {

         // If there are no materialized slots (e.g. count(*) or just partition cols)

         // we can shortcircuit the parse loop

         row_pos_ += max_tuples;

         int num_to_commit = WriteEmptyTuples(context_, current_row, max_tuples);

         COUNTER_ADD(scan_node_->rows_read_counter(), max_tuples);

         RETURN_IF_ERROR(CommitRows(num_to_commit));

         continue;

       }


       int num_to_commit = 0;

       for (int i = 0; i < max_tuples; ++i) {

         RETURN_IF_ERROR(NextRow());


         // Initialize tuple from the partition key template tuple before writing the

         // slots

         InitTuple(template_tuple_, tuple);


         for (it = materialized_slots.begin(); it != materialized_slots.end(); ++it) {

           const SlotDescriptor* slot_desc = *it;

           int file_column_idx = slot_desc->col_pos() - scan_node_->num_partition_keys();


           // Set columns missing in this file to NULL

           if (file_column_idx >= columns_.size()) {

             tuple->SetNull(slot_desc->null_indicator_offset());

             continue;

           }


           ColumnInfo& column = columns_[file_column_idx];

           DCHECK(column.materialize_column);


           const char* col_start = reinterpret_cast<const char*>(

               row_group_buffer_ + column.start_offset + column.buffer_pos);

           int field_len = column.current_field_len;

           DCHECK_LE(col_start + field_len,

               reinterpret_cast<const char*>(row_group_buffer_ + row_group_length_));


           if (!text_converter_->WriteSlot(slot_desc, tuple, col_start, field_len,

               false, false, pool)) {

             ReportColumnParseError(slot_desc, col_start, field_len);

             error_in_row = true;

           }

         }


         if (error_in_row) {

           error_in_row = false;

           if (state_->LogHasSpace()) {

             stringstream ss;

             ss << "file: " << stream_->filename();

             state_->LogError(ErrorMsg(TErrorCode::GENERAL, ss.str()));

           }

           if (state_->abort_on_error()) {

             state_->ReportFileErrors(stream_->filename(), 1);

             return Status(state_->ErrorLog());

           }

         }


         current_row->SetTuple(scan_node_->tuple_idx(), tuple);

         // Evaluate the conjuncts and add the row to the batch

         if (EvalConjuncts(current_row)) {

           ++num_to_commit;

           current_row = next_row(current_row);

           tuple = next_tuple(tuple);

         }

       }

       COUNTER_ADD(scan_node_->rows_read_counter(), max_tuples);

       RETURN_IF_ERROR(CommitRows(num_to_commit));

       if (scan_node_->ReachedLimit()) return Status::OK;

     }


     // RCFiles don't end with syncs

     if (stream_->eof()) return Status::OK;


     // Check for sync by looking for the marker that precedes syncs.

     int marker;

     RETURN_IF_FALSE(stream_->ReadInt(&marker, &parse_status_, /* peek */ true));

     if (marker == HdfsRCFileScanner::SYNC_MARKER) {

       RETURN_IF_FALSE(stream_->ReadInt(&marker, &parse_status_, /* peek */ false));

       RETURN_IF_ERROR(ReadSync());

     }

   }

   return Status::OK;

 }


 void HdfsRCFileScanner::DebugString(int indentation_level, stringstream* out) const {

   // TODO: Add more details of internal state.

   *out << string(indentation_level * 2, ' ')

        << "HdfsRCFileScanner(tupleid=" << scan_node_->tuple_idx()

        << " file=" << stream_->filename();

   // TODO: Scanner::DebugString

   //  ExecNode::DebugString(indentation_level, out);

   *out << "])" << endl;

 }

impala::HdfsScanNode::materialized_slots
const std::vector< SlotDescriptor * > & materialized_slots() const
Definition: hdfs-scan-node.h:119

impala::HdfsTableDescriptor::null_column_value
const std::string & null_column_value() const
Definition: descriptors.h:233

impala::Codec::CODEC_MAP
static const CodecMap CODEC_MAP
Definition: codec.h:52

impala::HdfsScanner::decompressor_
boost::scoped_ptr< Codec > decompressor_
Decompressor class to use, if any.
Definition: hdfs-scanner.h:198

impala::HdfsScanner::ReportColumnParseError
void ReportColumnParseError(const SlotDescriptor *desc, const char *data, int len)
Definition: hdfs-scanner.cc:577

impala::HdfsRCFileScanner::AllocateFileHeader
virtual FileHeader * AllocateFileHeader()
Implementation of superclass functions.
Definition: hdfs-rcfile-scanner.cc:227

hdfs-sequence-scanner.h

impala::HdfsScanner::scan_node_
HdfsScanNode * scan_node_
The scan node that started this scanner.
Definition: hdfs-scanner.h:141

hdfs-scan-node.h

impala::Tuple::SetNull
void SetNull(const NullIndicatorOffset &offset)
Definition: tuple.h:101

impala::HdfsScanNode::num_partition_keys
int num_partition_keys() const
Returns number of partition keys in the table, including non-materialized slots.
Definition: hdfs-scan-node.h:127

impala::HdfsRCFileScanner::ColumnInfo::current_field_len_rep
int32_t current_field_len_rep
RLE: Repetition count of the current field.
Definition: hdfs-rcfile-scanner.h:370

impala::HdfsScanner::context_
ScannerContext * context_
Context for this scanner.
Definition: hdfs-scanner.h:147

impala::BaseSequenceScanner::only_parsing_header_
bool only_parsing_header_
If true, this scanner object is only for processing the header.
Definition: base-sequence-scanner.h:130

impala::HdfsRCFileScanner::row_group_buffer_
uint8_t * row_group_buffer_
Definition: hdfs-rcfile-scanner.h:403

impala::ScannerContext::Stream::total_bytes_returned
int64_t total_bytes_returned()
Returns the total number of bytes returned.
Definition: scanner-context.h:126

impala::BaseSequenceScanner::header_
FileHeader * header_
File header for this scan range. This is not owned by the parent scan node.
Definition: base-sequence-scanner.h:127

impala::HdfsScanner::data_buffer_pool_
boost::scoped_ptr< MemPool > data_buffer_pool_
Definition: hdfs-scanner.h:205

impala::HdfsRCFileScanner::key_buffer_
std::vector< uint8_t > key_buffer_
Buffer for copying key buffers. This buffer is reused between row groups.
Definition: hdfs-rcfile-scanner.h:379

impala::HdfsRCFileScanner::DebugString
void DebugString(int indentation_level, std::stringstream *out) const
Definition: hdfs-rcfile-scanner.cc:564

impala::ScannerContext::Stream::ReadInt
bool ReadInt(int32_t *val, Status *, bool peek=false)
Definition: scanner-context.inline.h:102

impala::ExecNode::mem_tracker
MemTracker * mem_tracker()
Definition: exec-node.h:162

impala::RuntimeState::ErrorLog
std::string ErrorLog()
Returns the error log lines as a string joined with ' '.
Definition: runtime-state.cc:203

impala::HdfsRCFileScanner::ReadNumColumnsMetadata
Status ReadNumColumnsMetadata()
Definition: hdfs-rcfile-scanner.cc:197

impala::Codec::CreateDecompressor
static Status CreateDecompressor(MemPool *mem_pool, bool reuse, THdfsCompression::type format, boost::scoped_ptr< Codec > *decompressor)

impala::HdfsScanNode::GetMaterializedSlotIdx
int GetMaterializedSlotIdx(const std::vector< int > &path) const
Definition: hdfs-scan-node.h:152

impala::BaseSequenceScanner::SYNC_HASH_SIZE
static const int SYNC_HASH_SIZE
Size of the sync hash field.
Definition: base-sequence-scanner.h:49

impala::HdfsScanner::text_converter_
boost::scoped_ptr< TextConverter > text_converter_
Helper class for converting text to other types;.
Definition: hdfs-scanner.h:186

impala::HdfsRCFileScanner::ReadFileHeader
virtual Status ReadFileHeader()
Definition: hdfs-rcfile-scanner.cc:107

impala::HdfsRCFileScanner::ReadColumnBuffers
Status ReadColumnBuffers()
Definition: hdfs-rcfile-scanner.cc:413

impala::HdfsScanNode::hdfs_table
const HdfsTableDescriptor * hdfs_table()
Definition: hdfs-scan-node.h:134

impala::Tuple
A tuple with 0 materialised slots is represented as NULL.
Definition: tuple.h:48

impala::HdfsRCFileScanner::ColumnInfo::buffer_pos
int32_t buffer_pos
Offset from the start of the column for the next field in the column.
Definition: hdfs-rcfile-scanner.h:365

impala::HdfsScanner::parse_status_
Status parse_status_
Definition: hdfs-scanner.h:195

RETURN_IF_ERROR
#define RETURN_IF_ERROR(stmt)
some generally useful macros
Definition: status.h:242

raw-value.h

impala::HdfsRCFileScanner::ReadKeyBuffers
Status ReadKeyBuffers()
Definition: hdfs-rcfile-scanner.cc:308

impala::HdfsRCFileScanner::num_rows_
int num_rows_
number of rows in this rowgroup object
Definition: hdfs-rcfile-scanner.h:382

impala::HdfsRCFileScanner::ColumnInfo::buffer_len
int32_t buffer_len
Uncompressed and compressed byte lengths for this column.
Definition: hdfs-rcfile-scanner.h:350

impala::HdfsRCFileScanner::HdfsRCFileScanner
HdfsRCFileScanner(HdfsScanNode *scan_node, RuntimeState *state)
Definition: hdfs-rcfile-scanner.cc:53

impala::HdfsRCFileScanner::ColumnInfo::current_field_len
int32_t current_field_len
RLE: Length of the current field.
Definition: hdfs-rcfile-scanner.h:368

impala::HdfsScanner::WriteEmptyTuples
int WriteEmptyTuples(RowBatch *row_batch, int num_tuples)
Definition: hdfs-scanner.cc:157

impala::RuntimeState::LogHasSpace
bool LogHasSpace()
Returns true if the error log has not reached max_errors_.
Definition: runtime-state.h:211

impala::HdfsRCFileScanner::compressed_key_length_
int compressed_key_length_
Definition: hdfs-rcfile-scanner.h:394

codec.h

impala::HdfsRCFileScanner::~HdfsRCFileScanner
virtual ~HdfsRCFileScanner()
Definition: hdfs-rcfile-scanner.cc:57

impala::HdfsRCFileScanner::ColumnInfo::materialize_column
bool materialize_column
If true, this column should be materialized, otherwise, it can be skipped.
Definition: hdfs-rcfile-scanner.h:347

impala::ScanNode::rows_read_counter
RuntimeProfile::Counter * rows_read_counter() const
Definition: scan-node.h:96

impala::HdfsScanner::template_tuple_
Tuple * template_tuple_
Definition: hdfs-scanner.h:164

impala::BaseSequenceScanner::FileHeader::header_size
int64_t header_size
Definition: base-sequence-scanner.h:70

impala::TableDescriptor::num_cols
int num_cols() const
Definition: descriptors.h:152

impala::ScannerContext::Stream::ReadBoolean
bool ReadBoolean(bool *boolean, Status *)
Definition: scanner-context.inline.h:95

impala::SlotDescriptor
Definition: descriptors.h:75

impala::StringParser::PARSE_SUCCESS
Definition: string-parser.h:52

impala::ScannerContext::Stream::ReadText
bool ReadText(uint8_t **buf, int64_t *length, Status *)
Definition: scanner-context.inline.h:88

impala::ScannerContext
Definition: scanner-context.h:55

impala::HdfsSequenceScanner::SEQFILE_VERSION_HEADER
static const uint8_t SEQFILE_VERSION_HEADER[4]
Definition: hdfs-sequence-scanner.h:160

impala::HdfsScanner::next_row
TupleRow * next_row(TupleRow *r) const
Definition: hdfs-scanner.h:368

impala::BaseSequenceScanner::Prepare
virtual Status Prepare(ScannerContext *context)
One-time initialisation of state that is constant across scan ranges.
Definition: base-sequence-scanner.cc:74

impala::HdfsRCFileScanner::row_group_length_
int row_group_length_
Definition: hdfs-rcfile-scanner.h:407

COUNTER_ADD
#define COUNTER_ADD(c, v)
Definition: runtime-profile.h:55

impala::TupleRow
Definition: tuple-row.h:28

impala::SlotDescriptor::null_indicator_offset
const NullIndicatorOffset & null_indicator_offset() const
Definition: descriptors.h:89

impala::ScannerContext::Stream::file_offset
int64_t file_offset() const
Returns the buffer's current offset in the file.
Definition: scanner-context.h:123

impala::ExecNode::ReachedLimit
bool ReachedLimit()
Definition: exec-node.h:159

impala::BaseSequenceScanner::FileHeader::compression_type
THdfsCompression::type compression_type
Enum for compression type.
Definition: base-sequence-scanner.h:66

impala::ScannerContext::Stream::filename
const char * filename()
Definition: scanner-context.h:118

SCOPED_TIMER
#define SCOPED_TIMER(c)
Definition: runtime-profile.h:53

impala::HdfsRCFileScanner::reuse_row_group_buffer_
bool reuse_row_group_buffer_
Definition: hdfs-rcfile-scanner.h:399

impala::TupleDescriptor::string_slots
const std::vector< SlotDescriptor * > & string_slots() const
Definition: descriptors.h:303

RETURN_IF_FALSE
#define RETURN_IF_FALSE(x)
Definition: hdfs-rcfile-scanner.cc:51

impala::HdfsRCFileScanner::RCF1
Definition: hdfs-rcfile-scanner.h:330

impala::Status
Definition: status.h:81

impala::HdfsScanner::state_
RuntimeState * state_
RuntimeState for error reporting.
Definition: hdfs-scanner.h:144

impala::HdfsRCFileScanner::ResetRowGroup
void ResetRowGroup()
Reset state for a new row group.
Definition: hdfs-rcfile-scanner.cc:231

impala::TextConverter
Definition: text-converter.h:39

impala::HdfsRCFileScanner::ColumnInfo
Definition: hdfs-rcfile-scanner.h:345

impala::BaseSequenceScanner::ReadSync
Status ReadSync()
Definition: base-sequence-scanner.cc:170

impala::HdfsRCFileScanner::Prepare
virtual Status Prepare(ScannerContext *context)
One-time initialisation of state that is constant across scan ranges.
Definition: hdfs-rcfile-scanner.cc:60

impala::HdfsRCFileScanner::row_group_buffer_size_
int row_group_buffer_size_
Definition: hdfs-rcfile-scanner.h:411

impala::MemPool
Definition: mem-pool.h:77

impala::RuntimeState::LogError
bool LogError(const ErrorMsg &msg)
Definition: runtime-state.cc:224

impala::HdfsScanner::InitTuple
void InitTuple(Tuple *template_tuple, Tuple *tuple)
Definition: hdfs-scanner.h:355

impala::HdfsRCFileScanner::RCFILE_VALUE_CLASS_NAME
static const char *const RCFILE_VALUE_CLASS_NAME
Definition: hdfs-rcfile-scanner.h:247

impala::HdfsScanner::GetMemory
int GetMemory(MemPool **pool, Tuple **tuple_mem, TupleRow **tuple_row_mem)
Definition: hdfs-scanner.cc:115

impala::RuntimeState
Definition: runtime-state.h:69

string-parser.h

impala::RuntimeState::ReportFileErrors
void ReportFileErrors(const std::string &file_name, int num_errors)
Report that num_errors occurred while parsing file_name.
Definition: runtime-state.cc:219

impala::ScannerContext::Stream::eof
bool eof() const
If true, the stream has reached the end of the file.
Definition: scanner-context.h:116

impala::HdfsRCFileScanner::ColumnInfo::uncompressed_buffer_len
int32_t uncompressed_buffer_len
Definition: hdfs-rcfile-scanner.h:351

impala::HdfsRCFileScanner::NextRow
Status NextRow()
Definition: hdfs-rcfile-scanner.cc:400

impala::HdfsRCFileScanner::ColumnInfo::key_buffer
uint8_t * key_buffer
This is a ptr into the scanner's key_buffer_ for this column.
Definition: hdfs-rcfile-scanner.h:356

pool
ObjectPool pool
Definition: expr-benchmark.cc:89

impala::HdfsRCFileScanner::ProcessRange
virtual Status ProcessRange()
Definition: hdfs-rcfile-scanner.cc:451

impala::HdfsRCFileScanner::ReadRowGroupHeader
Status ReadRowGroupHeader()
Definition: hdfs-rcfile-scanner.cc:278

impala::ScannerContext::Stream::SkipBytes
bool SkipBytes(int64_t length, Status *)
Skip over the next length bytes in the specified HDFS file.
Definition: scanner-context.inline.h:70

impala::HdfsScanner::CommitRows
Status CommitRows(int num_rows)
Definition: hdfs-scanner.cc:124

impala::HdfsRCFileScanner::InitNewRange
virtual Status InitNewRange()
Reset internal state for a new scan range.
Definition: hdfs-rcfile-scanner.cc:68

impala::HdfsScanNode::SKIP_COLUMN
static const int SKIP_COLUMN
Definition: hdfs-scan-node.h:144

impala::HdfsRCFileScanner::GetCurrentKeyBuffer
void GetCurrentKeyBuffer(int col_idx, bool skip_col_data, uint8_t **key_buf_ptr)
Definition: hdfs-rcfile-scanner.cc:344

impala::HdfsRCFileScanner::ColumnInfo::start_offset
int32_t start_offset
Offset into row_group_buffer_ for the start of this column.
Definition: hdfs-rcfile-scanner.h:362

impala::HdfsScanNode
Definition: hdfs-scan-node.h:104

impala::HdfsRCFileScanner::columns_
std::vector< ColumnInfo > columns_
Definition: hdfs-rcfile-scanner.h:376

impala::HdfsRCFileScanner::ReadRowGroup
Status ReadRowGroup()
Definition: hdfs-rcfile-scanner.cc:254

impala::SlotDescriptor::col_pos
int col_pos() const
Definition: descriptors.h:84

impala::ReadWriteUtil::GetVInt
static int GetVInt(uint8_t *buf, int32_t *vint)
Definition: read-write-util.h:141

impala::HdfsRCFileScanner::RCFILE_VERSION_HEADER
static const uint8_t RCFILE_VERSION_HEADER[4]
Definition: hdfs-rcfile-scanner.h:255

impala::BaseSequenceScanner::SYNC_MARKER
static const int SYNC_MARKER
Sync indicator.
Definition: base-sequence-scanner.h:124

runtime-state.h

impala::HdfsScanner::EvalConjuncts
bool IR_ALWAYS_INLINE EvalConjuncts(TupleRow *row)
Definition: hdfs-scanner.h:266

impala::StringParser::ParseResult
ParseResult
Definition: string-parser.h:51

impala::RuntimeState::SetMemLimitExceeded
Status SetMemLimitExceeded(MemTracker *tracker=NULL, int64_t failed_allocation_size=0)
Definition: runtime-state.cc:247

impala::HdfsScanner::AttachPool
void AttachPool(MemPool *pool, bool commit_batch)
Definition: hdfs-scanner.h:256

hdfs-rcfile-scanner.h

impala::TupleRow::SetTuple
void SetTuple(int tuple_idx, Tuple *tuple)
Definition: tuple-row.h:34

impala::HdfsRCFileScanner::RcFileHeader::num_cols
int num_cols
Definition: hdfs-rcfile-scanner.h:340

impala::ErrorMsg
Definition: error-util.h:47

impala::StringParser::PARSE_OVERFLOW
Definition: string-parser.h:54

impala::HdfsRCFileScanner::NextField
Status NextField(int col_idx)
Definition: hdfs-rcfile-scanner.cc:368

impala::HdfsRCFileScanner::key_length_
int key_length_
Definition: hdfs-rcfile-scanner.h:390

scanner-context.inline.h

impala::BaseSequenceScanner::FileHeader
Definition: base-sequence-scanner.h:53

impala::BaseSequenceScanner::finished
bool finished()
Definition: base-sequence-scanner.h:117

impala::BaseSequenceScanner::FileHeader::sync
uint8_t sync[SYNC_HASH_SIZE]
The sync hash for this file.
Definition: base-sequence-scanner.h:57

impala::ReadWriteUtil::GetVLong
static int GetVLong(uint8_t *buf, int64_t *vlong)
Definition: read-write-util.h:148

impala::Status::OK
static const Status OK
Definition: status.h:87

tuple.h

impala::HdfsRCFileScanner::RCFILE_METADATA_KEY_NUM_COLS
static const char *const RCFILE_METADATA_KEY_NUM_COLS
Definition: hdfs-rcfile-scanner.h:251

expr.h

impala::BaseSequenceScanner::FileHeader::codec
std::string codec
Codec name if it is compressed.
Definition: base-sequence-scanner.h:63

mem-pool.h

names.h

impala::ReadWriteUtil::HexDump
static std::string HexDump(const uint8_t *buf, int64_t length)
Dump the first length bytes of buf to a Hex string.
Definition: read-write-util.cc:72

tuple-row.h

VLOG_FILE
#define VLOG_FILE
Definition: logging.h:58

text-converter.inline.h

impala::HdfsScanNode::tuple_idx
int tuple_idx() const
Definition: hdfs-scan-node.h:124

impala::RuntimeState::abort_on_error
bool abort_on_error() const
Definition: runtime-state.h:99

impala::HdfsRCFileScanner::RcFileHeader::version
Version version
RC file version.
Definition: hdfs-rcfile-scanner.h:336

impala::HdfsScanner::decompress_timer_
RuntimeProfile::Counter * decompress_timer_
Time spent decompressing bytes.
Definition: hdfs-scanner.h:208

impala::ScannerContext::Stream::ReadBytes
bool ReadBytes(int64_t length, uint8_t **buf, Status *, bool peek=false)
Definition: scanner-context.inline.h:56

impala::BaseSequenceScanner::FileHeader::is_compressed
bool is_compressed
true if the file is compressed
Definition: base-sequence-scanner.h:60

impala::HdfsRCFileScanner::row_pos_
int row_pos_
Definition: hdfs-rcfile-scanner.h:386

descriptors.h

impala::HdfsRCFileScanner::ColumnInfo::key_buffer_pos
int32_t key_buffer_pos
Current position in the key buffer.
Definition: hdfs-rcfile-scanner.h:359

impala::BaseSequenceScanner
Definition: base-sequence-scanner.h:35

string-value.h

impala::HdfsScanNode::IncNumScannersCodegenDisabled
void IncNumScannersCodegenDisabled()
Definition: hdfs-scan-node.h:172

impala::HdfsScanner::stream_
ScannerContext::Stream * stream_
The first stream for context_.
Definition: hdfs-scanner.h:150

impala::ScannerContext::Stream::set_contains_tuple_data
void set_contains_tuple_data(bool v)
Definition: scanner-context.h:97

impala::HdfsScanNode::tuple_desc
const TupleDescriptor * tuple_desc()
Definition: hdfs-scan-node.h:132

impala::HdfsScanner::next_tuple
Tuple * next_tuple(Tuple *t) const
Definition: hdfs-scanner.h:363

impala::HdfsRCFileScanner::RCFILE_KEY_CLASS_NAME
static const char *const RCFILE_KEY_CLASS_NAME
Definition: hdfs-rcfile-scanner.h:243

impala::HdfsRCFileScanner::RcFileHeader
Data that is fixed across headers. This struct is shared between scan ranges.
Definition: hdfs-rcfile-scanner.h:334

impala::HdfsRCFileScanner::SEQ6
Definition: hdfs-rcfile-scanner.h:329

impala::ScanNode::materialize_tuple_timer
RuntimeProfile::Counter * materialize_tuple_timer() const
Definition: scan-node.h:104