doc/html/HdfsScanNode_8java_source.html

 // Copyright 2012 Cloudera Inc.

 //

 // Licensed under the Apache License, Version 2.0 (the "License");

 // you may not use this file except in compliance with the License.

 // You may obtain a copy of the License at

 //

 // http://www.apache.org/licenses/LICENSE-2.0

 //

 // Unless required by applicable law or agreed to in writing, software

 // distributed under the License is distributed on an "AS IS" BASIS,

 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 // See the License for the specific language governing permissions and

 // limitations under the License.


 package com.cloudera.impala.planner;


 import java.util.ArrayList;

 import java.util.HashMap;

 import java.util.HashSet;

 import java.util.Iterator;

 import java.util.List;

 import java.util.NavigableMap;

 import java.util.TreeMap;


 import org.slf4j.Logger;

 import org.slf4j.LoggerFactory;


 import com.cloudera.impala.analysis.Analyzer;

 import com.cloudera.impala.analysis.BinaryPredicate;

 import com.cloudera.impala.analysis.BinaryPredicate.Operator;

 import com.cloudera.impala.analysis.CompoundPredicate;

 import com.cloudera.impala.analysis.DescriptorTable;

 import com.cloudera.impala.analysis.Expr;

 import com.cloudera.impala.analysis.InPredicate;

 import com.cloudera.impala.analysis.IsNullPredicate;

 import com.cloudera.impala.analysis.LiteralExpr;

 import com.cloudera.impala.analysis.NullLiteral;

 import com.cloudera.impala.analysis.SlotDescriptor;

 import com.cloudera.impala.analysis.SlotId;

 import com.cloudera.impala.analysis.SlotRef;

 import com.cloudera.impala.analysis.TupleDescriptor;

 import com.cloudera.impala.catalog.HdfsFileFormat;

 import com.cloudera.impala.catalog.HdfsPartition;

 import com.cloudera.impala.catalog.HdfsPartition.FileBlock;

 import com.cloudera.impala.catalog.HdfsTable;

 import com.cloudera.impala.common.AnalysisException;

 import com.cloudera.impala.common.InternalException;

 import com.cloudera.impala.common.PrintUtils;

 import com.cloudera.impala.common.RuntimeEnv;

 import com.cloudera.impala.thrift.TExplainLevel;

 import com.cloudera.impala.thrift.THdfsFileBlock;

 import com.cloudera.impala.thrift.THdfsFileSplit;

 import com.cloudera.impala.thrift.THdfsScanNode;

 import com.cloudera.impala.thrift.TNetworkAddress;

 import com.cloudera.impala.thrift.TPlanNode;

 import com.cloudera.impala.thrift.TPlanNodeType;

 import com.cloudera.impala.thrift.TQueryOptions;

 import com.cloudera.impala.thrift.TScanRange;

 import com.cloudera.impala.thrift.TScanRangeLocation;

 import com.cloudera.impala.thrift.TScanRangeLocations;

 import com.google.common.base.Objects;

 import com.google.common.base.Objects.ToStringHelper;

 import com.google.common.base.Preconditions;

 import com.google.common.base.Predicates;

 import com.google.common.collect.Lists;

 import com.google.common.collect.Sets;


 public class HdfsScanNode extends ScanNode {

   private final static Logger LOG = LoggerFactory.getLogger(HdfsScanNode.class);


   // Read size of the backend I/O manager. Used in computeCosts().

   private final static long IO_MGR_BUFFER_SIZE = 8L * 1024L * 1024L;


   // Maximum number of I/O buffers per thread executing this scan.

   private final static long MAX_IO_BUFFERS_PER_THREAD = 10;


   // Number of scanner threads per core executing this scan.

   private final static int THREADS_PER_CORE = 3;


   // Factor capturing the worst-case deviation from a uniform distribution of scan ranges

   // among nodes. The factor of 1.2 means that a particular node may have 20% more

   // scan ranges than would have been estimated assuming a uniform distribution.

   private final static double SCAN_RANGE_SKEW_FACTOR = 1.2;


   // Partition batch size used during partition pruning

   private final static int PARTITION_PRUNING_BATCH_SIZE = 1024;


   private final HdfsTable tbl_;


   // Partitions that are filtered in for scanning by the key ranges

   private final ArrayList<HdfsPartition> partitions_ = Lists.newArrayList();


   // Total number of files from partitions_

   private long totalFiles_ = 0;


   // Total number of bytes from partitions_

   private long totalBytes_ = 0;


   public HdfsScanNode(PlanNodeId id, TupleDescriptor desc, HdfsTable tbl) {

     super(id, desc, "SCAN HDFS");

     tbl_ = tbl;

   }


   @Override

   protected String debugString() {

     ToStringHelper helper = Objects.toStringHelper(this);

     for (HdfsPartition partition: partitions_) {

       helper.add("Partition " + partition.getId() + ":", partition.toString());

     }

     return helper.addValue(super.debugString()).toString();

   }


   @Override

   public void init(Analyzer analyzer) throws InternalException {

     ArrayList<Expr> bindingPredicates = analyzer.getBoundPredicates(tupleIds_.get(0));

     conjuncts_.addAll(bindingPredicates);


     // also add remaining unassigned conjuncts

     assignConjuncts(analyzer);


     analyzer.createEquivConjuncts(tupleIds_.get(0), conjuncts_);


     // do partition pruning before deciding which slots to materialize,

     // we might end up removing some predicates

     prunePartitions(analyzer);


     // mark all slots referenced by the remaining conjuncts as materialized

     markSlotsMaterialized(analyzer, conjuncts_);

     computeMemLayout(analyzer);


     // do this at the end so it can take all conjuncts into account

     computeStats(analyzer);


     // compute scan range locations

     computeScanRangeLocations(analyzer);


     // TODO: do we need this?

     assignedConjuncts_ = analyzer.getAssignedConjuncts();

   }


   private void computeScanRangeLocations(Analyzer analyzer) {

     long maxScanRangeLength = analyzer.getQueryCtx().getRequest().getQuery_options()

         .getMax_scan_range_length();

     scanRanges_ = Lists.newArrayList();

     for (HdfsPartition partition: partitions_) {

       Preconditions.checkState(partition.getId() >= 0);

       for (HdfsPartition.FileDescriptor fileDesc: partition.getFileDescriptors()) {

         for (THdfsFileBlock thriftBlock: fileDesc.getFileBlocks()) {

           HdfsPartition.FileBlock block = FileBlock.fromThrift(thriftBlock);

           List<Integer> replicaHostIdxs = block.getReplicaHostIdxs();

           if (replicaHostIdxs.size() == 0) {

             // we didn't get locations for this block; for now, just ignore the block

             // TODO: do something meaningful with that

             continue;

           }

           // Collect the network address and volume ID of all replicas of this block.

           List<TScanRangeLocation> locations = Lists.newArrayList();

           for (int i = 0; i < replicaHostIdxs.size(); ++i) {

             TScanRangeLocation location = new TScanRangeLocation();

             // Translate from the host index (local to the HdfsTable) to network address.

             Integer tableHostIdx = replicaHostIdxs.get(i);

             TNetworkAddress networkAddress =

                 partition.getTable().getHostIndex().getEntry(tableHostIdx);

             Preconditions.checkNotNull(networkAddress);

             // Translate from network address to the global (to this request) host index.

             Integer globalHostIdx = analyzer.getHostIndex().getIndex(networkAddress);

             location.setHost_idx(globalHostIdx);

             location.setVolume_id(block.getDiskId(i));

             location.setIs_cached(block.isCached(i));

             locations.add(location);

           }

           // create scan ranges, taking into account maxScanRangeLength

           long currentOffset = block.getOffset();

           long remainingLength = block.getLength();

           while (remainingLength > 0) {

             long currentLength = remainingLength;

             if (maxScanRangeLength > 0 && remainingLength > maxScanRangeLength) {

               currentLength = maxScanRangeLength;

             }

             TScanRange scanRange = new TScanRange();

             scanRange.setHdfs_file_split(new THdfsFileSplit(

                 fileDesc.getFileName(), currentOffset, currentLength, partition.getId(),

                 fileDesc.getFileLength(), fileDesc.getFileCompression(),

                 fileDesc.getModificationTime()));

             TScanRangeLocations scanRangeLocations = new TScanRangeLocations();

             scanRangeLocations.scan_range = scanRange;

             scanRangeLocations.locations = locations;

             scanRanges_.add(scanRangeLocations);

             remainingLength -= currentLength;

             currentOffset += currentLength;

           }

         }

       }

     }

   }


   private boolean canEvalUsingPartitionMd(Expr expr, Analyzer analyzer) {

     Preconditions.checkNotNull(expr);

     if (expr instanceof BinaryPredicate) {

       // Evaluate any constant expression in the BE

       try {

         expr.foldConstantChildren(analyzer);

       } catch (AnalysisException e) {

         LOG.error("Error evaluating constant expressions in the BE: " + e.getMessage());

         return false;

       }

       BinaryPredicate bp = (BinaryPredicate)expr;

       SlotRef slot = bp.getBoundSlot();

       if (slot == null) return false;

       Expr bindingExpr = bp.getSlotBinding(slot.getSlotId());

       if (bindingExpr == null || !bindingExpr.isLiteral()) return false;

       return true;

     } else if (expr instanceof CompoundPredicate) {

       boolean res = canEvalUsingPartitionMd(expr.getChild(0), analyzer);

       if (expr.getChild(1) != null) {

         res &= canEvalUsingPartitionMd(expr.getChild(1), analyzer);

       }

       return res;

     } else if (expr instanceof IsNullPredicate) {

       // Check for SlotRef IS [NOT] NULL case

       IsNullPredicate nullPredicate = (IsNullPredicate)expr;

       return nullPredicate.getBoundSlot() != null;

     } else if (expr instanceof InPredicate) {

       // Evaluate any constant expressions in the BE

       try {

         expr.foldConstantChildren(analyzer);

       } catch (AnalysisException e) {

         LOG.error("Error evaluating constant expressions in the BE: " + e.getMessage());

         return false;

       }

       // Check for SlotRef [NOT] IN (Literal, ... Literal) case

       SlotRef slot = ((InPredicate)expr).getBoundSlot();

       if (slot == null) return false;

       for (int i = 1; i < expr.getChildren().size(); ++i) {

         if (!(expr.getChild(i).isLiteral())) return false;

       }

       return true;

     }

     return false;

   }


   private HashSet<Long> evalBinaryPredicate(Expr expr) {

     Preconditions.checkNotNull(expr);

     Preconditions.checkState(expr instanceof BinaryPredicate);

     boolean isSlotOnLeft = true;

     if (expr.getChild(0).isLiteral()) isSlotOnLeft = false;


     // Get the operands

     BinaryPredicate bp = (BinaryPredicate)expr;

     SlotRef slot = bp.getBoundSlot();

     Preconditions.checkNotNull(slot);

     Expr bindingExpr = bp.getSlotBinding(slot.getSlotId());

     Preconditions.checkNotNull(bindingExpr);

     Preconditions.checkState(bindingExpr.isLiteral());

     LiteralExpr literal = (LiteralExpr)bindingExpr;

     if (literal instanceof NullLiteral) return Sets.newHashSet();


     // Get the partition column position and retrieve the associated partition

     // value metadata.

     int partitionPos = slot.getDesc().getColumn().getPosition();

     TreeMap<LiteralExpr, HashSet<Long>> partitionValueMap =

         tbl_.getPartitionValueMap(partitionPos);

     if (partitionValueMap.isEmpty()) return Sets.newHashSet();


     HashSet<Long> matchingIds = Sets.newHashSet();

     // Compute the matching partition ids

     Operator op = bp.getOp();

     if (op == Operator.EQ) {

       // Case: SlotRef = Literal

       HashSet<Long> ids = partitionValueMap.get(literal);

       if (ids != null) matchingIds.addAll(ids);

       return matchingIds;

     }

     if (op == Operator.NE) {

       // Case: SlotRef != Literal

       matchingIds.addAll(tbl_.getPartitionIds());

       HashSet<Long> nullIds = tbl_.getNullPartitionIds(partitionPos);

       matchingIds.removeAll(nullIds);

       HashSet<Long> ids = partitionValueMap.get(literal);

       if (ids != null) matchingIds.removeAll(ids);

       return matchingIds;

     }


     // Determine the partition key value range of this predicate.

     NavigableMap<LiteralExpr, HashSet<Long>> rangeValueMap = null;

     LiteralExpr firstKey = partitionValueMap.firstKey();

     LiteralExpr lastKey = partitionValueMap.lastKey();

     boolean upperInclusive = false;

     boolean lowerInclusive = false;

     LiteralExpr upperBoundKey = null;

     LiteralExpr lowerBoundKey = null;


     if (((op == Operator.LE || op == Operator.LT) && isSlotOnLeft) ||

         ((op == Operator.GE || op == Operator.GT) && !isSlotOnLeft)) {

       // Case: SlotRef <[=] Literal

       if (literal.compareTo(firstKey) < 0) return Sets.newHashSet();

       if (op == Operator.LE || op == Operator.GE) upperInclusive = true;


       if (literal.compareTo(lastKey) <= 0) {

         upperBoundKey = literal;

       } else {

         upperBoundKey = lastKey;

         upperInclusive = true;

       }

       lowerBoundKey = firstKey;

       lowerInclusive = true;

     } else {

       // Cases: SlotRef >[=] Literal

       if (literal.compareTo(lastKey) > 0) return Sets.newHashSet();

       if (op == Operator.GE || op == Operator.LE) lowerInclusive = true;


       if (literal.compareTo(firstKey) >= 0) {

         lowerBoundKey = literal;

       } else {

         lowerBoundKey = firstKey;

         lowerInclusive = true;

       }

       upperBoundKey = lastKey;

       upperInclusive = true;

     }


     // Retrieve the submap that corresponds to the computed partition key

     // value range.

     rangeValueMap = partitionValueMap.subMap(lowerBoundKey, lowerInclusive,

         upperBoundKey, upperInclusive);

     // Compute the matching partition ids

     for (HashSet<Long> idSet: rangeValueMap.values()) {

       if (idSet != null) matchingIds.addAll(idSet);

     }

     return matchingIds;

   }


   private HashSet<Long> evalInPredicate(Expr expr) {

     Preconditions.checkNotNull(expr);

     Preconditions.checkState(expr instanceof InPredicate);

     InPredicate inPredicate = (InPredicate)expr;

     HashSet<Long> matchingIds = Sets.newHashSet();

     SlotRef slot = inPredicate.getBoundSlot();

     Preconditions.checkNotNull(slot);

     int partitionPos = slot.getDesc().getColumn().getPosition();

     TreeMap<LiteralExpr, HashSet<Long>> partitionValueMap =

         tbl_.getPartitionValueMap(partitionPos);


     if (inPredicate.isNotIn()) {

       // Case: SlotRef NOT IN (Literal, ..., Literal)

       // If there is a NullLiteral, return an empty set.

       List<Expr> nullLiterals = Lists.newArrayList();

       inPredicate.collectAll(Predicates.instanceOf(NullLiteral.class), nullLiterals);

       if (!nullLiterals.isEmpty()) return matchingIds;

       matchingIds.addAll(tbl_.getPartitionIds());

       // Exclude partitions with null partition column values

       HashSet<Long> nullIds = tbl_.getNullPartitionIds(partitionPos);

       matchingIds.removeAll(nullIds);

     }

     // Compute the matching partition ids

     for (int i = 1; i < inPredicate.getChildren().size(); ++i) {

       LiteralExpr literal = (LiteralExpr)inPredicate.getChild(i);

       HashSet<Long> idSet = partitionValueMap.get(literal);

       if (idSet != null) {

         if (inPredicate.isNotIn()) {

           matchingIds.removeAll(idSet);

         } else {

           matchingIds.addAll(idSet);

         }

       }

     }

     return matchingIds;

   }


   private HashSet<Long> evalIsNullPredicate(Expr expr) {

     Preconditions.checkNotNull(expr);

     Preconditions.checkState(expr instanceof IsNullPredicate);

     HashSet<Long> matchingIds = Sets.newHashSet();

     IsNullPredicate nullPredicate = (IsNullPredicate)expr;

     SlotRef slot = nullPredicate.getBoundSlot();

     Preconditions.checkNotNull(slot);

     int partitionPos = slot.getDesc().getColumn().getPosition();

     HashSet<Long> nullPartitionIds = tbl_.getNullPartitionIds(partitionPos);


     if (nullPredicate.isNotNull()) {

       matchingIds.addAll(tbl_.getPartitionIds());

       matchingIds.removeAll(nullPartitionIds);

     } else {

       matchingIds.addAll(nullPartitionIds);

     }

     return matchingIds;

   }


   private HashSet<Long> evalSlotBindingFilter(Expr expr) {

     Preconditions.checkNotNull(expr);

     if (expr instanceof BinaryPredicate) {

       return evalBinaryPredicate(expr);

     } else if (expr instanceof CompoundPredicate) {

       HashSet<Long> leftChildIds = evalSlotBindingFilter(expr.getChild(0));

       CompoundPredicate cp = (CompoundPredicate)expr;

       // NOT operators have been eliminated

       Preconditions.checkState(cp.getOp() != CompoundPredicate.Operator.NOT);

       if (cp.getOp() == CompoundPredicate.Operator.AND) {

         HashSet<Long> rightChildIds = evalSlotBindingFilter(expr.getChild(1));

         leftChildIds.retainAll(rightChildIds);

       } else if (cp.getOp() == CompoundPredicate.Operator.OR) {

         HashSet<Long> rightChildIds = evalSlotBindingFilter(expr.getChild(1));

         leftChildIds.addAll(rightChildIds);

       }

       return leftChildIds;

     } else if (expr instanceof InPredicate) {

       return evalInPredicate(expr);

     } else if (expr instanceof IsNullPredicate) {

       return evalIsNullPredicate(expr);

     }

     return null;

   }


   private void prunePartitions(Analyzer analyzer) throws InternalException {

     DescriptorTable descTbl = analyzer.getDescTbl();

     // loop through all partitions and prune based on applicable conjuncts;

     // start with creating a collection of partition filters for the applicable conjuncts

     List<SlotId> partitionSlots = Lists.newArrayList();

     for (SlotDescriptor slotDesc: descTbl.getTupleDesc(tupleIds_.get(0)).getSlots()) {

       if (slotDesc.getColumn() == null) continue;

       if (slotDesc.getColumn().getPosition() < tbl_.getNumClusteringCols()) {

         partitionSlots.add(slotDesc.getId());

       }

     }

     List<HdfsPartitionFilter> partitionFilters = Lists.newArrayList();

     // Conjuncts that can be evaluated from the partition key values.

     List<Expr> simpleFilterConjuncts = Lists.newArrayList();


     // Simple predicates (e.g. binary predicates of the form

     // <SlotRef> <op> <LiteralExpr>) can be used to derive lists

     // of matching partition ids directly from the partition key values.

     // Split conjuncts among those that can be evaluated from partition

     // key values and those that need to be evaluated in the BE.

     Iterator<Expr> it = conjuncts_.iterator();

     while (it.hasNext()) {

       Expr conjunct = it.next();

       if (conjunct.isBoundBySlotIds(partitionSlots)) {

         // Check if the conjunct can be evaluated from the partition metadata.

         // canEvalUsingPartitionMd() operates on a cloned conjunct which may get

         // modified if it contains constant expressions. If the cloned conjunct

         // cannot be evaluated from the partition metadata, the original unmodified

         // conjuct is evaluated in the BE.

         Expr clonedConjunct = conjunct.clone();

         if (canEvalUsingPartitionMd(clonedConjunct, analyzer)) {

           simpleFilterConjuncts.add(Expr.pushNegationToOperands(clonedConjunct));

         } else {

           partitionFilters.add(new HdfsPartitionFilter(conjunct, tbl_, analyzer));

         }

         it.remove();

       }

     }


     // Set of matching partition ids, i.e. partitions that pass all filters

     HashSet<Long> matchingPartitionIds = null;


     // Evaluate the partition filters from the partition key values.

     // The result is the intersection of the associated partition id sets.

     for (Expr filter: simpleFilterConjuncts) {

       // Evaluate the filter

       HashSet<Long> matchingIds = evalSlotBindingFilter(filter);

       if (matchingPartitionIds == null) {

         matchingPartitionIds = matchingIds;

       } else {

         matchingPartitionIds.retainAll(matchingIds);

       }

     }


     // Check if we need to initialize the set of valid partition ids.

     if (simpleFilterConjuncts.size() == 0) {

       Preconditions.checkState(matchingPartitionIds == null);

       matchingPartitionIds = Sets.newHashSet(tbl_.getPartitionIds());

     }


     // Evaluate the 'complex' partition filters in the BE.

     evalPartitionFiltersInBe(partitionFilters, matchingPartitionIds, analyzer);


     // Populate the list of valid, non-empty partitions to process

     HashMap<Long, HdfsPartition> partitionMap = tbl_.getPartitionMap();

     for (Long id: matchingPartitionIds) {

       HdfsPartition partition = partitionMap.get(id);

       Preconditions.checkNotNull(partition);

       if (partition.hasFileDescriptors()) {

         partitions_.add(partition);

         descTbl.addReferencedPartition(tbl_, partition.getId());

       }

     }

   }


   private void evalPartitionFiltersInBe(List<HdfsPartitionFilter> filters,

       HashSet<Long> matchingPartitionIds, Analyzer analyzer) throws InternalException {

     HashMap<Long, HdfsPartition> partitionMap = tbl_.getPartitionMap();

     // Set of partition ids that pass a filter

     HashSet<Long> matchingIds = Sets.newHashSet();

     // Batch of partitions

     ArrayList<HdfsPartition> partitionBatch = Lists.newArrayList();

     // Identify the partitions that pass all filters.

     for (HdfsPartitionFilter filter: filters) {

       // Iterate through the currently valid partitions

       for (Long id: matchingPartitionIds) {

         HdfsPartition p = partitionMap.get(id);

         Preconditions.checkState(

             p.getPartitionValues().size() == tbl_.getNumClusteringCols());

         // Add the partition to the current batch

         partitionBatch.add(partitionMap.get(id));

         if (partitionBatch.size() == PARTITION_PRUNING_BATCH_SIZE) {

           // Batch is full. Evaluate the predicates of this batch in the BE.

           matchingIds.addAll(filter.getMatchingPartitionIds(partitionBatch, analyzer));

           partitionBatch.clear();

         }

       }

       // Check if there are any unprocessed partitions.

       if (!partitionBatch.isEmpty()) {

         matchingIds.addAll(filter.getMatchingPartitionIds(partitionBatch, analyzer));

         partitionBatch.clear();

       }

       // Prune the partitions ids that didn't pass the filter

       matchingPartitionIds.retainAll(matchingIds);

       matchingIds.clear();

     }

   }


   @Override

   public void computeStats(Analyzer analyzer) {

     super.computeStats(analyzer);

     LOG.debug("collecting partitions for table " + tbl_.getName());

     numPartitionsMissingStats_ = 0;

     if (tbl_.getPartitions().isEmpty()) {

       cardinality_ = tbl_.getNumRows();

     } else {

       cardinality_ = 0;

       totalFiles_ = 0;

       totalBytes_ = 0;

       boolean hasValidPartitionCardinality = false;

       for (HdfsPartition p: partitions_) {

         // ignore partitions with missing stats in the hope they don't matter

         // enough to change the planning outcome

         if (p.getNumRows() > -1) {

           cardinality_ = addCardinalities(cardinality_, p.getNumRows());

           hasValidPartitionCardinality = true;

         } else {

           ++numPartitionsMissingStats_;

         }

         totalFiles_ += p.getFileDescriptors().size();

         totalBytes_ += p.getSize();

       }


       if (!partitions_.isEmpty() && !hasValidPartitionCardinality) {

         // if none of the partitions knew its number of rows, we fall back on

         // the table stats

         cardinality_ = tbl_.getNumRows();

       }

     }

     inputCardinality_ = cardinality_;

     Preconditions.checkState(cardinality_ >= 0 || cardinality_ == -1,

         "Internal error: invalid scan node cardinality: " + cardinality_);

     if (cardinality_ > 0) {

       LOG.debug("cardinality_=" + Long.toString(cardinality_) +

                 " sel=" + Double.toString(computeSelectivity()));

       cardinality_ = Math.round((double) cardinality_ * computeSelectivity());

     }

     cardinality_ = capAtLimit(cardinality_);

     LOG.debug("computeStats HdfsScan: cardinality_=" + Long.toString(cardinality_));


     // TODO: take actual partitions into account

     // Tables can reside on 0 nodes (empty table), but a plan node must always be

     // executed on at least one node.

     numNodes_ = (cardinality_ == 0 || tbl_.getNumNodes() == 0) ? 1 : tbl_.getNumNodes();

     LOG.debug("computeStats HdfsScan: #nodes=" + Integer.toString(numNodes_));

   }


   @Override

   protected void toThrift(TPlanNode msg) {

     // TODO: retire this once the migration to the new plan is complete

     msg.hdfs_scan_node = new THdfsScanNode(desc_.getId().asInt());

     msg.node_type = TPlanNodeType.HDFS_SCAN_NODE;

   }


   @Override

   protected String getDisplayLabelDetail() {

     HdfsTable table = (HdfsTable) desc_.getTable();

     List<String> path = Lists.newArrayList();

     path.add(table.getDb().getName());

     path.add(table.getName());

     Preconditions.checkNotNull(desc_.getPath());

     if (desc_.hasExplicitAlias()) {

       return desc_.getPath().toString() + " " + desc_.getAlias();

     } else {

       return desc_.getPath().toString();

     }

   }


   @Override

   protected String getNodeExplainString(String prefix, String detailPrefix,

       TExplainLevel detailLevel) {

     StringBuilder output = new StringBuilder();

     HdfsTable table = (HdfsTable) desc_.getTable();

     output.append(String.format("%s%s [%s", prefix, getDisplayLabel(),

         getDisplayLabelDetail()));

     if (detailLevel.ordinal() >= TExplainLevel.EXTENDED.ordinal() &&

         fragment_.isPartitioned()) {

       output.append(", " + fragment_.getDataPartition().getExplainString());

     }

     output.append("]\n");

     if (detailLevel.ordinal() >= TExplainLevel.STANDARD.ordinal()) {

       int numPartitions = partitions_.size();

       if (tbl_.getNumClusteringCols() == 0) numPartitions = 1;

       output.append(String.format("%spartitions=%s/%s files=%s size=%s", detailPrefix,

           numPartitions, table.getPartitions().size() - 1, totalFiles_,

           PrintUtils.printBytes(totalBytes_)));

       output.append("\n");

       if (!conjuncts_.isEmpty()) {

         output.append(

             detailPrefix + "predicates: " + getExplainString(conjuncts_) + "\n");

       }

     }

     if (detailLevel.ordinal() >= TExplainLevel.EXTENDED.ordinal()) {

       output.append(getStatsExplainString(detailPrefix, detailLevel));

       output.append("\n");

     }

     return output.toString();

   }


   @Override

   public void computeCosts(TQueryOptions queryOptions) {

     Preconditions.checkNotNull(scanRanges_, "Cost estimation requires scan ranges.");

     if (scanRanges_.isEmpty()) {

       perHostMemCost_ = 0;

       return;

     }


     // Number of nodes for the purpose of resource estimation adjusted

     // for the special cases listed below.

     long adjNumNodes = numNodes_;

     if (numNodes_ <= 0) {

       adjNumNodes = 1;

     } else if (scanRanges_.size() < numNodes_) {

       // TODO: Empirically evaluate whether there is more Hdfs block skew for relatively

       // small files, i.e., whether this estimate is too optimistic.

       adjNumNodes = scanRanges_.size();

     }


     Preconditions.checkNotNull(desc_);

     Preconditions.checkNotNull(desc_.getTable() instanceof HdfsTable);

     HdfsTable table = (HdfsTable) desc_.getTable();

     int perHostScanRanges;

     if (table.getMajorityFormat() == HdfsFileFormat.PARQUET) {

       // For the purpose of this estimation, the number of per-host scan ranges for

       // Parquet files are equal to the number of non-partition columns scanned.

       perHostScanRanges = 0;

       for (SlotDescriptor slot: desc_.getSlots()) {

         if (slot.getColumn() == null ||

             slot.getColumn().getPosition() >= table.getNumClusteringCols()) {

           ++perHostScanRanges;

         }

       }

     } else {

       perHostScanRanges = (int) Math.ceil((

           (double) scanRanges_.size() / (double) adjNumNodes) * SCAN_RANGE_SKEW_FACTOR);

     }


     // TODO: The total memory consumption for a particular query depends on the number

     // of *available* cores, i.e., it depends the resource consumption of other

     // concurrent queries. Figure out how to account for that.

     int maxScannerThreads = Math.min(perHostScanRanges,

         RuntimeEnv.INSTANCE.getNumCores() * THREADS_PER_CORE);

     // Account for the max scanner threads query option.

     if (queryOptions.isSetNum_scanner_threads() &&

         queryOptions.getNum_scanner_threads() > 0) {

       maxScannerThreads =

           Math.min(maxScannerThreads, queryOptions.getNum_scanner_threads());

     }


     long avgScanRangeBytes = (long) Math.ceil(totalBytes_ / (double) scanRanges_.size());

     // The +1 accounts for an extra I/O buffer to read past the scan range due to a

     // trailing record spanning Hdfs blocks.

     long perThreadIoBuffers =

         Math.min((long) Math.ceil(avgScanRangeBytes / (double) IO_MGR_BUFFER_SIZE),

             MAX_IO_BUFFERS_PER_THREAD) + 1;

     perHostMemCost_ = maxScannerThreads * perThreadIoBuffers * IO_MGR_BUFFER_SIZE;


     // Sanity check: the tighter estimation should not exceed the per-host maximum.

     long perHostUpperBound = getPerHostMemUpperBound();

     if (perHostMemCost_ > perHostUpperBound) {

       LOG.warn(String.format("Per-host mem cost %s exceeded per-host upper bound %s.",

           PrintUtils.printBytes(perHostMemCost_),

           PrintUtils.printBytes(perHostUpperBound)));

       perHostMemCost_ = perHostUpperBound;

     }

   }


   public static long getPerHostMemUpperBound() {

     // THREADS_PER_CORE each using a default of

     // MAX_IO_BUFFERS_PER_THREAD * IO_MGR_BUFFER_SIZE bytes.

     return (long) RuntimeEnv.INSTANCE.getNumCores() * (long) THREADS_PER_CORE *

         (long) MAX_IO_BUFFERS_PER_THREAD * IO_MGR_BUFFER_SIZE;

   }

 }

com.cloudera.impala.planner.ScanNode
Definition: ScanNode.java:32

com.cloudera.impala.planner.HdfsScanNode.IO_MGR_BUFFER_SIZE
static final long IO_MGR_BUFFER_SIZE
Definition: HdfsScanNode.java:76

com.cloudera.impala.planner.ScanNode.inputCardinality_
long inputCardinality_
Definition: ScanNode.java:36

com.cloudera.impala.analysis.TupleDescriptor
Definition: TupleDescriptor.java:54

com.cloudera.impala.common.PrintUtils
Definition: PrintUtils.java:28

com.cloudera.impala.planner.HdfsScanNode.tbl_
final HdfsTable tbl_
Definition: HdfsScanNode.java:92

path
string path("/usr/lib/sasl2:/usr/lib64/sasl2:/usr/local/lib/sasl2:/usr/lib/x86_64-linux-gnu/sasl2")

com.cloudera.impala.catalog.HdfsPartition.getFileDescriptors
List< HdfsPartition.FileDescriptor > getFileDescriptors()
Definition: HdfsPartition.java:429

com.cloudera.impala.analysis.LiteralExpr.compareTo
int compareTo(LiteralExpr other)
Definition: LiteralExpr.java:232

com.cloudera.impala.planner.PlanNode.perHostMemCost_
long perHostMemCost_
Definition: PlanNode.java:114

com.cloudera.impala.planner.HdfsScanNode.evalInPredicate
HashSet< Long > evalInPredicate(Expr expr)
Definition: HdfsScanNode.java:362

com.cloudera.impala.analysis.BinaryPredicate.Operator.LT
LT
Definition: BinaryPredicate.java:50

com.cloudera.impala.analysis.BinaryPredicate
Definition: BinaryPredicate.java:42

com.cloudera.impala.planner.PlanNode.numNodes_
int numNodes_
Definition: PlanNode.java:107

com.cloudera.impala.catalog.HdfsFileFormat.PARQUET
Definition: HdfsFileFormat.java:31

com.cloudera.impala.planner.PlanNode.assignConjuncts
void assignConjuncts(Analyzer analyzer)
Definition: PlanNode.java:401

com.cloudera.impala.catalog.HdfsPartition
Definition: HdfsPartition.java:60

com.cloudera.impala.analysis.BinaryPredicate.Operator.GE
GE
Definition: BinaryPredicate.java:49

com.cloudera.impala.analysis.BinaryPredicate.Operator.NE
NE
Definition: BinaryPredicate.java:47

com.cloudera.impala.common.RuntimeEnv
Definition: RuntimeEnv.java:30

com.cloudera.impala.catalog.HdfsTable.getMajorityFormat
HdfsFileFormat getMajorityFormat()
Definition: HdfsTable.java:1333

com.cloudera.impala.planner.PlanNode.tupleIds_
ArrayList< TupleId > tupleIds_
Definition: PlanNode.java:74

com.cloudera.impala.planner.ScanNode.getStatsExplainString
String getStatsExplainString(String prefix, TExplainLevel detailLevel)
Definition: ScanNode.java:75

com.cloudera.impala.planner.HdfsScanNode.computeStats
void computeStats(Analyzer analyzer)
Definition: HdfsScanNode.java:574

com.cloudera.impala.planner.PlanFragment.isPartitioned
boolean isPartitioned()
Definition: PlanFragment.java:317

com.cloudera.impala.planner.PlanNode.getExplainString
String getExplainString()
Definition: PlanNode.java:219

com.cloudera.impala.planner.HdfsScanNode.computeScanRangeLocations
void computeScanRangeLocations(Analyzer analyzer)
Definition: HdfsScanNode.java:155

com.cloudera.impala.common.AnalysisException
Definition: AnalysisException.java:21

com.cloudera.impala.planner.HdfsScanNode.PARTITION_PRUNING_BATCH_SIZE
static final int PARTITION_PRUNING_BATCH_SIZE
Definition: HdfsScanNode.java:90

com.cloudera.impala.analysis.SlotRef
Definition: SlotRef.java:35

com.cloudera.impala.planner.HdfsScanNode.SCAN_RANGE_SKEW_FACTOR
static final double SCAN_RANGE_SKEW_FACTOR
Definition: HdfsScanNode.java:87

com.cloudera.impala.planner.PlanNode.cardinality_
long cardinality_
Definition: PlanNode.java:103

com.cloudera.impala.analysis.BinaryPredicate.Operator.LE
LE
Definition: BinaryPredicate.java:48

com.cloudera.impala.analysis.Expr.isLiteral
boolean isLiteral()
Definition: Expr.java:908

com.cloudera.impala.catalog.HdfsTable.getPartitions
List< HdfsPartition > getPartitions()
Definition: HdfsTable.java:429

com.cloudera.impala.analysis.IsNullPredicate
Definition: IsNullPredicate.java:32

com.cloudera.impala.analysis.TupleDescriptor.getId
TupleId getId()
Definition: TupleDescriptor.java:95

com.cloudera.impala.planner.ScanNode.numPartitionsMissingStats_
int numPartitionsMissingStats_
Definition: ScanNode.java:39

com.cloudera.impala.common.PrintUtils.printBytes
static String printBytes(long bytes)
Definition: PrintUtils.java:33

com.cloudera.impala.planner.HdfsScanNode.totalFiles_
long totalFiles_
Definition: HdfsScanNode.java:98

com.cloudera.impala.catalog.HdfsPartition.FileBlock
Definition: HdfsPartition.java:157

com.cloudera.impala.catalog.HdfsPartition.hasFileDescriptors
boolean hasFileDescriptors()
Definition: HdfsPartition.java:433

com.cloudera.impala.planner.HdfsScanNode.MAX_IO_BUFFERS_PER_THREAD
static final long MAX_IO_BUFFERS_PER_THREAD
Definition: HdfsScanNode.java:79

com.cloudera.impala.analysis.BinaryPredicate.Operator.EQ
EQ
Definition: BinaryPredicate.java:46

com.cloudera.impala.analysis.Expr
Definition: Expr.java:48

com.cloudera.impala.planner.PlanNode.fragment_
PlanFragment fragment_
Definition: PlanNode.java:90

com.cloudera.impala.planner.PlanNode.markSlotsMaterialized
void markSlotsMaterialized(Analyzer analyzer, List< Expr > exprs)
Definition: PlanNode.java:464

com.cloudera.impala.planner.ScanNode.desc_
final TupleDescriptor desc_
Definition: ScanNode.java:33

com.cloudera.impala.analysis.SlotDescriptor
Definition: SlotDescriptor.java:29

com.cloudera.impala.planner.HdfsScanNode.prunePartitions
void prunePartitions(Analyzer analyzer)
Definition: HdfsScanNode.java:458

com.cloudera.impala.planner.HdfsScanNode.evalIsNullPredicate
HashSet< Long > evalIsNullPredicate(Expr expr)
Definition: HdfsScanNode.java:403

com.cloudera.impala.analysis.TupleDescriptor.getSlots
ArrayList< SlotDescriptor > getSlots()
Definition: TupleDescriptor.java:96

impala::SlotId
int SlotId
Definition: global-types.h:24

com.cloudera.impala.planner.HdfsScanNode.getNodeExplainString
String getNodeExplainString(String prefix, String detailPrefix, TExplainLevel detailLevel)
Definition: HdfsScanNode.java:644

com.cloudera.impala.analysis.DescriptorTable.getTupleDesc
TupleDescriptor getTupleDesc(TupleId id)
Definition: DescriptorTable.java:88

com.cloudera.impala.planner.HdfsScanNode.totalBytes_
long totalBytes_
Definition: HdfsScanNode.java:101

com.cloudera.impala.planner.PlanNode.conjuncts_
List< Expr > conjuncts_
Definition: PlanNode.java:86

com.cloudera.impala.planner.HdfsScanNode
Definition: HdfsScanNode.java:72

com.cloudera.impala.analysis.TupleDescriptor.hasExplicitAlias
boolean hasExplicitAlias()
Definition: TupleDescriptor.java:130

com.cloudera.impala.planner.HdfsScanNode.computeCosts
void computeCosts(TQueryOptions queryOptions)
Definition: HdfsScanNode.java:675

com.cloudera.impala.common.InternalException
Definition: InternalException.java:21

com.cloudera.impala.analysis.LiteralExpr
Definition: LiteralExpr.java:35

com.cloudera.impala.catalog.HdfsTable
Definition: HdfsTable.java:104

com.cloudera.impala.planner.PlanNodeId
Definition: PlanNodeId.java:20

com.cloudera.impala.analysis.NullLiteral
Definition: NullLiteral.java:23

com.cloudera.impala.planner.HdfsScanNode.THREADS_PER_CORE
static final int THREADS_PER_CORE
Definition: HdfsScanNode.java:82

com.cloudera.impala.analysis.Analyzer
Definition: Analyzer.java:105

com.cloudera.impala.planner.HdfsScanNode.evalBinaryPredicate
HashSet< Long > evalBinaryPredicate(Expr expr)
Definition: HdfsScanNode.java:267

com.cloudera.impala.analysis.BinaryPredicate.Operator.GT
GT
Definition: BinaryPredicate.java:51

com.cloudera.impala.planner.HdfsScanNode.canEvalUsingPartitionMd
boolean canEvalUsingPartitionMd(Expr expr, Analyzer analyzer)
Definition: HdfsScanNode.java:217

com.cloudera.impala.planner.PlanNode.computeMemLayout
void computeMemLayout(Analyzer analyzer)
Definition: PlanNode.java:475

com.cloudera.impala.analysis.DescriptorTable
Definition: DescriptorTable.java:36

com.cloudera.impala.analysis.CompoundPredicate
Definition: CompoundPredicate.java:35

com.cloudera.impala.planner.HdfsScanNode.getDisplayLabelDetail
String getDisplayLabelDetail()
Definition: HdfsScanNode.java:630

com.cloudera.impala.planner.HdfsScanNode.HdfsScanNode
HdfsScanNode(PlanNodeId id, TupleDescriptor desc, HdfsTable tbl)
Definition: HdfsScanNode.java:106

com.cloudera.impala.planner.HdfsPartitionFilter
Definition: HdfsPartitionFilter.java:45

com.cloudera.impala.planner.HdfsScanNode.evalPartitionFiltersInBe
void evalPartitionFiltersInBe(List< HdfsPartitionFilter > filters, HashSet< Long > matchingPartitionIds, Analyzer analyzer)
Definition: HdfsScanNode.java:537

com.cloudera.impala.planner.PlanNode.capAtLimit
long capAtLimit(long cardinality)
Definition: PlanNode.java:450

com.cloudera.impala.catalog.HdfsFileFormat
Definition: HdfsFileFormat.java:26

com.cloudera.impala.planner.HdfsScanNode.getPerHostMemUpperBound
static long getPerHostMemUpperBound()
Definition: HdfsScanNode.java:749

com.cloudera.impala.analysis.InPredicate
Definition: InPredicate.java:37

com.cloudera.impala.analysis.BinaryPredicate.Operator
Definition: BinaryPredicate.java:45

com.cloudera.impala.planner.HdfsScanNode.evalSlotBindingFilter
HashSet< Long > evalSlotBindingFilter(Expr expr)
Definition: HdfsScanNode.java:429

com.cloudera.impala.planner.HdfsScanNode.init
void init(Analyzer analyzer)
Definition: HdfsScanNode.java:124

com.cloudera.impala.planner.HdfsScanNode.toThrift
void toThrift(TPlanNode msg)
Definition: HdfsScanNode.java:623

com.cloudera.impala.planner.PlanNode.computeSelectivity
double computeSelectivity()
Definition: PlanNode.java:484

com.cloudera.impala.catalog.Table.getNumClusteringCols
int getNumClusteringCols()
Definition: Table.java:402

com.cloudera.impala.planner.ScanNode.scanRanges_
List< TScanRangeLocations > scanRanges_
Definition: ScanNode.java:42

com.cloudera.impala.analysis.Expr.isBoundBySlotIds
boolean isBoundBySlotIds(List< SlotId > slotIds)
Definition: Expr.java:869

com.cloudera.impala.planner.HdfsScanNode.debugString
String debugString()
Definition: HdfsScanNode.java:112

com.cloudera.impala.planner.HdfsScanNode.partitions_
final ArrayList< HdfsPartition > partitions_
Definition: HdfsScanNode.java:95

com.cloudera.impala.planner.PlanNode.getDisplayLabel
final String getDisplayLabel()
Definition: PlanNode.java:225

com.cloudera.impala.planner.HdfsScanNode.LOG
static final Logger LOG
Definition: HdfsScanNode.java:73

com.cloudera.impala.analysis.TupleDescriptor.getTable
Table getTable()
Definition: TupleDescriptor.java:97

com.cloudera.impala.planner.PlanNode.assignedConjuncts_
Set< ExprId > assignedConjuncts_
Definition: PlanNode.java:99

com.cloudera.impala.planner.PlanNode.addCardinalities
static long addCardinalities(long a, long b)
Definition: PlanNode.java:528