Big Data Technologies Cheatsheet: The Complete Reference Guide

Core Big Data Frameworks & Platforms

Technology	Description	Key Features	Best For
Apache Hadoop	Open-source distributed computing framework	• HDFS (storage) • YARN (resource management) • MapReduce (processing model) • Fault tolerance	Batch processing of large datasets; foundation for data lakes
Apache Spark	Fast, in-memory data processing engine	• Up to 100x faster than Hadoop MapReduce • Unified API for batch/stream processing • Built-in libraries for ML, graph processing, SQL	Interactive queries, machine learning, real-time analytics
Cloudera CDP	Enterprise data platform	• Integrated security & governance • Hybrid cloud architecture • End-to-end data lifecycle	Enterprise-scale deployments with compliance requirements
Databricks	Unified analytics platform	• Optimized Spark runtime • Notebook interface • MLflow integration • Delta Lake support	Collaborative data science, ML workflows, data engineering
Google BigQuery	Serverless data warehouse	• Separation of storage and compute • ML integration • Real-time analytics	Ad-hoc analysis of massive datasets without infrastructure management
Snowflake	Cloud data platform	• Multi-cluster architecture • Separation of storage/compute • Semi-structured data support	Enterprise data warehousing, data sharing, data applications
Amazon EMR	Managed Hadoop framework	• Easy cluster provisioning • Integration with AWS services • Support for Spark, Hive, Presto	Cloud-based big data processing on AWS

Distributed Storage Technologies

Technology	Type	Description	Best For
HDFS	Distributed file system	Hadoop’s storage layer with data replication	Storing large files for batch processing
Amazon S3	Object storage	Highly durable cloud storage service	Cost-effective storage of any amount of data
Apache HBase	NoSQL columnar database	Random, real-time read/write access on HDFS	Real-time read/write access to sparse data
Apache Cassandra	NoSQL distributed database	Linear scalability with no single point of failure	Distributed applications requiring high availability
MongoDB	Document database	Flexible schema with BSON document storage	Applications with complex, evolving data models
Google Bigtable	NoSQL database service	Low latency and high throughput	Time-series data, IoT, analytics storage
Apache Parquet	Columnar file format	Efficient compression and encoding schemes	Analytical workloads with complex queries
Apache ORC	Columnar file format	Optimized for Hive with advanced compression	Reducing storage footprint for Hadoop workloads
Apache Iceberg	Table format	Schema evolution, atomic operations	Managing large analytic datasets
Delta Lake	Storage layer	ACID transactions on data lakes	Reliable data lakes with schema enforcement

Data Processing Engines

Technology	Processing Model	Key Features	Ideal For
MapReduce	Batch	• Simple programming model • High fault tolerance • Built for very large datasets	Batch jobs with linear data processing flow
Apache Spark Core	Batch & micro-batch	• In-memory processing • DAG execution engine • Lazy evaluation	General-purpose data processing
Apache Tez	DAG-based	• Dynamic DAG optimization • Container reuse • Resource-aware scheduling	Complex multi-stage data processing workflows
Apache Flink	Stream & batch	• True streaming (not micro-batch) • Event time processing • Exactly-once semantics	Applications requiring real-time processing with low latency
Presto/Trino	Distributed SQL	• MPP (massively parallel processing) • In-memory processing • Multiple data source connectors	Interactive querying across multiple data sources
Databricks Photon	Vectorized engine	• Vectorized execution • Native code generation • Compatible with Spark APIs	Performance-critical Spark workloads
Apache Beam	Unified (batch & stream)	• Runner agnostic • Unified programming model • Windowing abstractions	Portable data processing pipelines

Stream Processing Technologies

Technology	Description	Key Capabilities	Use Cases
Apache Kafka	Distributed event streaming platform	• High throughput • Scalable storage • Client libraries	Log aggregation, messaging, activity tracking
Kafka Streams	Client library for Kafka	• Exactly-once processing • No separate cluster required • Local state stores	Stream processing directly on Kafka
Apache Flink	Stream processing framework	• Stateful stream processing • Event time processing • High throughput/low latency	Complex event processing, anomaly detection
Spark Structured Streaming	Stream processing on Spark	• Incremental query execution • End-to-end exactly-once • Unified batch/streaming API	Integrating streaming with batch workloads
AWS Kinesis	Managed streaming service	• Automatic scaling • Integration with AWS services • Real-time analytics	Real-time dashboards, analytics on streaming data
Google Dataflow	Managed stream/batch processing	• Autoscaling • Unified batch/stream • Apache Beam implementation	Processing data pipelines with varying traffic
Azure Event Hubs	Cloud messaging service	• Big data streaming • Millions of events per second • Time retention	Telemetry intake, live dashboarding

Query & Analysis Tools

Technology	Type	Key Features	When To Use
Apache Hive	SQL-on-Hadoop	• HiveQL (SQL-like) • Schema-on-read • Metadata store	Batch SQL queries on large datasets
Apache Impala	MPP SQL engine	• Low latency queries • HDFS/HBase integration • Native execution	Interactive SQL queries on Hadoop
Apache Druid	OLAP database	• Column-oriented storage • Real-time ingestion • Fast aggregations	Time series analytics, dashboards
Clickhouse	Column-oriented DBMS	• High performance • Real-time data updates • Linear scalability	Real-time analytics with high ingestion rates
Apache Kylin	OLAP engine	• MOLAP cube architecture • SQL interface • Sub-second query latency	Business intelligence on huge datasets
Dremio	Data lake engine	• Data reflections (acceleration) • Self-service semantics • Multi-source queries	Accelerating queries across data lake sources
SparkSQL	SQL engine for Spark	• DataFrame API • Catalyst optimizer • Native integration with Spark	SQL analytics within Spark applications

Data Orchestration & Workflow Management

Technology	Description	Key Features	Best Suited For
Apache Airflow	Workflow automation platform	• DAG-based workflows • Python for task definition • Extensible architecture	Complex ETL pipelines with dependencies
Apache NiFi	Data flow automation	• Visual web-based UI • Data provenance • Extensible processor model	Data routing, transformation, system mediation
Dagster	Data orchestrator	• Data-aware orchestration • Type-checked data handoffs • Testing framework	Data pipelines with complex interdependencies
Luigi	Pipeline framework	• Dependency resolution • Failure recovery • Command line integration	Batch jobs with complex dependencies
Prefect	Workflow management	• Hybrid execution model • Positive engineering • Dynamic workflows	Modern data stacks with complex flows
AWS Step Functions	Serverless orchestration	• Visual workflow editor • AWS service integration • Parallelization	Coordinating AWS services in serverless apps
Argo Workflows	Kubernetes-native workflows	• Container-native • CI/CD integration • Complex dependencies	Cloud-native data pipelines on Kubernetes

Data Visualization & BI Tools

Technology	Type	Strengths	Ideal For
Tableau	BI & visualization	• Intuitive interface • Rich visualizations • Strong data connectivity	Business users needing self-service analytics
Power BI	BI & visualization	• Microsoft ecosystem integration • Cost-effective • Regular updates	Organizations using Microsoft stack
Looker	Data platform	• LookML modeling layer • Git integration • Embedded analytics	Data-driven organizations needing governed self-service
Apache Superset	Open-source BI	• Interactive exploration • Wide visualization library • SQL IDE	Organizations wanting open-source modern BI
Grafana	Observability platform	• Time-series focused • Alerting capabilities • Plugin ecosystem	Real-time monitoring, operational dashboards
Kibana	Elasticsearch frontend	• Log & document exploration • Integration with Elastic Stack • Security features	Searching and visualizing log data
Redash	Query & visualization	• Multiple data source support • Query library • Shareable dashboards	SQL-based reporting and dashboards

Machine Learning & AI for Big Data

Technology	Category	Key Features	Use Cases
Spark MLlib	ML library	• Distributed algorithms • Pipeline API • Integration with Spark ecosystem	Large-scale ML integrated with data processing
TensorFlow on Spark	Distributed deep learning	• Distributed TensorFlow • CPU/GPU training • Model parallelism	Deep learning at scale on existing Spark clusters
H2O	Automated ML platform	• AutoML capabilities • R, Python, Scala APIs • GPU acceleration	Automated model building on large datasets
Ray	Distributed computing	• Task parallelism • Reinforcement learning • Distributed training	Scaling Python ML workflows and AI applications
MLflow	ML lifecycle platform	• Experiment tracking • Model registry • Model serving	End-to-end ML lifecycle management
Kubeflow	ML toolkit for Kubernetes	• End-to-end ML pipelines • Model training/serving • Notebook servers	ML workflows on Kubernetes
Databricks ML	Unified ML platform	• Feature store • AutoML • MLflow integration	End-to-end ML workflows with governance

Big Data Integration & Ingestion Tools

Technology	Type	Key Features	Best For
Apache Kafka Connect	Data integration for Kafka	• Source/sink connectors • Scalable architecture • Transformation capabilities	Streaming data integration with Kafka
Apache Sqoop	Database ingestion	• RDBMS to Hadoop transfers • Incremental imports • Parallel transfers	Batch loading data from relational databases
Apache Flume	Log collection	• Reliable data movement • Multiple sources/sinks • Extensible architecture	Collecting, aggregating, and moving log data
Talend	Data integration platform	• Visual interface • 1000+ connectors • Data quality features	Enterprise data integration with governance
Fivetran	Cloud ELT	• Automated schema management • Incremental updates • Monitoring & alerts	Turnkey data pipeline construction
Airbyte	Open-source ELT	• Growing connector library • Customizable connectors • Data synchronization	Building and maintaining ELT pipelines
Stitch	Cloud ETL service	• Simple interface • Quick setup • Comprehensive integrations	Quick setup for common data sources to destinations

Container & Cluster Management

Technology	Description	Key Features	Best For
Kubernetes	Container orchestration	• Auto-scaling • Service discovery • Declarative configuration	Managing containerized big data applications
Docker	Containerization platform	• Isolation • Reproducibility • Portability	Packaging data applications with dependencies
Apache Mesos	Cluster manager	• Two-level scheduling • Resource isolation • Scalability	Large-scale cluster resource management
YARN (Hadoop 3)	Resource manager	• Docker support • Federation • GPU isolation	Managing resources on Hadoop clusters
Amazon EKS	Managed Kubernetes	• AWS integration • Automated updates • Scalability	Running Kubernetes on AWS
Google Kubernetes Engine	Managed Kubernetes	• Autopilot mode • Auto-scaling • Multi-cluster management	Operating production-grade Kubernetes on GCP
Azure Kubernetes Service	Managed Kubernetes	• Integration with Azure services • DevOps integration • Security features	Running Kubernetes on Azure

Key Big Data File Formats

Format	Type	Characteristics	Best For
Parquet	Columnar	• Column-oriented • Efficient compression • Schema preservation	Analytical workloads, complex queries
ORC	Columnar	• Optimized for Hive • ACID support • Predicate pushdown	Hive-based analytical workloads
Avro	Row-based	• Schema evolution • Compact binary format • Rich data structures	Data serialization, schema evolution
JSON	Semi-structured	• Human-readable • Flexible schema • Wide support	APIs, configuration, flexible data
Protobuf	Binary serialization	• Compact binary format • Schema definition • Cross-language support	Efficient serialization with fixed schema
Delta	Table format	• ACID transactions • Schema enforcement • Time travel	Reliable data lake architecture
Iceberg	Table format	• Schema evolution • Hidden partitioning • Snapshot isolation	Large-scale analytics tables
Hudi	Table format	• Upserts & deletes • Incremental processing • Time travel	Record-level operations on data lakes

Monitoring & Observability Tools

Technology	Focus	Key Features	Best For
Prometheus	Metrics	• Time-series database • Powerful query language • Alert management	Monitoring Kubernetes and cloud-native applications
Grafana	Visualization	• Multi-source dashboards • Alerting • Annotation	Creating observability dashboards
Elastic APM	Application monitoring	• Distributed tracing • Performance metrics • Error tracking	End-to-end application monitoring
Datadog	Full-stack observability	• Infrastructure monitoring • APM • Log management	Complete visibility across distributed systems
New Relic	Full-stack observability	• Real-time metrics • Distributed tracing • Applied intelligence	Performance monitoring of applications and infrastructure
Splunk	Machine data platform	• Search & investigation • Alerts & dashboards • AI-powered analytics	Security, IT, and DevOps monitoring
Cloudera Manager	Hadoop management	• Cluster deployment • Configuration management • Service monitoring	Managing Hadoop ecosystem components