Big Data Hadoop och Spark-utvecklare - eLearning
4.900,00 SEK
- 30 hours
Denna certifieringskurs i Big Data Hadoop är utformad för att ge dig en djupgående kunskap om big data-ramverket med hjälp av Hadoop och Spark. I denna praktiska big data-kurs kommer du att genomföra verkliga, branschbaserade projekt med Simplilearns integrerade labb. Förkunskapskrav - Det rekommenderas att du har kunskaper inom: - Core - Java SQL
Kurstidslinje
Introduktion till Big Data och Hadoop
Lektion 01
- Introduktion till Big Data och Hadoop
- Introduktion till Big Data
- Big Data-analys
- Vad är Big Data?
- De fyra V:na inom Big Data
- Fallstudie: Royal Bank of Scotland
- Utmaningar med traditionella system
- Distribuerade system
- Introduktion till Hadoop
- Komponenter i Hadoops ekosystem Del Ett
- Komponenter i Hadoops ekosystem Del Två
- Komponenter i Hadoops ekosystem Del Tre
- Kommersiella Hadoop-distributioner
- Demo: Genomgång av Simplilearn Cloudlab
- Viktiga slutsatser
- KunskapskontrollHadoop-arkitektur distribuerad lagring (HDFS) och YARN
Lektion 02
- Hadoop-arkitektur Distribuerad lagring (HDFS) och YARN
- Vad är HDFS
- Behovet av HDFS
- Vanligt filsystem jämfört med HDFS
- Egenskaper hos HDFS
- HDFS-arkitektur och komponenter
- Implementeringar av kluster med hög tillgänglighet
- HDFS-komponent Filsystemets namnrymd
- Data Block Split
- Topologi för datareplikering
- HDFS kommandorad
- Demo: Vanliga HDFS-kommandon
- Praktikprojekt: HDFS kommandorad
- Introduktion till Yarn
- Användningsfall för Yarn
- Yarn och dess arkitektur
- Resurshanterare
- Hur resurshanteraren fungerar
- Application Master
- Hur Yarn kör en applikation
- Verktyg för Yarn-utvecklare
- Demo: Genomgång av kluster Del Ett
- Demo: Genomgång av kluster Del Två
- Viktiga slutsatser Kunskapskontroll
- Praktikprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och YarnDatainläsning i stora datasystem och ETL
Lektion 03
- Data Ingestion Into Big Data Systems and Etl
- Data Ingestion Overview Part One
- Data Ingestion Overview Part Two
- Apache Sqoop
- Sqoop and Its Uses
- Sqoop Processing
- Sqoop Import Process
- Sqoop Connectors
- Demo: Importing and Exporting Data from MySQL to HDFS
- Practice Project: Apache Sqoop
- Apache Flume
- Flume Model
- Scalability in Flume
- Components in Flume’s Architecture
- Configuring Flume Components
- Demo: Ingest Twitter Data
- Apache Kafka Aggregating User Activity Using Kafka
- Kafka Data Model
- Partitions
- Apache Kafka Architecture
- Demo: Setup Kafka Cluster
- Producer Side API Example
- Consumer Side API
- Consumer Side API Example
- Kafka Connect
- Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
- Key Takeaways
- Knowledge Check
- Practice Project: Data Ingestion Into Big Data Systems and ETLDistribuerad bearbetning MapReduce-ramverk och Pig
Lektion 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and PigApache Hive
Lektion 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architecture
- Interfaces to Run Hive Queries
- Running Beeline from Command Line
- Hive Metastore
- Hive DDL and DML
- Creating New Table
- Data Types Validation of Data
- File Format Types
- Data Serialization
- Hive Table and Avro Schema
- Hive Optimization Partitioning Bucketing and Sampling
- Non-Partitioned Table
- Data Insertion
- Dynamic Partitioning in Hive
- Bucketing
- What Do Buckets Do?
- Hive Analytics UDF and UDAF
- Other Functions of Hive
- Demo: Real-time Analysis and Data Filtration
- Demo: Real-World Problem
- Demo: Data Representation and Import Using Hive
- Key Takeaways
- Knowledge Check
- Practice Project: Apache HiveNoSQL-databaser HBase
Lektion 06
- NoSQL Databases HBase
- NoSQL Introduction
- Demo: Yarn Tuning
- Hbase Overview
- Hbase Architecture
- Data Model
- Connecting to HBase
- Practice Project: HBase Shell
- Key Takeaways
- Knowledge Check
- Practice Project: NoSQL Databases - HBaseGrundläggande om funktionell programmering och Scala
Lektion 07
- Grundläggande om funktionell programmering och Scala
- Introduktion till Scala
- Demo: Installation av Scala
- Funktionell programmering
- Programmering med Scala
- Demo: Grundläggande literaler och aritmetisk programmering
- Demo: Logiska operatorer
- Typinferens, klasser, objekt och funktioner i Scala
- Demo: Typinferens, anonyma funktioner och klass
- Samlingar
- Typer av samlingar
- Demo: Fem typer av samlingar
- Demo: Operationer på lista i Scala REPL
- Demo: Funktioner i Scala REPL
- Viktiga slutsatser
- Kunskapskontroll
- Praktikprojekt: Apache HiveApache Spark nästa generations ramverk för stordata
Lektion 08
- Apache Spark Next-Generation Big Data Framework
- History of Spark
- Limitations of Mapreduce in Hadoop
- Introduction to Apache Spark
- Components of Spark
- Application of In-memory Processing
- Hadoop Ecosystem vs Spark
- Advantages of Spark
- Spark Architecture
- Spark Cluster in Real World
- Demo: Running a Scala Programs in Spark Shell
- Demo: Setting Up Execution Environment in IDE
- Demo: Spark Web UI
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Spark Next-Generation Big Data FrameworkSpark Core bearbetar RDD
Lektion 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDDSpark SQL bearbetar DataFrames
Lektion 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing DataframesModellering av BigData med Spark MLib
Lektion 11
- Spark Mlib Modeling Big Data With Spark
- Role of Data Scientist and Data Analyst in Big Data
- Analytics in Spark
- Machine Learning
- Supervised Learning
- Demo: Classification of Linear SVM
- Demo: Linear Regression With Real World Case Studies
- Unsupervised Learning
- Demo: Unsupervised Clustering K-means
- Reinforcement Learning
- Semi-supervised Learning
- Overview of Mlib
- Mlib Pipelines
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Mlib - Modelling Big data With SparkStreambehandlingsramverk och Spark Streaming
Lektion 12
- Översikt av streaming
- Realtidsbearbetning av stora datamängder
- Arkitekturer för databearbetning
- Demo: Realtidsdatabearbetning med Spark Streaming
- Demo: Skriva Spark Streaming-applikation
- Introduktion till DStreams
- Transformationer på DStreams
- Designmönster för användning av Foreachrdd
- Tillståndsoperationer
- Fönsteroperationer
- Sammanslagningsoperationer Stream-dataset Join
- Demo: Fönsterhantering av realtidsdatabearbetning av streamingkällor
- Demo: Bearbetning av Twitter-strömmande data
- Strukturerad Spark Streaming-
- Användningsfall banktransaktioner
- Arkitekturmodell för strukturerad streaming och dess komponenter
- Utmatningssänkor
- API:er för strukturerad streaming
- Konstruktion av kolumner i strukturerad streaming
- Fönsteroperationer på händelsetid
- Användningsfall
- Demo: Streaming-pipeline
- Praktikprojekt: Spark Streaming
- Viktiga slutsatser
- Kunskapskontroll
- Praktikprojekt: Streambehandlingsramverk och Spark StreamingSpark GraphX
Lektion 13
- Spark GraphX
- Introduction to Graph
- GraphX in Spark
- GraphX Operators
- Join Operators
- GraphX Parallel System
- Algorithms in Spark
- Pregel API
- Use Case of GraphX
- Demo: GraphX Vertex Predicate
- Demo: Page Rank Algorithm
- Key Takeaways
- Knowledge Check
- Practice Project: Spark GraphX Project Assistance
Lärandemål
I denna kurs för Big Data Hadoop och Spark-utvecklare kommer du att lära dig att:
Hadoop-ekosystemet
Lär dig att navigera i Hadoop-ekosystemet och förstå hur du optimerar dess användning.
Importera data
Importera data med hjälp av Sqoop, Flume och Kafka.
Kupa
Implementera partitionering, bucketing och indexering i Hive.
Apache Spark
Arbeta med RDD i Apache Spark.
Dataströmning
Bearbeta data i realtidsströmmar och utför DataFrame-operationer i Spark med SQL-förfrågningar.
Genomförande
Implementera användardefinierade funktioner (UDF) och användardefinierade attributfunktioner (UDAF) i Spark.
Kursavslutningsprojekt
Projekt 1: Analys av historiska försäkringsanspråk
Använd Hadoops funktioner för att förutsäga mönster och dela handlingsbara insikter för ett bilförsäkringsbolag. Detta projekt använder data från New York-börsen från 2010 till 2016, insamlad från över 500 noterade företag. Datamängden består av varje noterat företags intradagspriser och handelsvolym. Datan används i både maskininlärningsprojekt och explorativa analysprojekt i syfte att automatisera handelsprocessen och förutsäga nästa handelsdags vinnare eller förlorare. Omfattningen av detta projekt är begränsad till explorativ dataanalys.
Projekt 2: Anställdas granskning av kommentarsanalys
HR-teamet surfar på sociala medier för att samla in feedback och känslor från nuvarande och tidigare anställda. Denna information kommer att användas för att härleda handlingsbara insikter och vidta korrigerande åtgärder för att förbättra relationen mellan arbetsgivare och anställd. Data skrapas från webbplatsen Glassdoor och innehåller detaljerade recensioner från 67 000 anställda från Google, Amazon, Facebook, Apple, Microsoft och Netflix.
Projekt 3: K-means-klusteranalys för telekommunikationsområdet
LoudAcre Mobile är en mobiltelefonoperatör som har lanserat en ny kampanj för öppna nätverk. Som en del av denna kampanj har företaget bjudit in användare att klaga på mobilnätverkstorn i deras område om de upplever anslutningsproblem med sitt nuvarande mobilnätverk. LoudAcre har samlat in en datamängd från användare som har klagat.
Projekt 4: Marknadsanalys inom banksektorn
Vår kund, en portugisisk bankinstitution, genomförde en marknadsföringskampanj för att övertyga potentiella kunder att investera i en bankkampanj med tidsbundna insättningar. Försäljningsargumenten för kampanjen levererades via telefonsamtal. Ofta kontaktades dock samma kund mer än en gång. Du måste utföra en marknadsanalys av de data som genererats av denna kampanj, med beaktande av de överflödiga samtalen.
Stor Hadoop- och Spark-utvecklare - eLearning
Målgrupp och förkunskapskrav
Målgrupp
- Analytiker inom data
- Seniora IT-professionella
- Test- och mainframe-specialister
- Datahanteringsproffs
- Affärsunderrättelseproffs
- Projektledare
- Examen som vill börja en karriär inom stordataanalys
Förkunskapskrav:
Det rekommenderas att du har kunskap om:
- Kärna
- Java SQL
Behöver du en företagslösning eller integration av LMS?
Hittade du inte kursen eller programmet som skulle passa för ditt företag? Behöver du LMS-integration? Skriv till oss! Vi löser det!