Denna artikel ger dig en glimt av fem populära open source-verktyg som kan användas för att skapa en plattform för dataanalys.

Big data är data i storleksordningen terabyte eller petabyte och därefter, som består av gruvdrift, analys och förutsägbar modellering av stora datamängder. Den snabba tillväxten av information och teknisk utveckling har gett en unik möjlighet för individer och företag över hela världen att få vinster och utveckla nya möjligheter som omdefinierar traditionella affärsmodeller med storskalig analys.

Denna artikel ger en fågelperspektiv på fem av de mest populära open source-dataplattformarna. Här är vår lista:

Apache Hadoop

Apache Hadoop är en programvara med öppen källkod som bearbetar mycket stora datamängder i en distribuerad miljö med avseende på lagring och beräkningskraft, och bygger huvudsakligen på lågkostnadsvaruhårdvara.

Apache Hadoop är utformad för att enkelt skala upp från några till tusentals servrar. Det hjälper dig att bearbeta lokalt lagrade data i en övergripande konfiguration för parallell bearbetning. En av fördelarna med Hadoop är att den hanterar fel på programvarunivå. Följande figur illustrerar Hadoop-ekosystemets övergripande arkitektur och var de olika ramarna finns inom det:

Apache Hadoop ger ett ramverk för filsystemlagret, klusterhanteringslagret och bearbetningsskiktet. Det lämnar ett alternativ för andra projekt och ramar att komma och arbeta tillsammans med Hadoop Ecosystem och utveckla sina egna ramar för alla lager som finns i systemet.

Apache Hadoop består av fyra huvudmoduler. Dessa moduler är Hadoop Distribuerat filsystem (filsystemlagret), Hadoop MapReduce (som fungerar med både klusterhantering och behandlingsskiktet), Yet Another Resource Negotiator (YARN, klusterhanteringsskiktet) och Hadoop Common.

Elasticsearch

Elasticsearch är en fullständig textbaserad sök- och analysmotor. Det är ett mycket skalbart och distribuerat system, speciellt utformat för att arbeta effektivt och snabbt med stora datasystem, där en av dess huvudsakliga användningsfall är logganalys. Den kan utföra avancerade och komplexa sökningar och nästan realtidsbehandling för avancerad analys och operativ intelligens.

Elasticsearch är skrivet i Java och är baserat på Apache Lucene. Släpptes 2010 och blev snabbt populär på grund av sin flexibla datastruktur, skalbara arkitektur och mycket snabba svarstid. Elasticsearch är baserat på ett JSON-dokument med en schemafri struktur, vilket gör adoptionen enkel och problemfri. Det är en av de topprankade sökmotorerna av företagsklass. Du kan skriva sin klient på vilket programmeringsspråk som helst. Elasticsearch fungerar officiellt med Java, .NET, PHP, Python, Perl och så vidare.

Elasticsearch interagerar främst med ett REST API. Det får data i form av JSON-dokument med alla nödvändiga parametrar och ger sitt svar på ett liknande sätt.

MongoDB

MongoDB är en NoSQL-databas baserad på datalagermodellen. I MongoDB är allt antingen samling eller dokument. För att förstå MongoDB-terminologi är samling ett alternativt ord för tabell, medan dokument är ett alternativt ord för rader.

MongoDB är en öppen källkod, dokumentinriktad och plattformsbas. Det är främst skrivet i C++. Det är också den ledande NoSQL-databasen som ger hög prestanda, hög tillgänglighet och enkel skalbarhet. MongoDB använder JSON-liknande dokument med schema och ger ett rikt frågestöd. Några av de främsta funktionerna inkluderar indexering, replikering, belastningsbalansering, aggregering och fillagring.

Cassandra

Cassandra är ett Apache-projekt med öppen källkod som är utformat för NoSQL-databashantering. Cassandra-rader är ordnade i tabeller och indexeras med en nyckel. Den använder en enda loggbaserad lagringsmotor. Data i Cassandra distribueras över flera masterlösa noder, utan en enda felpunkt. Det är ett Apache-projekt på högsta nivå, och dess utveckling övervakas för närvarande av Apache Software Foundation (ASF).

Cassandra är utformad för att lösa problem som är förknippade med att fungera i stor skala (webb). Med tanke på Cassandras masterlösa arkitektur kan den fortsätta att utföra operationer trots ett litet (om än betydande) antal maskinvarufel. Cassandra kör över flera noder över flera datacenter. Det replikerar data över dessa datacenter för att undvika fel eller driftstopp. Detta gör det till ett mycket feltolerant system.

Cassandra använder sitt eget programmeringsspråk för att komma åt data över sina noder. Det kallas Cassandra Query Language eller CQL. Det liknar SQL, som huvudsakligen används av Relational Databases. CQL kan användas genom att köra sin egen applikation som heter cqlsh. Cassandra erbjuder också många integrationsgränssnitt för flera programmeringsspråk för att bygga en applikation med hjälp av Cassandra. Dess integrations-API stöder Java, C ++, Python och andra.

Apache HBase

HBase är ett annat Apache-projekt som är utformat för att hantera NoSQL-datalagret. Den är utformad för att använda Hadoop Ecosystems funktioner, inklusive tillförlitlighet, feltolerans och så vidare. Den använder HDFS som ett filsystem för lagringsändamål. Det finns flera datamodeller som NoSQL arbetar med och Apache HBase tillhör den kolumnorienterade datamodellen. HBase baserades ursprungligen på Google Big Table, som också är relaterat till den kolumnorienterade modellen för ostrukturerad data.

HBase lagrar allt i form av ett nyckel-värdepar. Det viktiga att notera är att i HBase är en nyckel och ett värde i form av byte. Så för att lagra all information i HBase måste du konvertera information till byte. (Med andra ord accepterar dess API inget annat än byte-array.) Var försiktig med HBase, som när du lagrar data bör du komma ihåg dess ursprungliga typ. Data som ursprungligen var en sträng kommer att returneras som en byte-array om de återkallas felaktigt. Som ett resultat kommer det att skapa en bugg i din applikation och kraschar din applikation.

Hoppas du gillade den här artikeln. Om du vill arkitektera och designa dataintensiva applikationer kan du utforska Anuj Kumars Arkitektur Data-intensiva applikationer. Detta bok är din gateway för att bygga smarta dataintensiva system genom att integrera kärnan i dataintensiva arkitektoniska principer, mönster och tekniker direkt i din applikationsarkitektur.

5 Open Data Big Data-plattformar

Apache Hadoop

Elasticsearch

MongoDB

Cassandra

Apache HBase