Apache Hadoop ve Bileşenleri

A+ A-

Apache Hadoop Java ile yazılmış açık kaynaklı bir yazılım çerçevesidir. Öncelikle daha büyük veri olarak bilinen büyük veri setleri, depolanması ve işlenmesi için kullanılır. Bu kümelenmiş bir ortamda çok sayıda veri depolama ve işleme izin çeşitli bileşenlerden oluşur. Ancak, iki ana bileşeni Hadoop Dağıtılmış Dosya Sistemi ve MapReduce programlama bulunmaktadır.

Bu yazıda, ilk sonra entegre sistemler ve veritabanlarının bazı Apache Hadoop makyaj ve bileşenleri bir göz alacak.

Apache Hadoop 1. Bileşenleri

Hadoop'un, bir bütün olarak, aşağıdaki parçalardan oluşur:

Hadoop Dağıtılmış Dosya Sistemi - HDF'ler olarak kısaltılmış, öncelikle mevcut olanlar birçok benzer bir dosya sistemidir. Ancak, aynı zamanda sanal bir dosya sistemidir.

Biz HDF'ler bir dosyayı taşıdığınızda, otomatik olarak daha küçük dosyalara bölünür, diğer popüler dosya sistemleri ile tek bir kayda değer bir fark vardır. onlar öngörülemeyen durumlar nedeniyle bir alternatif olarak kullanılabilir, böylece bu küçük dosyalar daha sonra, üç farklı sunucular minimum üzerinde çoğaltılır. Bu çoğaltma sayımı mutlaka sert ayarlanmış değildir ve ihtiyaçlarına göre karar alınabilir.

Hadoop'un MapReduce - MapReduce esas olarak büyük hacimli verilerin işlenmesini sağlar Hadoop'un programlama yönüdür.

Sonra birden sunucularına gönderilir küçük istekleri, içine istekleri yıkar bir hüküm de bulunmaktadır. Bu CPU ölçeklenebilir güç kullanımını sağlar.

Hbase - Hbase HDF'ler üstüne oturur ve Java programlama dili aracılığıyla geliştirilen bir katman olur. Hbase başta aşağıdaki yönleri vardır -

  • Sigara ilişkisel
  • Son derece ölçeklenebilir
  • hata toleransı

Hbase var her bir satır bir anahtar vasıtasıyla tanımlanır. sütun sayısı da tanımlanmamış, bunun yerine sütun aile halinde gruplandırılabilir.

Hayvan bakıcısı - Bu tutar merkezi sistem temelde -

  • Yapılandırma bilgileri
  • adlandırma bilgileri
  • Senkronizasyon bilgisi

Bunların yanında, hayvan bakıcısı da grup hizmetleri için sorumludur ve Hbase tarafından kullanılmaktadır. Ayrıca MapReduce programları için kullanmak geliyor.

Solr / Lucene - Bu bir arama motoru başka bir şey değildir. Onun kütüphaneleri Apache tarafından geliştirilen ve bugünkü sağlam biçimde geliştirilecek 10 yılı aşkın gereklidir.

Programlama Dilleri - Orijinal Hadoop programlama dilleri olarak tanımlanan iki programlama dilleri temelde vardır,

  • kovan
  • DOMUZ

Bunların yanında, yazma programlarına, yani C, JAQL ve Java için kullanılabilecek bir kaç diğer programlama dilleri vardır. standart JDBC veya ODBC sürücüleri kullanımını gerektirir, ancak biz de veritabanı ile etkileşim için SQL doğrudan kullanımını yapabilirsiniz.

Entegre Hadoop işlemleri için 2. Sistemleri

Çoğu işletme satıcılarının veritabanının oluşturan çok kendi Hadoop ürünlerinin yanı sıra analitik teklifleri var. Bu teklifleri de başka bir yerden Hadoop kaynak gerektiren, daha ziyade onların çözümlerine bir çekirdek yönü olarak sağlamaz.

Bunlardan bazıları şunlardır -

EMC Greenplum

Greenplum kurumsal işinde oldukça yeni giren olur ve analitik kuvvetli sağlayıcı olduğu için bir üne sahiptir. Bu oluşan Unified Analytics Platformu olarak geliyor -

  • Greenplum veritabanı - Yapılandırılmış veriler üzerinde kullanılmak içindir
  • Greenplum HD - Its Hadoop dağılımı
  • Koro - Veri Bilim takımları için bir verimlilik katmanı.

IBM

Hadoop için IBM'in kurumsal dağıtım Infosphere BigInsights olarak bilinir. Bu gibi Hadoop'un için özellikler, bir dizi uygular -

  • yönetimi için Araçlar
  • uygulama araçları
  • Aynı zamanda tanımlayan insanlar, telefon numaraları, adresler ve daha fazlası gibi kuruluşların, faaliyete çözünürlükte yardımcı bir metinsel veri analiz araçları içermektedir.

JAQL sorgu dili kullanımı yaparak, biri çeşitli IBM DB2 gibi ürünler, hatta Netezza'nın ile Hadoop entegre edebilirsiniz. BigSheets, büyük veriler üzerinde çalışan bir uygulama gibi bir elektronik tablo da sunulmaktadır. Şu anda, BigInsights sadece Amazon, Rackspace, Rightscale vb vasıtasıyla bulut üzerine kullanılabilir

Microsoft,

Hadoop Microsoft'un büyük veri sunan çekirdek parçasını oluşturmaktadır. entegre bir yaklaşım edinerek, bu analizler için kendi aracı paketi üzerinde kullanılabilir büyük veri haline getirmeyi planlıyor.

Microsoft Big Data Solutions bulut tabanlı Windows Azure platformu, aynı zamanda Windows Server platformu haline getirildi ve edilmiştir. , Windows Sistemleri Merkezi ve Active Directory ile entegre olan şirket Hadoop'un kendi dağıtım biçimi vardır. Ayrıca, onun SQL Server, Visual Studio ve .NET ile Hadoop bütünleştirir.

torpil

Oracle Yoğun Veri Cihazı biçiminde bir cihaz tabanlı yaklaşım ile büyük veri dünyasına girdi. Bu kolay Hadoop entegrasyonunu sağlar ve analiz için izin verir ve aynı zamanda Oracle veritabanları ve Exadata depolama serisine bağlantıları vardır yeni NoSQL veritabanı ile birlikte gelir. NoSQL da ölçeklenebilir anahtar değeri tabanlı veritabanı sunan olarak bilinir.

Oracle da Hadoop entegre R analitik platforma sahip olur ve bu böyle kolay gemi kolaylaştırır. Oracle'ın R Enterprise ürün ayrıca Hadoop da kolay veritabanı entegrasyonu sağlar ve biridir.

Hadoop'un bağlantısı ile analiz için 3. Veritabanları

Devasa Paralel İşleme (MPP) destekleyen Veritabanları büyük ölçüde yapılandırılmamış verilere Hadoop en uzmanlaşma bu benzemez yapılandırılmış büyük verileri işlemek içindir. Greenplum ve çok daha eski Aster veriler ve Vertica, bu konuda erken öncülerinden iyi örnekleridir.

Bunlar MPP veritabanları uzman analitik açısından iş yüklerini ve ayrıca veri entegrasyonunu ele bilinmektedir. Bunlar Hadoop'un ve diğer veri depolama platformlarına konektörleri sağlar.

Son zamanlarda bu veritabanı çözümleri sanayiindeki bazı diğer oyuncular tarafından satın edilmiş, -

  • Aster Veri Teradata tarafından satın alınmıştır
  • HP Vertica satın aldı
  • Greenplum EMC altındadır

4. Hadoop merkezli şirketler

Büyük veri dünyasının geliştirici tahrik ideali karşılamak amacıyla, Hadoop dağılımları çok sık topluluk sürümleri şeklinde sunulmaktadır. sürümleri Böyle türleri kurumsal yönetim yaklaşımı vardır, ancak gelişme ve değerlendirme için gerekli olabilecek işlevleri yerine tüm yoktur.

Cloudera

Cloudera Hadoop dağılımlarını veren en eski kuruluş olması umulur. Eğitim, hizmet ve destek seçenekleri ile birlikte, kurumsal çözümler sunmak bilinmektedir. Ayrıca Cloudera açık kaynak katkıları sayesinde Hadoop sayısız katkılar sağlamıştır.

Hortonworks

Hortonworks Hadoop ile ilişkili uzun bir geçmişi vardır. Temelde Yahoo bir ürünüdür ve Hadoop bir göndereni olarak, bu çekirdek Hadoop teknolojisini geliştirmeyi amaçlamaktadır. Aynı zamanda onların Hadoop entegrasyonunu iyileştirmek için Microsoft ile ortaklık kurmuştur.

5. Sonuç

Yukarıdaki makale açıkça anda kullanıma hazır sayısız girişim ve toplum temelli sürümleri ile birlikte Hadoop oluşturan çeşitli modüller açıklanır. Hadoop daha fazla önem kazanıyor ile, daha fazla katılımcı bu listeye eklenmeden önce sadece bir zaman meselesidir.