Azure Synapse Analytics Spark Veri Ambarı Veri Gölü Data Lake

Azure Synapse Analytics ile Bütünleşik Büyük Veri Analitiği - 1

2020-12-12 Abdullah Kise

Veri analitiği uğraşı; geçmişte olanı tahlil etmek ve gelecekte olacakları tahmin etmek için, veri yığınları arasında şu 4 sorunun cevabını keşfetme veya icat etme serüvenidir:

Ne oldu? Neden oldu? Ne olacak? Olması için ne yapmalıyım?

Bu soruların cevaplarını bulabilmek için özetle şu 5 adımı atıyoruz:

Veri yığınlarını seçip depoluyoruz (Capture). Onları kullanışlı hale getirmek amacıyla düzenliyoruz (Organize). Çözüme hizmet edecek platformlarla entegre ediyoruz (Integrate). Ham veriyi karar vermek ve olayların iç yüzünü anlayabilmek için inceliyoruz (Analyze). Son olarak elde ettiğimiz bilgiler doğrultusunda aksiyonlar alıyoruz (Act). Bu döngüyü serüven boyunca tekrar ediyoruz.

Bahsi geçen bu adımları atarken birçok dirençle karşılaşılmaktadır. Özellikle söz konusu büyük veri ise macera hep devam ediyor. 

Uzun zamandır etrafta neler olup bittiği herkesin malumu. Veri çok fazla kullanıcı, cihaz, yazılım tarafından üretilmekte ve tek bir makinenin işlem kapasitesini aşacak şekilde çok büyük olabilmektedir. Üstelik çok farklı kaynaklardan birbirinden farklı formatlarda türeyebilmektedir. Bazı veriler daha durağan iken bazısı saniyede milyarlarca işlem sonucu türemekte ve geleneksel yöntemlerle yakalayıp analiz etmesi neredeyse imkânsız hale gelebilmektedir. Bunlara ek olarak içerisinde birçok gizemi barındıran veri yığınları arasından bir desen, bir eğilim elde etmek ciddi emek istemektedir.

Şimdilerde bir şirketi ilgilendiren verilerin yalnızca %20’si yapısal (tablo olarak düşünebiliriz) formattadır. Geriye kalan devasa veri yığını ise düz metin, resim, ses, video, json, xml, parquet gibi kendine has özelliklere sahip serbest formatlarda yer almaktadır. Artık rekabette avantaj sağlamak isteyen şirketlerin geçmişle birlikte geleceği görme, kendi türettikleriyle birlikte etrafta kendisiyle ilgili ya da ilgili olabilecek niteliğe sahip her türden veriyi işlemeleri gerekmektedir. 

Öyle görünüyor ki bu artık bir lüks değil gerekliliktir. Teknolojinin baş döndüren hızı bu alanda en üst seviyelere çıktığı için her türden verinin analiz edilmesinin bir ihtiyaç olduğunun fark edilmesi ile geç kalınması arasında aksiyon alınabilecek yeterli zaman bulunamayabilir.

Büyük veri analitiği çalışmalarının daha az yorucu, sonuçların daha kullanışlı ve projelerin daha sürdürülebilir olması için polyglot yaklaşımı yaygındır. Yani farklı türden araçlar güçlü olduğu noktalarda devreye alınarak daha iyi çözümler üretilmeye çalışılır.

Polyglot yaklaşımı biryandan da başka problemleri gündeme getirdiği aşikar. Bu araçların yönetimi, güvenliği, performansı, birbiri ile iletişim kurması vs.

Bir büyük veri analitiği projesi uçtan uca düşünüldüğünde birçok teknik ve aracı bir arada kullanmayı ve çeşitli problemlere çözüm üretmeyi ister istemez zorunlu kılıyor; yapısal olan-olmayan, farklı hacim, hız ve tipte veri üreten kaynaklara erişilmesi, verilerin düzenlenip ara katmanlara taşınması, veri gölleri ve veri ambarlarının oluşturulması, makine öğrenimi ve yapay zeka çalışmalarının yürütülmesi ve nihayet elde edilen çıktıların son kullanıcıya etkili şekilde raporlanması. Ayrıca artan verinin depolanması için gerekli alanın temin edilmesi, hesaplamalar için zaman zaman daha fazla ihtiyaç duyulan işlemci gücünün sağlanması, birlikte çalışmaya elverişli araçlar kullanılması, ihtiyaç anında kullanılabilecek yetenekli programlama dillerinin devreye alınabilmesi vs.

Bu ihtiyacı bir noktaya kadar ayrı ayrı SQL Server, Spark, Hadoop, Data Factory, Power BI, Data Lake Storage kullanarak karşılamak mümkün olabilir. Ancak bütünleşik bir yaklaşımla uçtan uca çözüm sunan başka bir hizmet daha var. 

İşte karşınızda Microsoft’un yeni göz bebeği Azure Synapse Analytics.

Azure Synapse Analytics eski Azure SQL Data Warehouse servisinin yerine gelen çok daha gelişmiş bir servis. Hem içerisinde Polybase Engine yeteneklerini sunan SQL Engine hizmetini (SQL Pool) hem Spark yeteneklerini (Spark Pool) hem Data Factory yeteneklerini (Integrate) hem de Power BI (Linked Service) yeteneklerini bir arada sunuyor. 

Üstelik dağıtık mimarisi sayesinde ihtiyacınıza göre işlemci gücünü ayarlayabilir, sınırsız depolama alanına sahip olabilirsiniz. Bu ürün sayesinde tek çatı altında veri gölleri oluşturarak her türden verinin taşınması, düzenlenmesi ve depolanması, stream verinin işlenebilmesi, graph tabanlı problemlerin çözülebilmesi, makine öğrenimi ve yapay zeka çalışmalarının yapılabilmesi, veri ambarlarının oluşturulabilmesi ve interaktif raporların hazırlanabilmesi mümkün. Üstelik bunları isterseniz lokalinizdeki bilindik araçlarla, isterseniz tarayıcınız üzerinde çalışan Azure Synapse Studio ile hiçbir kuruluma gerek kalmadan yapabilirsiniz.

 

 
Azure Synapse Analytics hizmetinin bileşenlerini bir sonraki yazımızda daha detaylı inceleyeceğiz.
 
Sonraki yazımıza ulaşmak için:
 
Faydalı olması dileğiyle.