İçeriğe geç

Big Data I – Büyük Veri Nedir? Nasıl Ortaya Çıktı?

Selamlar,

Bu yazımda ortamlarda Big Data konusu açıldığı zaman özgüven ve rahatlık içerisinde konu hakkında konuşulabilecek bilgileri açık, net ve görselleştirilmiş bir şekilde aktarmaya çalışacağım.

Peki nelerden bahsedeceğim?

  1. Veri Nedir?
  2. Büyük Veri Nedir?
  3. Büyük Veri Nasıl Ortaya Çıktı?
  4. Geleneksel Yöntemler vs Big Data

Haydi başlayalım..


1.Veri Nedir?

Veri: Bilgisayarların işleyebileceği formatlara dönüştürülmüş gerçek kayıtlar topluluğudur. Örneğin: kelimeler, sayılar, ölçümler, gözlemler, resimler, ses kayıtları, videolar vs.

Yukarıdaki tanımı biraz incelediğimizde veri ile ilgili yapılan iki farklı ve önemli iş bulunmakta.

  1. Veriyi işleme
  2. Veriyi toplu bir şekilde muhafaza etmek, yani depolamak.

Aslında bütün olaylar burada başlıyor. Veriyi işlememizin en temelde iki nedeni bulunmakta:

  1. Varolan bir Problemi Çözmek
  2. Geleceğe yönelik tahminlerde bulunmak.

Veriyi depolamamızın sebebi ise ihtiyaç anında veriyi işleyebilmek.

Verinin bu süreci eski zamanlardaki tabletlerden bugüne kadar devam ediyor. Bilgisayarların hayatımıza girmesi ile de farklı bir boyuta taşınmış durumda.

Biz şimdi son elli yılı ele alalım.

Son yıllarda verilerimizi yönetmek için iki yöntem bulunmakta.

  1. Geleneksel Yöntemler
  2. Büyük Veri Yöntemleri

Genel olarak veri kavramını da üçe ayırabiliriz.

  1. Structured (Yapılandırılmış) Data
  2. Unstructured (Yapılandırılmamış) Data
  3. Semi-Structured Data

1.1 Structured Data

Stuctured data çoğu zaman nicel olarak kategorilendirilmiş veri türüdür. Aynı zamanda çoğumuzun iş hayatımızda bu veri türüyle çalışmaktayız. Örneklendirmek gerekirse: İlişkisel veri tabanları ve E-Tablolar (Excel, Sheets, vs.) yapılandırılmış veri türüdür.

Yapılandırılmış bir veride: isimler, adresler, kredi kartı numaraları gibi bilgiler bulunabilir.

Structured Data Son derece düzenlidir ve makine dili tarafından kolay anlaşılır. İlişkisel veri tabanı sistemleri ile girdi, çıktı, arama ve manipule etme işlemleri kolaylıkla gerçekleştirilebilir. Bu durum yapılandırılmış verilerin en çekici özelliğidir.

Hepimizin çokça duydu SQL dili de buraya dayanmaktadır. Structured Query Language dili ile yukarıda saydığımız işlemleri kolaylıkla gerçekleştirebiliriz.

SQL yani Structured Query Language, IBM tarafından 1970’li yılların başında geliştirilmiştir ve veritabanlarındaki ilişkileri yönetmek için çok kullanışlı bir yapıdır.

1.2 Unstructured Data

Yapısal olmayan veriler çoğunlukla nitel olarak sınıflandırılır. Bu tür veriler geleneksel yöntemler ve araçlar ile işlenemez ve analiz edilemez.

Unstructured veriye örnek vermek gerekirse: Yazı, video dosyaları (MP4, AVI, FLV. vs.), ses dosyaları (MP3, WAV, vs.), sosyal medya gönderileri, uydudan çekilmiş görseller vs..

Bu tür verilerin analiz edilmesi ve yapılandırılması zordur çünkü daha önceden tanımlanmış veri modeli bulunmaktadır. Bu yüzden bu tip veriler ilişkisel veri tabanlarında organize edilemezler. Bunun yerine ilişkisel olmayan veya NoSQL denilen veritabanı sistemleri kullanılmaktadır.

Yapılandırılmamış veriyi yönetmek için bir diğer yöntem de veriyi bir Data Lake’e akıtmak ve burada ham şekilde depolamak.

Yapılandırılmamış verinin içinde olan içgörüleri gün yüzüne çıkarmak zor bir görevdir. Gerçekten fark oluşturmak için üst düzey analitik teknikler ve yüksek teknik tecrübe gerekebilir.

Structured DataUnstructured Data
Nicel verilerdir. Sayılar ve değerlerden oluşur.Nitel verilerdir. ses, video, resim, sensör değeri gibi veriler içerir
Makine öğreniminde kullanılır.NLP, veri madenciliği alanlarında kullanılır.
SQL Veritabanlarında veya Excel Sayfalarında tabular formda saklanır.Ses dosyaları, videola dosyaları veya NoSQL Veri Tabanlarında Saklanır
Önceden tanımlanmış bir veri modeli vardır.Önceden tanımlanmış veri modeli yoktur.
Data Warehouse/Veri Ambarlarında SaklanırData Lake/Veri Göllerinde Saklanır.
Daha az alan kaplar ve yüksek seviyede ölçeklenebilir.Daha çok alan kaplar ve ölçeklenebiilmesi zordur.

1.3 Semi-Structured Data

Semi-Structured veriler, Structured ve Unstructured veri yapıları arasında yer alır. Yapılandırılmış veriler gibi tabular formda yani tablo formatında değillerdir veya ilişkisel veritabanlarında tutulamazlar. Fakat bir veri kümesindeki kayıtlara ve alanlara ölçekleyen etiketler (label) veya anlamsal işaretler içerirler.

Sık kullanılar semi-structured veri türlerine JSON ve XML örnek verilebilir. Bu tip verilerin işlenmesi Yapılandırılmış verilere göre daha zor fakat yapılandırılmamış verilere göre daha kolaydır. Bu iki türün arasında bir köprü görevi görür.


Veri üzerine bilgilerimizi tazeledikten sonra gelelim büyük veri meselesine..

2. Büyük Veri/Big Data Nedir?

Koskoca kavramı tek bir cümleyle özetlemek gerekirse:

Geleneksel yöntemler ile işlenemeyen verilere büyük veri denir.

Bu tanımı biraz açalım.

Geleneksel yöntemler ile geleneksel veriler işlenir. Peki geleneksel veri nedir?

Geleneksel veriler, çok küçük kuruluşlardan büyük kuruluşlara kadar her tür işletmede kullanılan Structured yani yapılandırılmış verilerdir.

Geleneksel veriler, geleneksel yöntemler ile işlenir ve dopolanır. Bunun için türlü türlü ilişkisel veritabanı yazılımları kullanılır (MS SQL, MYSQL, PostgreSQL vs.) ve Structured Query Language (SQL) dilinden yararlanılır.

Adım adım yaklaşıyoruz..

Peki ya Big Data?

Big Data kavramını geleneksel verinin bir üst versyonu olarak düşünebiliriz. Geleneksel verimiz, artan işleme ve depolama gücü sayesinde (sosyal medya, Endüstri 4.0, uydu verileri vs.) öyle bir yere geldi ki artık halihazırda mevcut olan geleneksel işleme yöntemleri ile verilerimizi yönetemez olduk. İşte burada büyük veri teknolojileri devreye girmeye başladı.

Geleneksel Veri vs Big Data Karşılaştırma Tablomuz:

Geleneksel VeriBig Data
Geleneksel veri çoğu zaman kurumsal düzeyde üretilirBig Data hem kurumsal düzeyde hemde kurumsal düzeyin dışında üretilir
Genel olarak hacmi Gigabyte-Terabyte aralığındadır.Hacmi Petabyte, Zettabyte hatta Exabyte’lara ulaşabilir
Geleneksel veritabanı sistemleri structured data ile ilgilenir.Big Data sistemleri structured, semi-structured ve unstructured data yapıları ile ilgilenir.
Çoğu zaman saatlik veya günlük şekilde oluşur.Büyük Veride bu süre saniyelere inmiştir. Veri üretimi çok hızlıdır.
Veri kaynağı merkezileştirilir ve merkezi bir şekilde yönetilir.Veri kaynakları dağıtıktır ve dağıtılmış bir biçimde yönetilir.
Veriyi işlemek için normal sistem yapılandırmaları çoğu zaman yeterlidir.Veri işlemek için yüksek seviye sistem ayarlamaları gerekmektedir.
Veri entegrasyonu kolaydır.Veri entegrasyonu zordur.
Veri manipulasyon işlemleri kolaylıkla gerçekleştirilebilir.Veri Manipulasyonu işlemlemleri zordur.
Veri kaynakları: ERP İşlem verileri, CRM işlem verileri, finansal veriler, organizasyon verileri, web işlem veriler vs. içerir.Veri kaynakları ayrıyeten şunlarıda içerir: sosyal medya verileri, cihaz verileri, sensör verileri, video, resim, ses dosyaları vs.
https://www.geeksforgeeks.org/difference-between-traditional-data-and-big-data/

2.1 Big Datanın 3-5-7 V’si

Big datayı özetleyen ve V harfi ile başlayan birkaç(!) özellik mevcut. Bunlara internette kolaylıkla “Big Datanın n V’si” diyerek ulaşabilirsiniz. 3-5-7 sayıları da en çok yoğunlaşılmış özellik sayıları. Ben size kısaca özet geçeyim:

1. Velocity: Verinin oluşma hızı.

  • Batch
  • Periodic
  • Real Time

2. Volume: Verinin boyutu.

  • MB
  • GB
  • TB
  • PB …

3. Variety: Verinin çeşitliliği.

  • Tablo
  • DataBase
  • Resim
  • Video
  • Ses
  • Her türlü unstructured data..

4. Value: Verimiz işletmemiz için değer kazandırabiliyor mu?

5. Visualization: Verimiz görselleştirilebiliyor mu?

6. Veracity: Verilerimiz doğrumu? Objektif olarak gerçekliği yansıtıyor mu? Yoksa yanlış, taraflı mı?

7. Variability: Verilerimiz yeterli çeşitliliğe sahip bi? Düşük çeşitlilik sonucu genellenebilirlik kaygımız oluşuyor mu?

https://www.researchgate.net/figure/The-7-Vs-of-Big-Data_fig1_328792007

Son zamanlarda veri çeşitliliğinin (variety) artmasından dolayı ilişkisel veritabanlarından ilişkisel olmayan (NoSQL – Not Only SQL) veritabanlarına doğru bir yönelme söz konusudur.

Kendi kişisel fikrim, günümüz dünyasında bu V’ler gün geçtikçe artar. Bu yüzden sürekli takipte olmak ve yeni gelişmeleri özümsemek gerekiyor. 🙂

3. Big Data Nasıl Ortaya Çıktı?

Peki buraya kadar big datanın ne olduğunuda anladık diyelim. Şimdiki soru şu:

Teknik olarak nasıl bir problemle karşılaştık ki big data kavramı ortaya çıktı? Yani bu işin çalışma prensibi neye dayanıyor? Nelere ihtiyacımız oldu ki bugünlere geldik?

Genel prensip şu şekilde: Birçok bilgisayar birleşti ve tek bir bilgisayar gibi davranmaya başladı.

Gelin biraz daha özelleştirelim.

Büyük verinin işlenmesindeki temel problemler şu faktörlere dayanmaktadır:

  1. Verinin hacminden dolayı oluşan hesaplama güçlüğü (Petabaytlarca veriyi işlemek zor olsa gerek)
  2. Verinin çeşitliliğinden dolayı oluşan hesaplama güçlüğü ( hem sesi hem resmi hemde bir tabloyu aynı anda işlemek?!)
  3. Verinin akışının hızından dolayı oluşan hesaplama güçlüğü (rafting yapılan nehirlerde elinizle balık yakalamaya çalıştığınızı düşünün)

Bu problemleri çözmek için geleneksel yöntemlerden farklı bir sistem kurulması gerekiyordu. Çünkü geleneksel yöntemlerin merkezi bir bakış açısı bulunmaktaydı. Bütün işlemler ana bilgisayarda gerçekleştiriliyordu. Veriler bir sunucuda toplanıyor, analiz işlemleri bu sunucu etrafında gerçekleşiyordu.

Bu durumu çözmek için şöyle bir teori ortaya atıldı:

Birden fazla bilgisayarı birbirine bağlayalım ve bu bilgisayarları tek bir bilgisayarmış gibi davrandırtalım.

Yani bir duvarı bir işçi 10 günde yapıyor ise 10 işçi 1 günde yapsın !

Böylece Apache Hadoop’un temelleri atılmış oldu.

Artık birden çok bilgisayar bir araya gelip bir cluster (küme) oluşturuyor, tek bir bilgisayarmış gibi davranıyor ve büyük verilere hadlerini bildirebiliyordu.

Bu problemin çözümüyle başka konulardaki ufuklarımızı genişlemesine, değerini fark edemediğimiz bazı kavramların daha iyi pekişmesine neden oldu.

Daha doğrusu bazı şeylerin potansiyeli ortaya çıktı.

  • Makine Öğrenmesi algoritmalarının gücü ve performansı arttı. Bunun sonucunda insanlar bu kavramlara dahada yaklaştı ve üzerlerinde daha çok mesai harcamaya, akabinde daha güzel modeller ortaya çıkmış oldu.
  • Daha büyük ve çeşitli verilerin kullanılası ile veriden faydalı bilgi çıkarma süreci için çok önemli bir kaynak/araç sağlandı.
  • Daha büyük ve daha çeşitli verileri çok daha hızlı işleyebildiğimiz için ZAMAN kazandık. Bunun sonucunda kazandığımız bu zaman ile analiz anlamında daha farklı ve özel konulara değinebildik.

Kısacası yeni bir çağ başladı..


Yararlandığım Kaynaklar:

www.veribilimiokulu.com

https://akademi40.org/veri-nedir

https://en.wikipedia.org/wiki/Big_data

https://www.geeksforgeeks.org/difference-between-traditional-data-and-big-data/

https://learn.g2.com/structured-vs-unstructured-data#:~:text=What%20is%20the%20difference%20between,collect%2C%20process%2C%20and%20analyze.

Tarih:Big Data