İçeriğe geç

ASTEROID SINIF TAHMİN MODELİ & YAPAY ZEKA TEKNOLOJİSİ

Teknolojinin gelişim hızı ile beraber teknolojinin insan yaşamındaki yararlılığı geçmişten günümüze her zaman paralel ilerlemiştir. Teknoloji geliştikçe, teknolojiden beklenen yararlılık da artmıştır. Yapay Zeka (Artificial Intelligence), kavramı da bilgisayar teknolojisi geliştikçe insan yaşamında yer bulmaya başlamıştır. Hemen hemen herkes YZ(AI) teknolojisine aşinadır, fakat bu teknolojinin yararlarına pek hakim değildir. Asteroid Sınıf Tahmin Modeli’nden bahsetmeden önce AI teknolojisinden söz etmek yarar sağlayacaktır.

YAPAY ZEKA NEDİR?

İnsana ait problemleri çözmesi beklenen, hatalar üzerinden öğrenip o hataları yinelememeye çalışan bir makina algoritmasıdır. Bu algoritma, hatalardan çıkarılan dersler aracılığı ile model kapsamında doğru sonucu ortaya çıkarmaya çalışır. AI teknolojisi, istatistik ve olasılık bilimi üzerine kurulu olan algoritmik bir teknolojidir. Diğer algoritmalardan ayrılan en önemli yanı ise hatalar üzerinden yoruma vararak doğruya ulaşma isteğidir. AI teknolojisi bünyesinde kullanılan çoğu model hatalar yoluyla doğruluğa ulaşmaya çalışır. Diğer bir deyişle, karşımızda hatalar yaparak öğrenen, bu hataları yinelememeye özen gösteren ve kendi kendine yorum yapabilen bir teknoloji vardır. 1956’da Hanover, New Hampshire, Dartmouth College bünyesinde yapılan konferansta ”yapay
zeka” terimi ilk defa kullanıldı. Yapay Zeka, yoğunlukla 1960’lı yıllardan sonra insan yaşamında önemli görevler almaya başlamıştır. İlk yıllarında pratik gelişmeleri sınırlı olsa da, günümüzde bilgisayar teknolojisinin gelişmesiyle kendine önemli alanlar yaratabilmektir. Bilgisayar teknolojisinin gelişimi ile AI teknolojisinin gelişimi daima birlikte ilerlemektedir. Güçlü bilgisayarlar, yorumlama gücünü artırdığından, bu bilgisayarların çoğalması AI teknolojisinin gelişmesini sağlamıştır. AI teknolojisinin belirli özellikleri bulunmaktadır:


● Tecrübelerden ve hatalardan öğrenerek yorum yapabilmek
● Çözülmesi zor ve komplike problemlere çözüm aramak
● Bilgiyi olabilecek en yüksek olasılıkla anlamak ve yorumlamak
● Makina entegrasyon sistemini kontrol ederek, merkezileştirmek
● İnsan zekasının makina yansımasını oluşturmak

Makina Öğrenmesi(Machine Learning), Derin Öğrenme(Deep Learning) ve Yapay Zeka(AI) genellikle birlikte anılan ve aynı anlamlara geldiği düşünülen kavramlar olsa da özünde her bir kavram kendi dünyasını yaratmıştır. ML ve DL, Yapay Zeka teknolojisinin içinde bulunan algoritmik bir takım dizilerdir. Yapay Zeka’nın temeli ve bazı bileşenleri bu algoritmik dizilerden
oluşmaktadır. Her bir kavram kendi içinde özerktir, fakat AI altında birlikte çalışabilmektedir. Kısacası, AI teknolojisi bu kavramlar için bir çatı görevi görmektedir. ML ve DL kavramlarını bir teleskop olarak düşünürsek, AI teknolojisi teleskoplar bütünüdür diyebiliriz.

AI teknolojisi bünyesinde kullanılan birçok model bulunmaktadır:


● STATSMODEL
● SKLEARN
● OLS
● PCR MODELS
● PLS MODELS
● RIDGE MODELS
● LASSO MODELS
● ENET MODELS
● KNN MODELS
● SVR MODELS
● ARTIFICIAL NEURAL NETWORKS MODELS
● CLASSIFICATION AND REGRESSION TREES(CART) MODELS
● BAGGING MODELS
● RANDOM FORESTS (RF) MODELS
● GRADIENT BOOSTING MACHINES (GBM) MODELS
● EXTREME GRADIENT BOOSTING (XGBOOST) MODELS
● LIGHT GRADIENT BOOSTING (LIGHT GBM) MODELS
● CATEGORY BOOSTING (CATBOOST) MODELS


AI teknoloji dünyasında en iyi model veya en iyi yönelim diye bir kavram yoktur. Esas nokta, olasılık olarak en iyi sonucu verebilen modelleri belirlemektir. Bir veri üzerinde yüksek doğruluk oranı(R2) verebilen bir model, bir başka veri üzerinde aynı performansı göstermeyebilir. Yorumlanacak ve hataları belirlenecek her veri kendine has özellikler taşımaktadır. AI teknolojisi bu modeller bütünü üzerinde yükselir. Her AI teknolojisi aynı modeli kullanmak zorunda değildir. Bir veri bilimci her modeli denemek ve olasılık olarak en yüksek doğruluk oranını verebilecek modeli keşfetmek zorundadır. Her model kendi içinde farklı istatistiki formülasyonları barındırır. Hedeflenecek veri üzerinde seçilecek model AI teknolojisinin temelini oluşturur.

ASTEROID SINIF TAHMİN MODELİ NEDİR?


NASA’nın gözlemlemiş olduğu 4687 asteroid üzerinden sınıf tahmini yapabilen ve bu asteroidlerin dünya için potansiyel tehdit oluşturup oluşturmayacağını olasılıklar üzerinden gösteren modele Asteroid Sınıf Tahmin Modeli denir. 4688 asteroidin belirli özellikleri gözlemlenmiştir:


● Neo Reference ID
● Name
● Absolute Magnitude
● Est Dia in KM(min)
● Est Dia in KM(max)
● Est Dia in M(min)
● Est Dia in M(max)
● Est Dia in Miles(min)
● Est Dia in Miles(max)
● Est Dia in Feet(min)
● Est Dia in Feet(max)
● Close Approach Date
● Epoch Date Close Approach
● Relative Velocity km per sec
● Relative Velocity km per hr
● Miles per hour
● Miss Dist.(Astronomical)
● Miss Dist.(lunar)
● Miss Dist.(kilometers)
● Miss Dist.(miles)
● Orbiting Body
● Orbit ID
● Orbit Determination Date
● Orbit Uncertainty
● Minimum Orbit Intersection
● Jupiter Tisserand Invariant
● Epoch Osculation
● Eccentricity
● Semi Major Axis
● Inclination
● Asc Node Longitude
● Orbital Period
● Perihelion Distance
● Perihelion Arg
● Aphelion Dist
● Perihelion Time
● Mean Anomaly
● Mean Motion
● Equinox
● Hazardous

4687 gözleme ait yukarıdaki bilgiler kolon şeklinde veriye işlenmiştir. Birbirinden bağımsız 187.480 bilgi miktarı yorumlanarak tahmin gerçekleştirebilen bir model kurulmuştur. Modelin odaklandığı bağımlı değişken ise “Hazardous(Tehlikeli)” bilgi kolonudur. Hazardous bilgi kolonu kendi içinde True(Doğru) ve False(Yanlış) olmak üzere iki sonuç taşımaktadır. Diğer bilgi kolonlarından çıkan yorumlar çerçevesinde bir asteroidin Hazardous sınıfı belirlenir. Bir asteroidin Hazardous karşılığı True(1) ise dünya için
potansiyel tehdit oluşturduğu anlaşılır, False(0) ise tehdit oluşturmadığını gösterir. Asteroid Sınıf Tahmin Modeli, bütün bu bilgiler ışığında oluşturulan modeldir. Bu model aracılığı ile istenilen parametreler girildiğinde yeni gözlemlenen bir asteroidin tehlike oluşturup oluşturmayacağı öğrenilebilir.

Verinin İncelenmesi


NASA’nın verisi, daha iyi anlaşılmak üzere model kurulmadan önce bir takım gözlemlere maruz
bırakılabilir.

1- İlk aşama genellikle genel bilgi edinmektir. Yukarıdaki görselde kurulacak model için önemli olabilecek bilgi kolonlarına ait genel
bilgiler gösterilmiştir. Gözlem sayısı, ortalama değer, medyan (ortanca) değer, %25’lik dilim, %50’lik dilim, %75’lik dilim, minimum ve maksimum değerler bu genel bilgilerden bazılarıdır.

2- Değişkenlerin sahip olduğu değerler kontrol edilir. Görüldüğü üzere Orbit Uncertainty (Yörünge Belirsizliği) ile Hazardous (Tehlike) bilgi kolonu dışındaki her kolon ondalık değerlere (float64) sahiptir. Bu şekilde model için kullanılacak kolonlar ile ilgili matematiksel değerler gözlemlenir.

3 – Herbir bilgi kolonu arasındaki korelasyonlara göz atılır. Korelasyon pozitif ise “+” yönde bir ilişki olduğu, negatif yönde
ise “-” yönde bir ilişki olduğu anlaşılır. “+” veya “-” ifadeleri korelasyonun değerini değil yönünü belirtir.

4 – Son aşama olarak veri içinde eksik verinin olup olmadığı kontrol edilebilir. Gözlemlendiği üzere 4687 verinin hepsi de doludur. Bir veri analizinde ve AI teknolojisi temel oluşturma modellerinde eksik verinin manipülasyonu önemli bir yer tutmaktadır.

Verinin Görselleştirilmesi


Veriyle ilgili genel bir bilgi edindikten sonra bu bilgi kolonları arasındaki ilişki görselleştirilerek daha anlamlı hale getirilir.

Tehlike arz eden (True) asteroidlerin mutlak büyükleri, tehlike arz etmeyenlere (False) göre biraz daha azdır.

Kilometre cinsinden saniyedeki bağıl hız, tehlike arz edenlerde çok daha fazladır.

Eksantriklik oranı tehlike arz edenlerde çok daha yüksektir.

Minimum Yörünge Kesişimi oranı, tehlike arz etmeyenlerde tehlike arz edenlere oranla çok daha fazladır.

Eğim değerleri ise her iki tehlike sınıfı için neredeyse aynıdır.

Bu ve bunun gibi görselleştirmeler ile veri daha iyi anlaşılabilir hale gelmektedir, böylelikle görsel olarak bir asteroidi tehlikeli yapan unsurlar daha rahat tespit edilebilir. Görselleştirmeler çeşitlendirilebilir ve amaca göre değişiklik gösterebilir.

Model Seçimi


Bütün bu bilgiler ışığında literatürdeki tüm modeller denenerek doğruluk oranları gözlemlenir. Doğruluk oranı(R2) en yüksek ve birim başına hata oranı (Negative Mean Squared Error) en düşük model tespit edilir.

Yapılan incelemeler sonucu çeşitli modellerin doğruluk oranları aşağıdaki gibidir. Tüm modellerin ortalama katman hata ve doğruluk oranları hesaplanmıştır. Tüm sonuçlar son değerlerdir:


OLS Model: % 50 R2
SKLEARN Linear Model: % 31 R2
PCR Linear Model: % 31 R2
PLS Model: % 34 R2
RIDGE Model: % 34 R2
LASSO Model: % 34 R2 ENET Model: % 17 R2
KNN Model: % -14 R2
SVR Linear Model: % 37 R2
SVR RBF Model: % 34 R2
ARTIFICIAL NEURAL NETWORKS Model: % -1 R2
CLASSIFICATION AND REGRESSION TREES(CART) Model: % 13 R2
BAGGING Model: % 94 R2
RANDOM FOREST (RF) Model: % 94 R2
GRADIENT BOOSTING MACHINES (GBM) Model: % 93 R2
EXTREME GRADIENT BOOSTING (XGBOOST) Model: % 93 R2
LIGHT GRADIENT BOOSTING (LIGHT GBM) Model: % 96 R2
CATEGORY BOOSTING (CATBOOST) Model: % 93 R2

Görüldüğü üzere AI teknolojisi kurulumunda en başarılı temeli oluşturabilecek model LIGHT GBM modelidir. Başarı oranı % 96’dır ve hata oranı diğer modellere göre düşüktür. Bu modele verilecek değerler sonucunda tespit edilecek yeni bir asteroidin tehlikeli olup olmadığı % 96 oranında doğru tahmin edilecektir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir