Bilgisayar Mühendisliği Doktora Tezleri / Computer Engineering PhD Theses

Permanent URI for this collectionhttps://gcris3.etu.edu.tr/handle/20.500.11851/930

Browse

Recent Submissions

Now showing 1 - 14 of 14
  • Doctoral Thesis
    Derin Öğrenme ile Görüntülerde Kararlı Öznitelik Eşleme Tekniklerinin Geliştirilmesi
    (2024) Aydoğdu, Muhammet Fatih; Demirci, Muhammed Fatih
    Bilgisayarlı görü teknikleri görüntüler üzerinde tespit edilen öznitelik noktalarından yaygın bir şekilde yararlanmaktadırlar. Bu öznitelik noktaları kullanılarak görüntü çiftleri arasında yararlı tutarlılıklar tespit edilebilir. Benzerlikler kullanılarak görüntü eşleştirme, nesne tanıma, görüntü dikişleme, görüntü mozaiği oluşturma ve nesne takibi gibi birçok uygulama için başarılı ürünler elde edilebilir. Görüntü çiftleri üzerinde tespit edilen öznitelik noktalarının eşleştirilmesi sırasında noktaların öznitelik uzayında birbirlerine göre uzaklıkları temel alınır. Öznitelik uzayında birbirlerine en yakın olan özniteliklerin yakınlıkları eğer yeterince özgünse bu öznitelikler varsayılan eşleşmeler olarak kabul edilir. Ancak bu varsayılan eşleşmeler çoğu zaman hatalı eşleşmeleri tümüyle saf dışı bırakamaz. Bunun için literatürde tekrarlamalı algoritmalardan faydalanarak en çok sayıda varsayılan eşleşmeyi içerecek şekilde bir geometrik tutarlılık elde edilmeye çalışılır. Elde edilen geometrik tutarlılık sayesinde varsayılan eşleşmelerde bulunan hatalı eşleşmeler elenir. Bu yöntemdeki temel sorun tüm görüntü çiftlerinde başarıya götürecek bir tekrarlama sayısının elde edilmesinin pratikteki imkansızlığıdır. Derin öğrenme yöntemlerinin literatürde birçok problemde alternatiflerine göre daha etkin sonuçlar elde etmesinden sonra çoğu bilgisayarlı görü ve görüntü işleme probleminde olduğu gibi öznitelik eşleştirme problemi için de derin öğrenme ile eğitilmiş yapay sinir ağları kullanan çözümler literatüre yerleşmişlerdir. Bu tezde, kararlı öznitelik eşleme yapan derin öğrenme ağları ile bağıl kamera pozisyonu tahmini problemine çözümler geliştirilmiştir. Öncelikli olarak literatürdeki çalışmaların hepsine temel oluşturan n-n'lik çatı incelenmiştir. n-n'lik bu çatının varsayılan eşlemelerdeki özniteliklerin koordinatlarından oluşan bir küme tipi girdi üzerinde çalıştığı gözlemlenmiştir. n-n'lik çatıya ait girdiyi işleyen literatürdeki çalışmaların varsayılan öznitelik eşleşmelerinde genel bağlam ve yerel bağlam çıkarırken karşılaştığı zorluklar incelenmiştir. n-n'lik çatıya alternatif olarak 1-1'lik alternatif bir çatı oluşturulmuştur. n-n'lik çatıda her bir yığın örneğinde tek bir görüntü çiftine ait veri bulunurken öne sürülen 1-1'lik çatıda her bir yığında sadece tek bir görüntü çiftine ait veri bulunmaktadır. 1-1'lik çatıdaki görüntü çiftine ait her bir varsayılan eşleşme için özel bir bağlam kanalının kullanılmasına imkan sağlanmaktadır. Dahası bu bağlam kanalındaki girdi satırların her bir varsayılan eşleşme için özel olarak sıralanabilmesi mümkündür. Tez kapsamında 1-1'lik çatı kullanan çok sayıda ve farklı tipte ağ katmanları içeren yapay sinir ağları oluşturulmuştur. Oluşturulan 1-1'lik yapay sinir ağları ve literatürdeki n-n'lik başarılı sinir ağları Tensor İşlem Birimleri üzerinde eğitilmişlerdir. Eğitimlerde mimarilere ait hesapsal grafiklerdeki parametreler güncellenirken birden fazla kayıp fonksiyonunun birleşiminden oluşan bileşke kayıp fonksiyonundan faydalanılmıştır. Başarım metriği olarak minimum ortalama hassasiyet ölçütü temel alınmıştır. Elde edilen sonuçlara göre 1-1'lik çatı için oluşturulan yapay sinir ağları literatürdeki n-n'lik yapay sinir ağlarının biri hariç tümünün başarımlarını \%30'a varan farklar ile geride bırakmıştır. Ayrıca tezin asıl konusu üzerinde çalışmaya başlamadan önce derin öğrenme kullanarak yapay sinir ağlarının eğitilmesine aşinalığı arttırmak için bir durum çalışması yapılmıştır. Bunun için portre fotoğrafları üzerinden yaş sınıfı tahmini yapan yapay sinir ağları geliştirilmiştir. Kullanılan veri setindeki portreler 6 sınıfa ayrılmıştır. Literatürdeki 6 katmanlı bir yapay sinir ağının 18 ve 34 katmanlı artık sinir ağlarına göre daha başarılı olduğu gözlemlenmiştir. Kullanılan artık sinir ağlarının 6 sınıflı yaş tahmini problemi için aşırı öğrenmeye sebep olacak kadar derin olduğu veya veri setinin yeterince zengin olmadığı sonucuna varılmıştır.
  • Doctoral Thesis
    Öznitelik Temelli Erişim Kontrol (abac) Modelinin Nesnelerin İnternetine Uygunluğunun Araştırılması ve Gerekli Genişletmelerin Yapılması
    (2024) Bilgen, Melike Burakgazi; Selçuk, Ali Aydın
    Nesnelerin İnterneti (IoT), çok sayıda cihazın birbirleriyle iletişim kurduğu, birbirine bağlı bir ortamdır ve bu durum mahremiyet ve güvenlik sorunları oluşturmaktadır. Kullanıcıların IoT teknolojisini günlük yaşamlarında tam olarak benimsemeleri için bu ekosisteminin temel ağ, sistem ve güvenlik gereksinimlerini karşılaması kritik öneme sahiptir. IoT uygulamaları, sensörler, kullanıcılar ve diğer bağlı cihazlar gibi çeşitli kaynaklardan hassas bilgiler toplayabilir. IoT cihazları giderek günlük rutinlerimize entegre oldukça, güçlü kimlik doğrulama ve erişim kontrol mekanizmalarının yokluğu önemli güvenlik ve mahremiyet endişelerini beraberinde getirir. Zayıf kimlik bilgileri, yetersiz kimlik doğrulama protokolleri ve yetersiz mahremiyet koruma IoT sistemleri içindeki başlıca zafiyetlerdir. Bu sorunların ele alınması, kullanıcı ve sistem güvenliğini artırmak ve IoT teknolojilerinin daha geniş bir şekilde benimsenmesini sağlamak açısından önemlidir. Bu tez, IoT güvenliği bağlamında kullanıcı kimlik doğrulama, erişim kontrolü ve mahremiyet gibi kritik konuları, özellikle akıllı ev ortamlarına odaklanarak incelemektedir. Yetkisiz erişimi önlemek ve kişisel verilerin mahremiyetini sağlamak için detaylı ve dinamik bir erişim kontrolü esastır. Bu bağlamda, Öznitelik Tabanlı Erişim Kontrolü(ABAC) modeli uygun bir yaklaşım olarak ortaya çıkmaktadır. Bu tez, ABAC modelini üç aşamada genişletmektedir. İlk aşamada, genişletilmiş ABAC modeli, kullanıcı kimlik doğrulama sırasında elde edilen biyometrik eşleşme puanına (AMS) dayalı olarak kimlik doğrulama güvence seviyesini belirlemek için yenilikçi bir yöntem sunmaktadır. Bu puan, önceden tanımlanmış eşiklerle karşılaştırılarak, kullanıcının rolü ve kimlik doğrulama güvence seviyesi temelinde ince ayar yapılmış erişim kontrol kararları alınmasına olanak tanır. İkinci aşamada, ABAC modeli Kimlik Doğrulama Yeteneğine Sahip ABAC modeli olarak genişletilmiştir(AeABAC). Erişim kararı verme sürecini geliştirmek için performans ölçütleri modele entegre edilmektedir. Yanlış Eşleşme Oranı (FMR) hesaplanarak ve Erişim Karar Belirsizliği Skoru (ADUS) tanımlanarak, AeABAC modeli, geniş biyometrik kimlik doğrulama cihazları ve algoritmaları yelpazesi arasında etkili normalizasyon sağlamaktadır. Cihaz işlevselliği, kritik, önemli ve temel kritiklik seviyelerine göre kategorize edilerek buna göre erişim kararları alınır. Bu yaklaşım, özellikle biyometrik kimlik doğrulamanın yaygın olduğu akıllı evlerde, IoT ortamlarında erişimi kontrol etmek için daha esnek ve ölçeklenebilir bir yöntem sunmaktadır. İlk iki aşama, akıllı ev ekosistemlerinde sistemden kullanıcıya güven oluşturmaya odaklanmaktadır. Üçüncü ve son aşamada, kullanıcının mahremiyetinin korunmasına yönelik sorunlara etkili çözümler üretilmesine odaklanılmıştır. Kimlik doğrulama ve yetkilendirme süreçleri, sistem güvenliğini sağlamaktadır (sistemden kullanıcıya güven); ancak bu aşamadan sonra, sistemlerin istenen işlevi yerine getirebilmesi için kullanıcıların hassas verilerine ihtiyaç duyulmaktadır. Bu noktada kullanıcılar, mahremiyetlerinin korunmasına öncelik vermek isterler (kullanıcıdan sisteme güven). Bu tezde, kullanıcıların veri mahremiyetine olan güvenlerini artırmak amacıyla, AeABAC modeline Risk Tabanlı mahremiyet Yaklaşımı entegre edilerek RBP-AeABAC modeli önerilmiştir. Önerilen yaklaşım, akıllı ev ortamında mahremiyet profillerini tanımlayarak veri ifşa olasılığını ve potansiyel zararları (ifşa etkisi) değerlendiren bir mahremiyet riski analizi sunmaktadır. Bu sayede, veri toplama ve ifşa süreçlerinde şeffaf ve güvenilir bir koruma sağlanarak kullanıcı mahremiyetini güvence altına alınmaktadır. Model, kullanıcı mahremiyetini gözeterek veri ifşasının olasılığı ve etkisini değerlendirip, kullanıcıların bilinçli kararlar alabilmesine olanak tanır. Kullanıcı tanımlı mahremiyet profilleriyle özelleştirilen bu yaklaşım, bireysel mahremiyet ihtiyaçlarına yönelik korumalar sunmaktadır. Modelin uygulanabilirliği çeşitli kullanım senaryolarıyla gösterilmiştir. Bu tez kapsamında genişletilen ABAC modeli sadece akıllı evlerdeki IoT cihazlarının güvenliğini güçlendirmekle kalmayıp, aynı zamanda mahremiyet risklerini yönetmek için kapsamlı bir çerçeve oluşturmaktadır. Biyometrik kimlik doğrulama, performans metriklerine dayalı erişim kontrolü ve mahremiyet risk değerlendirmelerini birleştirerek, bu tez, IoT ortamlarında kullanıcılar ve sistem arasındaki iki yönlü güveni artıran yenilikçi bir çözüm sunmaktadır. Gelecek araştırmalar, modelin ölçeklenebilirliğini ve daha büyük IoT ekosistemlerindeki uygulanabilirliğini inceleyecektir.
  • Doctoral Thesis
    Düsük Güç Tüketimi ve Yüksek Basarim için Özgün Uyarlanabilir Gömülü Sistem ve Bellek Tasarimlari
    (TOBB ETÜ, 2022) Koç, Fahrettin; Ergin, Oğuz
    Modern gömülü sistemler ve bilgisayarlarda düşük güç tüketimi sağlamak için bu sistemlerin en önemli parçası olan bellek yapılarında enerji kayıplarını azaltan çözümlere ihtiyaç vardır. Ancak bu çözümlerin başarımda istenen seviyeyi düşürmemesi ve hoş görülemez alan kaybına neden olmaması beklenir. Çağdaş bilgisayar mimarilerinde en çok kullanılan bellek yapılarından biri, Dinamik Rasgele Erişimli Bellek (DRAM)'lerdir. DRAM'i oluşturan bit hücreleri, belirli bir süre herhangi bir erişim olmaksızın veri saklayabilmekte ancak belirli süreden sonra erişim yapılmazsa sızdırma akımları nedeniyle veri kaybı olmaktadır, bu nedenle periyodik olarak DRAM hücrelerine erişilmesi ve yenilenmesi (Refresh) gerekmektedir. Bu işlem ise, hem güç tüketimi hem de başarım açısından oldukça maliyetlidir. Tez kapsamında, farklı koşullar/girdilere göre DRAM'in devre parametrelerini (besleme gerilimi veya alttaş kutuplama gerilimi) kendisinin değiştirilebildiği özgün Uyarlamalı DRAM (Adaptive DRAM) tasarımları (Geliştirdiğim üç tasarımdan ikisi; 2019/17243 ve 2019/13677 patent numarası ile tescillenmiştir, üçüncüsü; 2019/10444, tescil sürecindedir.) önerilmektedir. Önerilen tasarımların herhangi biri, DRAM'e kıyasla en az %21 daha düşük güç tüketimi sağlamaktadır, ve sadece %10'dan daha az gecikmeye neden olmaktadır. Ayrıca, özgün ADRAM tasarımlarımız, girdilere göre, ihtiyaç duyulan toplam yenileme sayısında %34 ile %81,8 aralığında düşüş sağlayabilmektedir. Durağan Rasgele Erişimli Bellek (SRAM) diğer bir önemli bellek birimidir. SRAM için sızdırma akımları küçülen transistör boyutları (kanal genişliği, ısıl yükler vb.) nedeniyle büyüyen bir problemdir. Bu problemi çözmek için, birden fazla hücre içeriği uyarlamalı ve bu uyarlamayı birden fazla hücreye dağıtan Multi-contents Aware SRAM (MASRAM) tasarımı önerilmektedir. MASRAM, 64 bit gruplu hücre öbeği için en az %74 ihtimalle %35'e varan durağan enerji kaybı düşüşü sağlayabilmektedir (15. ve 47. bit'lere göre alttaş kutuplama gerilimi 64 hücreye uygulandığında), ve sadece %1'lik bir alan artışına neden olur. Gömülü sistemlerden uç cihazlara, hava savunmadan yapay zeka uygulamalarına, Alanda Programlanabilir Kapı Dizileri (FPGA) kullanımı, yeniden programlanabilir yapısı nedeniyle yaygınlaşmaktadır, ve FPGA'lerde güç tüketiminin önemi de artmaktadır. Düşük güç tüketimi için önerilen çözümlerden biri, FPGA'lerde "gerilim düşürme"'dir. Ancak, bu yöntem güvenilirlik endişesi oluşturmamalı, ve istenen doğruluk seviyesini garanti etmelidir. Tez kapsamında, FPGA tabanlı Evrişimsel Sinir Ağları (CNNs) hızlandırıcılar için gerilim düşürmeye yönelik şu çalışmalar gerçekleştirilmiştir: İlk çalışmada; farklı FPGA'lerde, farklı frekanslarda, farklı CNN denektaşları için gerilim düşürme ile doğruluk ilişkisi araştırılır. İkinci çalışma, -40 ile 50 C arasındaki her sıcaklıkta, 4 farklı nem koşulunda (ilk kez bir FPGA için), farklı gerilimlerde CNNs koşturularak; gerilim düşürmenin doğruluklara etkisinin farklı zorlu şartlar altında karakterizasyonu sağlanır. Ayrıca, FPGA tabanlı CNN hızlandırıcıların güç verimliliğinde; temel tasarıma kıyasla %65 artış sağlayan, 3 özgün güvenilir gerilim düşürme tasarımı önerilmiştir. Son çalışmada ise, ilk kez, şu 2 etki keşfedilmiştir: CNN hızlandırıcı FPGA'lerde belirli bir düşük voltajda artan sayıda CNN iterasyonu ile doğrulukların azalması (DIE), ve o voltajda yineleme devam ederken geçici olarak yüksek gerilim uygulamanın DIE'a karşı iyileştirici etkisi (RE). Bu etkileri kullanarak, istenen doğruluğu koruyarak en az %43 güç verimliliği artışı sağlayan 3 özgün FPGA gerilim düşürme tasarımı önerilmiştir.
  • Doctoral Thesis
    Yogun Bakim Hastalarinin Mortalite ve Hastanede Kalma Sürelerinin Derin Ögrenme Yöntemleri ile Tahmini
    (TOBB ETÜ, 2022) Bardak, Batuhan; Tan, Mehmet
    Günümüzde dijital dönüşüm hızının artması ile beraber fiziksel olarak saklanan verilerin elektronik ortamlara aktarılması da hız kazanmıştır. Bu durum, birçok alana olduğu gibi sağlık alanına da doğrudan yansımıştır. Geçmişte fiziksel olarak saklanan hastaya ait kayıtlar bu sayede dijital ortamlara geçirilmiştir. Dijital ortama aktarılan hastaya ait demografik bilgiler, laboratuvar sonuçları, yaşamsal gözlem verileri, klinik notlar, tanı kodları ve benzeri birçok veri Elektronik Sağlık Kaydı (ESK) olarak tanımlanmaktadır. Sağlık alanındaki dijital dönüşüme ek olarak, derin öğrenme yöntemlerine olan geniş ilgi, araştırmacıları, finans, sosyal medya, siber güvenlik gibi birçok alanda yapay zeka yöntemlerini kullanmaya teşvik etmektedir. Elektronik sağlık kayıtlarının araştırmacılar için kullanılabilir hale gelmesiyle birlikte, bu veri setlerini kullanarak derin öğrenme modelleri geliştirmeye olan ilgi artmaktadır. Tez kapsamında yapılan deneylerde, günümüzdeki en popüler ve erişilebilir elektronik sağlık kayıt veri seti olan Medical Information Mart for Intensive Care (MIMIC-III) kullanılmıştır. Yoğun bakımda yatan hastaların, yaşamsal gözlem verilerini ve diğer klinik bilgilerini ölçerek, hastaların mevcut sağlık durumlarını anlamlandırmak ve gelecek sağlık durumlarını tahmin etmek önemli bir problemdir. Tez kapsamında, hastaların hastane içinde ve yoğun bakımda mortalite ihtimalleri ile yoğun bakımda 3 ve 7 günden fazla kalıp kalmayacakları çok-kipli derin öğrenme tabanlı yöntemler ile tahmin edilmiştir. Gerçekleştirilen çalışma üç ana bölüme ayrılmıştır. İlk bölümde, yoğun bakımda yatan hastalara ait yaşamsal gözlem verileri, laboratuvar sonuçları gibi özniteliklere ek olarak hastalara ait klinik notlar da model eğitimine dahil edilmiş ve modelin klinik problemleri tahmin etme başarısı arttırılmaya çalışılmıştır. İkinci bölümde, klinik notların doğrudan kullanılması yerine, varlık isim tanıma yöntemi ile notlar içerisinden medikal terimlerin çıkartılması sağlanmıştır. Elde edilen medikal terimlerin, mortalite ve yoğun bakımda kalma süresi tahmini problemlerine etkisi araştırılmıştır. Yapılan son çalışmada ise, hastaların zaman serisi özniteliklerine ilave olarak, hastaların yoğun bakımda kaldıkları süre boyunca kullandıkları ilaçların moleküler temsilleri kullanılmış ve klinik problemlerin tahminine etkisi üzerine deneyler yapılmıştır. Ek olarak, bu çalışma sonunda, hastanede mortalite tahmini için eğitilen modelin açıklanabilirliğini arttırmak amacıyla SHapley Additive exPlanations (SHAP) yöntemi kullanılmıştır. SHAP yönteminin çıktısı, zaman-serisi ve klinik ilaç özniteliklerinin model üzerindeki etkisininin daha derin bir analizinin yapılmasını sağlamaktadır. MIMIC-III veri seti içerisinde hastaya ait farklı veri türlerinin bir arada bulunması, tez kapsamında yapılan deneylerde bu veri türlerinin bir arada kullanılabilmesine ve farklı deneylerin gerçekleştirilebilmesine olanak sağlamıştır. Farklı veri türlerini aynı model içerisinde kullanabilmek için çok-kipli derin öğrenme tabanlı yöntemler önerilmiştir. Yapılan deney sonuçları incelendiğinde, zaman-serisi özniteliklerin yanı sıra hastaya ait klinik notların, medikal terimlerin ve ilaç bilgilerinin modele girdi olarak verilmesinin, klinik problemlerin başarımına olumlu yönde etki ettiği görülmüştür.
  • Doctoral Thesis
    Dinamik Sosyal Ağlarda Akan ve Çok Boyutlu Veri Üzerinden Analiz ve Tahmin Yapılması
    (TOBB Ekonomi ve Teknoloji Üniversitesi, 2020) Sert, Onur Can; Özyer, Tansel
    Makine öğrenmesi teknikleri ve bu tekniklerin uygulanabilir olduğu alanlar, veri miktarının artması ve veriye ulaşımın kolaylaşması ile birlikte oldukça ön plana çıkmıştır. Veri kümeleri üzerinde bu yöntemler kullanılarak farklı alanlara yönelik tahmin modellerinin geliştirilmesi mümkündür. Bunun yanında doğal dil işleme yöntemleri, metin verisinin analiz edilmesi ve anlamlandırılması noktasında birçok farklı yöntemi içerisinde bulundurmaktadır. Yapılan çalışmada, doğal dil işleme yöntemleri kullanılarak, haber ve sosyal medya verisi analiz edilmiştir ve analiz sonuçlarından öznitelik kümeleri oluşturulmuştur. Oluşturulan öznitelik kümeleri ile sayısı fazla olan seyrek öznitelik kümeleri için ölçeklenebilir bir eğitim ve tahmin sistemi ortaya konmuştur. Sistemin geliştirilmesi için, 1 yıllık zaman aralığı içerisinde New York Times web sayfasından 12.560 adet makale ve 4 aylık zaman aralığı içerisinde Twitter isimli sosyal medya platformundan 2.854.333 adet paylaşım toplanmıştır. Toplanan veri üzerinden varlık isimleri tanımlanmış, düşünce analizi yapılmış ve konu modelleri oluşturulmuştur. Geliştirilen sistemin bir başka çıktısı olarak, analizi yapılan metin verileri üzerinden sosyal ağların oluşturulmasını sağlanmıştır ve üretilen sosyal ağların farklı zaman aralıklarındaki değişimleri gözlemlenmiştir. Elde edilen analiz sonuçları ve sosyal ağlar doğrultusunda öznitelik kümeleri oluşturulmuş ve bu öznitelik kümeleri ile elastik ağ regresyonu temelli bir eğitim yöntemi geliştirilmiştir. Önerilen bu sistem ile birçok farklı veri kümesinin analiz edilebileceği ve bu analizler doğrultusunda farklı değerleri tahmin etmeye yönelik tahmin modellerinin geliştirilebileceği görülmüştür. Bunun bir örneğini ortaya koymak adına Dow Jones endeksinin yönünün tahmini bir vaka olarak seçilmiştir. Önerilen eğitim yöntemi ile farklı modeller eğitilmiş ve eğitilen bu modeller ile Dow Jones endeksinin hareket yönünün tahmin edilmesine yönelik deneyler yapılmıştır. Bu deneyler sonucunda, önerilen eğitim yönteminin, umut vaat edici sonuçlar veren tahmin modelleri ortaya koyduğu gözlemlenmiştir. Farklı deney gruplarının sonucunda, yüksek oranda tutarlı (70,90% değerine varan) sonuçlar elde edilmiştir. Elde edilen tahmin sonuçlarının aynı zamanda gerçek Dow Jones endeks değerleri ile pozitif bir korelasyon (0,2315 korelasyon katsayına değerine varan) içerisinde olduğu da gözlemlenmiştir. Son kısımda, farklı öznitelik kümeleri ile eğitilen tahmin modellerinin sonuçları birbiri ile karşılaştırılmış ve öne çıkan zaman aralıkları ve öznitelik kümeleri analiz edilmiştir. Deney sonuçları, haber ve sosyal medya verisinin, doğal dil işleme yöntemleri ile analiz edilmesinin ve analiz sonuçlarının tahmin modellerinin eğitimi için kullanılmasının finans alanında tahminler yapmak için değerli olduğunu göstermiştir.
  • Doctoral Thesis
    Büyük Veri ve Akan Verinin Mahremiyet Korumalı Anonimleştirilmesi
    (TOBB ETÜ Fen Bilimleri Enstitüsü, 2020) Sopaoğlu, Uğur; Abul, Osman
    Traditional data anonymization methods have been developed only for static datasets, where the scalability has usually been disregarded. With the diversified increase of big data and streaming data needs in recent years, the scalability and dynamic nature of data started to come to the foreground. Although studies have been proposed in the literature to provide big data and streaming data privacy solutions, more effective and high coverage data anonymization methods are needed due to various traits of the problem. Within the scope of this thesis, more effective and high coverage anonymization methods have been studied to ensure big data and streaming data privacy. Apache Spark is among the most advanced technologies and platforms in the field of big data processing. In this thesis, a distributed big data k-anonymization method is proposed, which takes big data anonymization as a special case of big data processing and uses the top-down specialization search technique on the domain hierarchy of quasi-identifier attributes. Information gain - privacy loss metric is used as the search criteria. The effectiveness and the scalability of the method have been demonstrated on extended real datasets. The solutions developed for k-anonymization of data streams in the literature are low coverage solutions that formulate the problem as a single-objective optimization problem that tries to minimize the information loss metric on quasi-identifier attributes. High coverage solutions have been proposed for the needs identified within the scope of the thesis and their effectiveness on real data sets has been shown through extensive experimental evaluations. First, a multi-objective optimization framework is proposed to minimize the information loss and average delay together for streaming data. Thus, the data utility for streaming data is measured as a function of the data quality measured by the information loss metric and the data aging measured by the average delay metric. In the proposed method, the component weights can be tuned by the user. Moreover, a custom information loss metric is introduced. Secondly, a down-stream data analysis process aware k-anonymization framework is proposed. Many data recipients are known to run classification data mining tasks on the anonymized data. Therefore, in this study, besides minimizing information loss, maximizing classification accuracy is another objective. In fact, in case there exists sensitive attributes in addition to the quasi-identifier and the classification target attributes, the sensitivity of these sensitive attributes should be maintained at the highest level. The proposed method solves this three-objective optimization problem, the weights of which can be tuned by the user.
  • Doctoral Thesis
    Veri Madenciliği Teknikleri Kullanarak Bir İlaç Sınıflandırma Çatısı Gerçekleştirimi
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2017-01-01) Onay, Aytun; Abul, Osman
    Virtual screening of candidate drug molecules via machine learning methods plays a key role in pharmaceutical industry to prevent adverse effects of the drugs. Computational classification methods can distinguish approved drugs from withdrawn ones. In this study, we focused on 3 various applications on drugs. We studied with different machine learning strategies to distinguish approved and withdrawn drugs. To begin with, 760 molecular descriptors such as ToxPrint Chemotype, global molecular, size and shape were calculated to study classification and feature selection problems for each drug molecule in this study. In first application, SVM and ensemble methods were applied on drug data sets to categorize more than 400 drugs belonging to nervous system and various disease groups as approved or withdrawn. Accuracy rates were found between 0.74 and 0.89 for data sets. Here, feature selection methods which were applied on drug data sets increased classification performance values. The number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds descriptors were found as more significant descriptors to form model for nervous system drugs. Moreover, the fragmans located in minimum 60 % of nervous system withdrawn drugs were determined via application of gSpan algorithms on drug data sets. This is the first report that describes distinction of withdrawn and approved drugs pertaining to the spesific disease on the data sets. In the second part of study, 558 drugs with various disease groups were classified in 3 basic levels with hierarchical multi-label classification via Clus-HMC-Ens algorithms. While first level includes all drugs, second level consists of 3 groups of drugs. These are approved nerveous system drugs, approved drugs of various disease groups and withdrawn drugs. Last level has drugs of 5 different groups according to Anatomic Therapeutic Chemical classification of nerveous system drugs. In this application, some paremeters were selected for classification of drugs hierarchically. Selected paremeters such as FTest, w_0, k, classification treshold, m-estimate increased estimation performance of model. In last part of study, more than 1200 approved and withdrawn drugs were studied. Molecular identifiers that are effective in classification models have been identified by an effective feature selection strategy proposed in the thesis. ToxPrint chemotypes, effective descriptors, were used for determination of a number of rules in drug molecules. Available/unavailable chemotypes were analysed in approved/withdrawn drugs on drug data sets. While chemotypes such as bond:NN_hydrazine_alkyl_HH2 only presented in withdrawn drugs, ones such as bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose etc. just examined in approved drugs. A model for classifier ensemble design was proposed on the unbalanced drug data set. Accuracy of 0.80 was obtained for the test set in order to classify the drugs as approved and withdrawn. Developed model in this study can be used as a simple filter in drug modelling to eleminate drug candidate molecules.
  • Doctoral Thesis
    Zenginleştirilmiş İskelet Noktaları ile Verimli 2b ve 3b Şekil Geri Getirme
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2016) Şirin, Yahya; Demirci, Muhammed Fatih
    With the latest innovations in computer science, digital images have come to be used in field such as multimedia devices, computer aided design, digital libraries, and electronic commerce. Effective and efficient image recognition has become critically important with the increase in 2D and 3D images. For this reason, studies in fields such as pattern recognition, computer graphics, machine vision, and applied mathematics are being carried out in image recognition. In this thesis, a new shape recognition algorithm proposed by drawing a circle with increasing radii for 2D images, and spheres for 3D shapes is introduced. As every skeleton corresponds to the center of a maximum tangent sphere, the spheres drawn remain partially in the shape after this operation. The ratio between the remaining part of the sphere (circle) in the shape and the total number of pixels, is used to differentiate skeleton similarities and shapes. Also with this study, a comparison has been made with previous techniques and experimental evaluation and operations have been presented to show the effectiveness of the algorithm.
  • Doctoral Thesis
    Zaman Serisi Verilerinin Derin Yapay Sinir Ağları ile Analizi ve Eniyilemesi : Finansal Tahmin Algoritmaları
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2018) Sezer, Ömer Berat; Özbayoğlu, Ahmet Murat
    Time series data is analysed with different methods in terms of statistical / mathematical analysis, signal processing, feature extraction, pattern recognition, machine learning and deep learning methods. By analysing the time series data, future values of the data can be estimated. In the analysis of financial time series data, as financial technical analysis indicators are used, machine learning and deep learning algorithms are also used. However, models that integrate technical analysis data with deep neural networks are rarely seen in literature. With the proposed thesis, as a contribution to literature, technical analysis data and deep convolutional neural network are combined. The difference between the proposed models and the existing methods can be explained as follows: Technical analysis data is applied on the prices to create feature vectors and matrices (two-dimensional images) and the financial time series data is converted into a classification problem. In this thesis, our aim is to develop methods that can make financial forecasts in the medium and long term, making stable decisions that can provide maximum profit. In line with these objectives; financial technical analysis indicators, genetic algorithm, deep multilayer perceptron, deep convolutional neural network were used to develop novel algorithms and methods. Four different models were proposed in the thesis. The proposed algorithms were run in a real financial evaluation scenario and results were compared with Buy&Hold strategies, RSI and SMA models, LSTM and MLP regression methods. It has been observed that the obtained results provide better performance when compared to the widely used Buy&Hold models and machine learning models in the literature. Proposed models can be adapted to different time series to be utilized in various use cases.
  • Doctoral Thesis
    Metin Tabanlı İnsan Etkileşim İspatı Sistemleri için İnsan Hesaplama Kullanımı
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2016) Kızılöz, Hakan Ezgi; Bıçakcı, Kemal
    Human-Interaction Proofs (HIPs) are used to mitigate automated attacks. They are assumed to be easily passed by humans but not by computers or automated programs. Security and usability have always been a critical problem for HIPs, especially when "accessibility" is a system requirement. Audio HIPs usually cannot reliably distinguish attacks from legitimate use; they are either easy, and can be automatically solved, or hard even for humans. Even though purely text-based HIPs have desirable usability and accessibility attributes; they could not overcome the security problems yet. Given the fact that fully automated techniques to generate pure-text HIPs securely do not exist, leveraging human computation for this purpose is proposed in the thesis study. In the study, the usability of a currently used pure-text HIP service, textCAPTCHA, is compared against Google's reCAPTCHA. After analyzing the results, a system called SMARTCHA is designed and implemented. SMARTCHA involves a security engine to perform automated proactive checks on the security of human-generated HIPs and also a module for combining human computation with automation to increase the number of HIP questions. HIP operators were employed in three human computation studies, in which they generated around 22,000 questions in total for SMARTCHA system. The methodology, efficiency and results of these human computation studies are analyzed in detail. The usability of SMARTCHA system is evaluated with a large user study of 372 participants. Users found solving pure-text HIPs of SMARTCHA system significantly more enjoyable than solving reCAPTCHA visual HIPs. The effects of question pre-filtering and use of automation techniques are also evaluated in the study. Results suggest that question pre-filtering reduces solving time of SMARTCHA, whereas applying automation techniques increase it. Another user study among 31 visually impaired users helped evaluation of accessibility. The study results show that SMARTCHA takes less time and is more enjoyable to solve than the new reCAPTCHA audio HIPs. Both studies suggest that pure-text HIPs could be a promising solution for secure, usable and accessible HIPs.
  • Doctoral Thesis
    Kablosuz Algılayıcı Ağların Ağ Ömrünü Maksimize Etmek için İletim Gücü Seviyesi ile Veri Paket Boyunun Müşterek Eniyilenmesi
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2016) Akbaş, Ayhan; Özbayoğlu, Ahmet Murat; Tavlı, Bülent
    In pursuit of better energy efficiency and enhanced network lifetime in Wireless Sensor Networks (WSNs), two crucial factors are data packet size and the transmission power level. Smaller packet size reduces the overall impact of bit error rates on packet loss, however, the consequence of smaller packet size is fragmentation into more data packets and thereby dissipation of increased energy. Hence, there emerges a delicate engineering tradeoff in deciding the data packet size where both low and high data packet size decisions lead to certain energy inefficiency issues. On the other hand, increasing transmission power level decreases packet loss probability, which is another decision variable to optimize for maximizing network lifetime. Joint consideration of these two factors exacerbates the complexity of the optimization problem for the objective of the network lifetime maximization. In this study, we utilized a realistic WSN link layer model built on top of empirically verified energy dissipation characteristics of Mica2 motes and WSN channel models. We make use of the aforementioned link layer model to form a novel Mixed Integer Programming (MIP) framework for joint optimization of transmission power level and data packet size to take up the challenge introduced above. Numerical evaluations of the MIP framework with discussion of the results over a large parameter space are performed to characterize the effects of joint optimization of packet size and power level on WSN lifetime.
  • Doctoral Thesis
    İşlemci Yazmaçlarının Güç ve Güvenilirlik Açısından Verimsizliğinin Engellenmesi
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2016) Eker, Abdulaziz; Ergin, Oğuz
    Processor register file is one of the most active structures of the processor datapath, interacting with many components in several pipeline stages. However register file has not been well-optimized in terms of energy and data redundancy. In our studies, our goal is to optimize its energy inefficency in the first part and to exploit the inefficient register redundancy for better reliability in the second part. In modern architectures the register file is one of the most energy consuming and frequently used components of the processor. Therefore, reducing the register file power dissipation is critical. In this thesis, we propose schemes that reduce the energy dissipation of the register file by not writing the bits that are not changed. Our schemes rely on the observation that on the average only 10% of the register bits are changed by the instructions at each operation. In this study, we propose a combination of architectural and circuit level techniques that exploit this inefficiency for the register file's write power reduction using an update-based scheme. We show that for a 64-bit datapath it is possible to reduce the energy dissipation of the register file up to 24.85% for individual benchmark programs and by 20.59% on the average across all simulated benchmarks with a negligible performance compromise. Soft errors caused by the cosmic particles or the radiation from the packaging material of the integrated circuits are an increasingly important design problem. With the shrinking feature sizes, the datapath components of the out-of-order superscalar pipeline are becoming more prone to soft errors. Being the major data holding component in contemporary microprocessors, the register file has been an important part of the processor on which researchers offered many different schemes to protect against soft errors. We start with the observation that many of the stored values inside the register file have very small Hamming distances when compared to each other. After showing this analysis results we propose a soft error correction scheme that makes use of the presence of multiple register values that have zero Hamming distance from each other. We use this already available redundancy along with parity protection to achieve error correction for many of the stored values. We also extend the coverage of our scheme to offer coverage for values that are small hamming distances apart from each other. Our results show that, by employing schemes that make use of the already available copies of the values inside the register file, it is possible to protect 20.5% of the registers from soft errors with an additional power consumption of 2.8%. If we include the extension which duplicates active registers to idle registers to increase redundancy, protection coverage increases to 44.1% of the register file, with an increased power dissipation of 18.9%. Instead of duplicating, with negligible power overhead, it is possible to extend the coverage to 39.8% by exploiting the values that differ only a few bits in their least significant byte.
  • Doctoral Thesis
    Kablosuz Algılayıcı Ağlarda Yaşam Süresi Enbüyüklemesi için Gezgin Baz İstasyonu Konumlandırma Eniyilemesi
    (TOBB University of Economics and Technology,Graduate School of Engineering and Science, 2015) Çayırpınar, Ömer; Kadıoğlu Ürtiş, Esra; Tavlı, Bülent
    The success of widespread deployment of and associated research efforts on the Wireless Sensor Networks (WSNs) is undisputed. Yet, there is still room for exploring and improving many aspects of WSNs as well as fully grasping intricate performance related details of some less-than-completely charted topics. WSNs are ad-hoc networks usually used for monitoring a particular area by a large number of sensor nodes. The most important factor making this possible is indisputably the removal of restrictions on the production costs of the sensor nodes in high quantities due to the help of innovations and developments in semiconductor technologies, wireless communications, networking and materials science. In WSNs sensor nodes usually have limited resources such as energy, communication distance, bandwidth, computing power and memory size. After the limitations related to the cost and hardware are met by the progress on semiconductor, network, and materials science; energy becomes the most critical resource for WSNs. Therefore, as one of the most crucial design goals of WSNs, network lifetime maximization through efficient utilization of energy is quite necessary. Although it is understood that balancing the energy in multi-hop data relaying towards a static sink prolongs network lifetime, some nodes usually end up with dissipating their energy unevenly and suffer from a problem generally known as the hot-spot problem. Base station position in WSNs has a significant impact on the network lifetime. The network's lifetime is inversely proportional to the total energy spent in the sensor nodes. The energy consumption for the communication which forms the largest portion of this energy is directly related to the base station location in the network. Therefore, sink mobility has been proposed in the literature to mitigate the suboptimal energy dissipation and the hot-spot problem. Sink mobility increases the sensor network lifetime, significantly, in certain network configurations. However this increase is shown to be limited if only a single mobile sink is used. In this study, our goal is to gain some more insight about the performance of base station mobility under different mobility patterns, to counter the sub-optimal energy dissipation. Also, an optimum base station mobility pattern is developed and the results are compared with the already known mobility routines such as grid, random, and spiral mobilities. Additionally, we develop a novel Mixed Integer Programming (MIP) framework to model and characterize achievable WSN lifetime trends for static and dynamic mobile sink trajectories. The effects of base station mobility on the network lifetime are characterized by solving the models within a wide parameter space. Our results shed more light into the energy efficiency characteristics of the optimal multiple sink mobility patterns, the efficacy of multiple sinks as opposed to a single one, and the tradeoff between static versus dynamic sink trajectories.
  • Doctoral Thesis
    Kablosuz Algılayıcı Ağlarda Ağ Yaşam Süresinin Matematiksel Programlama ile İncelenmesi
    (TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü, 2013) Çotuk, Hüseyin; Bıçakcı, Kemal; Tavlı, Bülent
    According to the needs of typical applications, wireless sensor nodes are designed to be low-cost, small-sized, and energy-efficient devices. In order to satisfy these production requirements, they generally have scarce resources like energy, bandwidth, communication range, processing power, and memory. After the limitations related to cost and hardware are met by the progress on semiconductor, network, and materials technologies; energy becomes the most critical resource for Wireless Sensor Networks (WSNs). So, recent studies about WSNs concentrated on developing energy-efficient solutions to optimize network lifetime. However, most of these studies ignored the effect of finite bandwidth and discretization of transmission power on WSNs. On the other hand, there are different types of transmission power assignment strategies studied so far, and while it is evident that more fine-tuned power assignment improves network lifetime, the net impact of these strategies remains unclear. In this study, we develop novel mathematical programming frameworks which enable us not only to examine the effects of limited bandwidth and discrete transmission power control, but also to quantify the impact and make a systematic comparison of various power assignment strategies. We analyze the network bandwidth from several aspects with various system parameters. In order to obtain optimal network lifetime with specific parameters, we expose the methodology to determine the minimum amount of required bandwidth. We also investigate the effects of the granularity of power levels on energy dissipation characteristics. Different types of power assignment strategies are analyzed by using two sets of experimental data to compare the performance of these strategies in terms of network lifetime and link bandwidth. In order to see the effects of probabilistic radio propagation, widely used log-normal shadowing path loss model is adopted into existing models. Our results show that, link bandwidth affects network lifetime within a specific range. As interference rises, the amount of required bandwidth to obtain optimum lifetime increases as well. The granularity of discrete energy consumption has a profound impact on WSN lifetime and when discretization level ascends, network lifetime generally lessens. Results expose that while more fine-grained control of transmission power improves network lifetime, it also requires much more bandwidth.