python logo

Pandas DataFrame ve Kod Örnekleri

Merhaba arkadaşlar, önceki yazımda kısaca Pandas ile CSV dosyalar nasıl okunur ve yazılır onu görmüştük. Bu yazımda da Pandas ile çeşitli örnekler yapacağız.

Pandas DataFrame Nedir?

DataFrame, iki boyutlu veriler ve karşılık gelen etiketleri içeren bir yapıdır. Veri bilimi, makine öğrenmesi, bilimsel hesaplar ve diğer birçok verinin yoğun olduğu alanlarda kullanılmaktadır.

DataFrame, Sql tabloları veya Excel gibi tablolara benzetilebilir. Fakat Numpy kütüphanesi de kullanıldığında hesaplama yapmak için excel’den çok daha hızlı, güçlü ve kullanımı da daha kolaydır.

Pandas kütüphanesini Python’da çağırarak örneklerimizi inceleyelim.

import pandas as pd

şeklinde kütüphanemizi içe aktarabiliriz.

Ben örneklerde kullanmak için isim, şehir, yaş ve puan alanlarının olduğu bir DataFrame oluşturacağım. Bu datamızın excel hali aşağıdaki gibi olsun.

pandas dataframe görünüm örneği

Bu verileri incelersek, ilk satır etiketleri(isim, yaş…); ilk sütun ise indisleri tutmaktadır. Yukarıdaki verileri kullanarak Pandas DataFrame oluşturabiliriz.

Pandas DataFrame oluşturmanın birçok yolu bulunmaktadır. Ben sözlük tanımlar gibi tanımlama yapacağım. Daha sonrasında ise bunu DataFrame’e çevireceğim.

#
import pandas as pd

data = {
        'isim': ['Muhammed','Nazli','Fatma','Cem','Faruk','Duygu','Ahmet','Mustafa'],
        'sehir':['Bolu','Eskisehir','Istanbul','Sakarya','Duzce','Istanbul','Sakarya','Duzce'],
        'yas':[22,21,23,22,20,22,21,22],
        'puan':[95,80,82,90,90,84,80,75]}
indeksler = [1,2,3,4,5,6,7,8]

data = pd.DataFrame(data=data,index=indeksler)

Gördüğünüz gibi önce data adında bir sözlük oluşturuyorum. Daha sonra bunu Pandas DataFrame’e çeviriyorum. Bu kodumuzun ve datalarımızın da ekran görüntüsü aşağıdaki gibi olacaktır.

pandas dataframe oluşturma ekran görüntüsü

Göreceğiniz gibi tabloda, index, isim, şehir, yaş ve puan etiketleri ve o etiketlere ait veriler bulunmaktadır. DataFrame oluşturmak işte bu kadar kolay.

Pandas DataFrame’ler bazen(asıl veri bilimine girdiğimizde her zaman) çok büyük olabilir.

Web Ortamında Bulunan CSV Dosyayı Okumak

Yerel bilgisayarımızda bulunan CSV dosyalarını okumak çok kolaydı. Web üzerinden okumak da aslında o kadar kolay. Sololearn üzerinde bulunan bir CSV dosyasını okuyup üzerinde birkaç işlem yapacağız. Data içeriğinden ziyade data inceleme nasıl yapılır kısmını anlatacağım.

Bunun için her zamanki gibi pandas kütüphanemizi ekleyeceğiz. Daha sonra datamızı okuyacağız. İndex kolonu ise ‘name’ olsun.

# Python Pandas ile Web'den csv okuma
import pandas as pd
data = pd.read_csv('https://sololearn.com/uploads/files/president_heights_party.csv', 
index_col='name')

Hemen datamızın shape değerine bakalım. Kaç satır kaç sütundan oluşuyor. Bunun için,

print(data.shape)

yapabiliriz.

Kaç satır veri olduğunu da shape değerimizin birinci indisi ile görebiliriz.

print(data.shape[0])

Data boyutumuzu ise size ile bulabiliriz. Size değeri tüm veri adetini döndürmektedir.

print(data.size)

Datamızı incelemek için tüm datayı yazdırmak yerine ilk 5,10 tanesini yazdırabiliriz. Bunun için head kullanıyoruz.

print(data.head())

şeklinde olursa baştan 5 tane gösterecektir. Eğer belli sayıda göstermesini istiyorsanız bunun için head metoduna değer verebiliriz.

print(data.head(10)) veya print(data.head(n=3)) şeklinde verebilirsiniz.

Ve tüm data hakkında bilgi almak istersek,

print(data.info())

kullanabiliriz.

Bu anlattığım kısmında hepsi aşağıda yer almaktadır.

import pandas as pd
data = pd.read_csv('https://sololearn.com/uploads/files/president_heights_party.csv', 
                   index_col='name')

print(data.shape)
print(data.shape[0])
print(data.size)

print(data.head())

#print(data.head(n=3))
#print(data.head(10))

print(data.tail())

print(data.info())

Bu sayede en çok kulllanılan metodları görmüş ve örneklerini yapmış olduk.

pandas kütüphanesi örnek ekran görüntüleri

Şimdi ise sadece belli bir kısmı almak için ne yapıyoruz onları inceleyelim. Bunun için iki tane anahtar kelimemiz bulunuyor. Birisi loc diğeri ise iloc. Gelin kullanımına bakalım.

Bir ABD başkanının özelliklerini bulmak için,

print(data.loc[‘Bill Clinton’])

şeklinde girersek bize Bill Clinton’a ait verileri gösterecektir.

Birkaç kişiye birlikte bakabiliriz. Örnek olarak Bill Clinton ile Barack Obama arasına bakmak istersek,

print(data.loc[‘Bill Clinton’,’Barack Obama’])

şeklinde yazabiliriz.

Sayısal veri vermek istediğimiz de ise iloc kullanıyoruz.

print(data.iloc[40])

Benzer şekilde aralık almak istersek aynı loc gibi,

print(data.iloc[40:43])

yazabiliriz.

Şimdi de kolon olarak sadece istediğimiz kolonları yazdıralım. Bunun için data[[‘kolon_adı’]] kullanıyoruz.

print(data[[‘age’,’height’]])

şeklinde oluşturabiliriz fakat bize tüm datayı yazdıracaktık. Bu yüzden biz ilk 5 veriyi alalım.

print(data[[‘age’,’height’]].head())

[the_ad id=”1292″]

Buraya kadar da tüm kodlar aşağıdadır.

import pandas as pd
data = pd.read_csv('https://sololearn.com/uploads/files/president_heights_party.csv', 
                   index_col='name')

print(data.shape)
print(data.shape[0])
print(data.size)

print(data.head())

#print(data.head(n=3))
#print(data.head(10))

print(data.tail())

print(data.info())

print(data.loc['Bill Clinton'])
print(data.loc['Bill Clinton':'Barack Obama'])

print(data.iloc[40])
print(data.iloc[40:43])

print(data[['age','height']])

print(data[['age','height']].head())

 

Umarım faydalı olmuştur. Eksik, hata veya isteğiniz varsa yorum yapabilir, iletişim sayfası üzerinden mesaj yollayabilirsiniz.

Bunlara Göz Atmak İsteyebilirsiniz

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir