Zipf Yasası

'Konu dışı (Off Topic)' forumunda acemihacker tarafından 4 Temmuz 2018 tarihinde açılan konu

  1. acemihacker

    acemihacker Ötüken Yolcusu Bronz Üye

    Mesaj:
    212
    Beğeniler:
    80
    Cinsiyet:
    Erkek
    1930 yılında Harvard Üniversitesi’nde dilbilim profesörü olan George Kingsley Zipf tarafından bulunan, herhangi bir insan dilinde yazılmış sözcüklerin kullanım sıklığıyla ilgili yasadır. Konuyu daha detaylı anlatması için sözü ”limon kimyon zorro”ya bırakalım.
    Kelimelerin Kullanım Sıklığını Öngören İlginç Yasa: Zipf Yasasıtürkçe dahil test edildiği her yazılı metinde işlediği görülmüş bir kelime kullanım sıklığı kuralı. zaman içinde bunun da ötesine geçerek biyolojinin hatta evrenimizin fizik kurallarının bir gereği olarak hayatın her alanında da işlediği görülmüştür.

    şimdi önce basitçe ne olduğunu ve neden olduğunu anlatmaya çalışalım. 1930’da amerika’da harvard üniversitesi’nde dilbilim profesörü olan george kingsley zipf ingilizcede en sık kullanılanılan kelimelerin bir istatistik çalışmasını yapıyor. ortaya çıkan veriyi işlediğinde her kelimenin kullanım sıklığının kullanım sırasıyla oranlı olduğunu keşfediyor.

    yani örneklersek türkçede en sık kullanılan kelimeler ve kullanım oranları şunlar;

    1. [ bir ] oran: % 3,348
    2. [ ve ] oran: % 2,319
    3. [ bu ] oran: % 1,353
    4. [ de ] oran: % 0,794
    5. [ da ] oran: % 0,757
    6. [ için ] oran: % 0,670
    7. [ daha ] oran: % 0,524
    8. [ ama ] oran: % 0,520
    9. [ o ] oran: % 0,515
    10. [ gibi ] oran: % 0,496

    (edit* daha sağlıklı veri için kaynaklardaki türkçe makaleye bakalım)

    kelimelerin herhangi bir kitapta kaç kez geçtiğinin istatistiki çalışmasını yaparsak da ortaya şöyle bir sonuç çıkıyor. kitaptaki her kelime kullanım sıklığı ile oranlı olarak diziliyor. yani ikinci sıradaki kelime birinci sıradakinin yarısı kadar kullanılmış oluyor. üçüncü sıradaki kelime birinci sıradakinin üçte biri kadar kullanılmış oluyor. dördüncü sıradaki kelime birinci sıradakinin bir bölü dördü kadar kullanılmış oluyor ve bu böyle devam ediyor.

    buradan ortaya şu çıkıyor ki tüm kelimelerin en sık kullanılan %20lik kesimi günlük ihtiyacımızın %80’ini karşılıyor. bu oran başka alanlarda da çok sık rastlanan bir doğal eğilim. aynı oranı şehir yoğunluklarında, site trafik verilerinde, yemek tariflerinde kullanılan malzemelerde ve daha binerce veride buluyoruz.

    bu öylesine sağlam bir kural ki şu an dünyadaki her dilde yazılmış her kitapta uygulanabildiği görülüyor. öyle ki henüz çevirisini yapamadığımız antik dillerde bile çalışıyor.

    aslında bunun nedeni kesin olarak bilinmiyor ancak hakkında yazılan makalelerde çeşitli olasılıklara değinilmiş durumda. ben bunlardan en ilgimi çeken kısmına değineceğim burada. bu açıklamaya göre insan evrim sırasında özgür biçimde yaptığı seçimleri içgüdüsel olarak güvenli sağlam %20 lik kesimde odaklamanın doğal seçilimde yararını görmüş ve bu veriyi aktarmış.

    öte yandan kümülatif etkili seçimlerde kartopu etkisi de mevcut. yani eğer bir kelime pozitif ayrıma bir nedenle uğradıysa, mesela bu neden kelimenin kısa olması olabilir, o zaman daha da sık kullanılmaya başlıyor.

    biz insanlar tamamen özgür olarak seçim yaptığımızda bile doğamızın ve içgüdülerimizin etkisi altında “şey”leri zipf kanununa göre sıralıyoruz. böylece aslında bir şeyin insan müdahalesi ile şekillendirilip şekillendirilmediğini de yine bu kanunla belirleyebiliyoruz.

    mesela elimize donkişot kitabını alıp kullanılan kelimeleri sıralarsak yazan bir insan olduğu için kelimeler zipf kanununa göre bir grafik çiziyorlar. mesela belirli bir konuda yazılan akademik makaleleri de sıralarsak yine aynı grafiği çiziyorlar. mesela incili alıp sıralarsak yine zipf kanunu ortaya çıkıyor.

    çünkü insan evrende yaşıyor ve evren fizik kanunlarına göre işliyor. bu tek başına neden böyle davranıyoruzu açıklamaya yetmiyor ancak insanın özgürlük algısının ve karar verme mekanizmasının narinliğini gözler önüne seriyor.

    türkçe değerlendirme makalesinde kullanılan veri paketinin hata oranına yol açtığı da belirtilmiş. şerh koymuş olmak için eklemek istedim. makaleden mevzu bahis kısmı aynen kopyalıyorum;

    “çalışma sonucunda elde edilen değerlerin kesin bir ayrımı simgeleyemeyeceği ancak olası ayrım noktalarındaki b değerlerinin ingilizce’de (kornai, 2002) elde edilen sonuçlarla benzer olduğu görülmüştür. üç farklı test derlemi için elde edilen sonuçların birbirinden farklı olması derlemlerin dili modellemekte yetersiz olduğu görüşünü desteklemektedir. ileriki çalışmalarda kelime sayısı yüksek ve konu dağılımı dengeli bir derlemde araştırma yinelenecektir.”



    Arkadaşlar ek olarak ruhi çenetin videosunu izleyebilirsiniz zipf yasası ile ilgili youtube da video yayınladı kendisi!

    alıntıdır!
     
  2. H22k

    H22k Kayıtlı Üye

    Mesaj:
    12
    Beğeniler:
    8
    Cinsiyet:
    Erkek
    oran diyorsun neye oranından bahsediyorsun tam olarak
     
  3. acemihacker

    acemihacker Ötüken Yolcusu Bronz Üye

    Mesaj:
    212
    Beğeniler:
    80
    Cinsiyet:
    Erkek
    youtube dan ruhi çenetin videosunu izlersen anlarsın iyi günler diliyorum.
     

Bu Sayfayı Paylaş