Türk Dilleri için Dil Kaynakları ve Araçları

Türkçe Doğal Dil İşleme Araçları:

İTÜ DDİ grup tarafından hazırlanmış Türkçe Doğal Dil işleme yazılım zinciri

http://tools.nlp.itu.edu.tr/

Türkçe Dil Kaynakları:

TÜRKÇE YAZILI METİNLER ve DİL AĞAÇLARI:

İTÜ DDİ Grubu Tarafından hazırlanan:

IMST Treebank v1.4.1: Bu dil ağacı MST dil ağacının yeniden etikenlenmiş versiyonudur. Elle etiketlenmiş 5635 adet cümle içermektedir.
ITU Web Treebank v.1.5.1: Bu dil ağacında elle etiketlenmiş 5099 adet cümle bulunmaktadır.
IMST-UD Treebank (UD v2.1): IMST dil ağacının UD versiyonudur.
IWT-UD Treebank (TBD): IWT dil ağacının UD versiyonudur.
Turkish PropBank: Bu veri kümesinde 5635 adet PropBank için etiketlenmiş cümle bulunmaktadır.
Turkish PropBank-UD: Türkçe PropBank'in UD versiyonudur.
Normalization Resources: Bu veri kümesinde Türkçe elle etiketlenmiş normalizasyon kaynakları bulunmaktadır.
Named Entity Recognition Resources: Bu veri kümesinde Türkçe elle etiketlenmiş Varlık Anlam Etiketlemesi kaynakları bulunmaktadır.
Turkish Sign Language Dictionary: Türk işaret dili sözlüğü
Turkish Sign Language Treebank: Türk İşaret Dili ağaç yapılı derlem
Turkish Aspect Based Sentiment Analysis Dataset: Türkçe Hedef Tabanlı duygu analizi veri kümesi

Diğer Araştırmacı ve Grupları Tarafından hazırlanan:

TS Corpus: Bu veri kümesinde, Türkçe sosyal medya metinlerinden derlenmiş 491 milyon etiketli girdi (token) bulunmaktadır.
Turkish National Corpus (TNC): TNC 50 milyon çağdaş Türkçe kelimeden oluşan büyük ve genel bir yazılı verili kümesidir.
Bilkent Turkish Writings Dataset: Bu veri kümesinde 2014-2018 yıllarındaki Türkçe yaratıcı yazım dersinden toplanmış içerikler bulunmaktadır. Neredeyse 7000 adet metin CSV formatında indirilebilmek üzere hazırlanmıştır.
Sentiment Lexicons for 81 Languages: Bu veri kümesinde, Türkçe dilini de içeren toplam 81 dil için hem negatif hem pozitif duyusallık sözlüğü bulumaktadır.
Old Newspapers: Bu veri kümesinde, çeşitli gazetelerden, sosyal metinlerden ve blog yazılarından derlenmiş birden fazla dil için hazırlanmış doğal dil yazılı metinleri içermektedir. Bu dillerden biri Türkçe olmakla birlikte toplam 17 milyon cümle ve 67 farklı dil içermektedir.
English/Turkish Wikipedia Named-Entity Recognition and Text Categorization Dataset: Bu veri kümesi, Türkçe ve İngilizce Vikipedi'den derlenmiş ve otomatik olarak kategorize edilip etiketlenmiştir. Etiketlemeler Varlık Anlam etiketlemesi ve veri kategorize etme çalışmalarında kullanılmaktadır.
Turkish UD: Bu veri kümesinde Türkçe-UD etiketlemeleri bulunmaktadır.
Turkish WordNet: Bu sayfada Türkçe için hazırlanmış WordNet'e ulaşabilirsiniz.
trTenTen20: Corpus of the Turkish Web 2020: Bu sayfada web'den toplanmış ve Türkçe için hazırlanmış veri kümesine ulaşabilirsiniz. Toplamda 4,9 milyar kelime içermektedir.
trWaC – Turkish corpus from the web : Bu veri kümesi, internet üzerinden derlenmiş Türkçe metinlerden oluşmaktadır. Toplamda 32 milyon kelime içermektedir.
CHILDES : Bu veri kümesi, çocuk diilerinin çevirisinden hazırlanmıştır, toplam 24 farklı dil için hazırlanmıştır.
ParlaMint 2.1: Bu veri kümesi, Türkçe dahil olmak üzere 17 farklı dil için parlemento tartışma metinleri içermektedir.

TÜRKÇE DİL MODELLERİ:

ELMo: Bu sayfada Türkçe için önceden eğitilmiş ELMo dil modeline ulaşabilirsiniz.
BERT: Bu sayfada Türkçe için önceden eğitilmiş BERT dil modeline ulaşabilirsiniz.
Fasttext: Bu sayfada Türkçe için önceden eğitilmiş Fasttext dil modeline ulaşabilirsiniz.

TÜRKÇE PARALEL VERİ KÜMELERİ:

The English-Swedish-Turkish Corpus: Bu veri kümesinde orjinal yazılı metinler ve Türkçe-İsveççe-İngilizce çevirileri bulunmaktadır. Tüm veri, paragraflar, cümleler ve kelimeler birbirleriyle aynı çizgide olcak şekilde organize edilmiştir.
Bianet Corpus: Bu veri kümesinde 3000 adet Türkçe makale içermektedir. Bu makalelerdeki cümleler Kürtçe veya İngilizce çevirileri ile aynı cizgide olacak şekilde hazırlanmıştır. İçerikleri internet üzerinden yayınlanan Bianet gazetesinin arşivlerinden alınmıştır.
OPUS Parallel Corpora: Bu veri kümesinde, Türkçe dahil olmak üzere 40 farklı dil için hizalı cümleler içermektedir. Böylece kullanıcılar çevirilerini farklı diller için karşılaştırabilmektedir.
OpenSubtitles Parallel Corpora 2018: Bu veri kümesi, Türkçe dahil olmak üzere 58 farklı dil için çevrilmiş film altyazılarından oluşan bir paralel derlem koleksiyonudur.

TÜRKÇE SES VERİ KÜMELERİ:

Spoken Turkish Corpus: Bu veri kümesi, 18 farklı Türk radyosunun sesli kayıtlarını barındırmaktadır. Bu veriler ODTÜ Radyo'sunun arşivlerinden alınmıştır.
Middle East Technical University Turkish Microphone Speech: Bu veri kümesinde, yaşları 19 ila 50 arasında olan toplam 120 konuşmacının hizalı yazılı ve sözlü metinlerini içermektedir. Veri kümesinde kadın/erkek ayrımı yapabilecek özellikler bulunmaktadır ve her konuşmacı en az 40 cümle konuşmaktadır. Veri kümesi toplamda 500 dakikalık konuşma içermektedir.
Turkish Broadcast News Speech and Transcripts: Bu veri kümesi, 130 saatlık Türk radyo yayınlarını ve onların transkriptlerini içermektedir.

Azerice Dil Kaynakları:

en-az-parallel-corpus: Bu veri kümesi, İngilizce-Azerice ve Azerice-İngilizce çevirilerinin içerdiği pararel bir derlemdir.
az-corpus-nlp: Azeri dili için DDİ araçlarında kullanılmak üzere hazırlanmış bir derlemdir.
azWaC: Azerbaijani corpus from the web: Bu veri kümesi, internet üzerinden derlenmiş Azeri metinlerden oluşmaktadır. Toplamda 94 milyon kelime içermektedir.
University of Leipzig corpus collection: Bu derlemde farklı dillerde ama aynı ve karşılaştırılabilir formatta veriler bulunmaktadır. Bunlardan biride Azerice dili içindir, internetten (2011,2013 yıllarında derlenmiş) ve Vikipedi kullanılarak hazırlanmıştır.
Helsinki University corpus: Yeni Ahit'in Azerice dili için çevrilmiş versiyonudur.
azwiki dump: Azerice Vikipedi'nin indirilmiş haline buradan ulaşabilirsiniz.
Azeri at An Crúbadán: Bu derlemde 8M+ kelime Latince arayüzle sunulmaktadır.
Domrachyov-Sudoplatova scraped corpus: Bu derlemde 2189398 kelime ve 100560 cümle Azerice için bulunmaktadır.
AZ summarization: Azerice yazılmış makaleler ve başlıklara buradan erişerek ulaşabilirsiniz.
Awesome Azeri NLP: Azerice dili için hazırlanmış bir çok doğal dil işleme yazılımı ve yayın çalışmalarının listesine bu sayfadan ulaşabilirsiniz.

AZERİCE DİL MODELLERİ:

Polyglot morfessor: Azerice için hazırlanmış önden eğitilmiş morfessor modeline buradan erişebilirsiniz., sayı 53.
fastText : Azerice dili için 300-boyutlu eğitilmiş fasttext dil modeli.

Kazakça Doğal Dil İşleme Araçları:

https://github.com/makazhan/kaznlp

Kazakça Dil Kaynakları:

Almaty Corpus of Kazakh language (NCKL):Bu veri kümesinde toplamda 40 milyon Kazak kelime girdisi içermektedir.
Open Source Kazakh Language Corpus: Bu veri kümesi, Kazak Vikipedisi kullanılarak hazırlanmıştır, toplamda 21 milyon kelime içermektedir ve neredeyse 600.000 farklı kelime varyasyonları bulunmaktadır.
Kazakh UD Treebank: Bu veri kümesinde Kazak-UD etiketlemeleri bulunmaktadır.
kkWaC: Kazakh corpus from the web: Bu veri kümesi, internet üzerinden derlenmiş Kazak metinlerden oluşmaktadır. Toplamda 139 milyon kelime içermektedir.

Kırgızca Dil Kaynakları:

Kyrgyz corpus from the web: Bu veri kümesi, internet üzerinden derlenmiş Kırgız metinlerden oluşmaktadır. Toplamda 19 milyon kelime içermektedir.
Kyrgyz UD: bu veri kümesi yakında gelecek UD dillerin arasında bulunmaktadır, henüz açılmamıştır.

Özbekçe Dil Kaynakları:

Uzbek Corpus: Bu veri kümesi 2017'de yazılı metinlerden hazırlanmıştır. Toplamda 663,119 adet cümle, 706,385 adet tip ve 9,256,001 adet girdi içermektedir.
uzWaC: Uzbek corpus from the web: Bu veri kümesi, internet üzerinden derlenmiş Özbek metinlerden oluşmaktadır. Toplamda 18 milyon kelime içermektedir.

Tatarca Dil Kaynakları:

Corpus of Written Tatar: Bu veri kümesi, modern Tatar dilinden elde edilmiş yazılı metinler içermektedir. Toplamda 500 milyon kelime içermektedir. (>620 milyon girdi kelime).
Tatar National Corpus: Bu veri kümesi, Aralık 2018 itibariyle 180,000,000 girdi kelime içermektedir. Veri kümesi farklı türlerde (kurgu, sosyal media yazıları, resmi dökümanlar, eğitim makaleleri ve bilimsel yazılar vb.) yazılmış yazılı metinler içermektedir.
Tatar Belletristic Literature Corpus: Bu veri kümesi, Tatar yazarlar tarafından yazılmış hem normal makaleler hemde şiirler içermektedir.

Türkmence Dil Kaynakları:

tkWaC: Turkmen corpus from the web: Bu veri kümesi, internet üzerinden derlenmiş Türkmen metinlerden oluşmaktadır. Toplamda 2 milyon kelime içermektedir.

Uygurca Dil Kaynakları:

UyNeRel: Bu veri kümesi, Uygur Varlık Anlam etiketleme derleminden oluşmaktadır.
Uyghur UD: Bu veri kümesinde Uygur-UD etiketlemeleri bulunmaktadır.

Türki Diller için Doğal Dil İşleme Araçları:

Apertium Projesi: Türki diller için biçimbilimsel çözümleyiciler sunmaktadır. Bu çözümleyiciler, veri etiketlemelerinde kullanılmıştır. Örneğin: Yazılı Tatar dili için veri etiketleme. Projede aynı zamanda henüz yayınlanmayan iki küçük Tuvaca ve Kırım Tatarcası veri seti bulunmaktadır.

Eğer siz de veri kümelerinizin bu sayfada yer almasını istiyorsanız lütfen bize bildirin.

Türk Dilleri için Dil Kaynakları ve Araçları Türkçe Doğal Dil İşleme Araçları: