CCL

Összesen 5 találat.
#/oldal:
Részletezés:
Rendezés:

1.

001-es BibID:BIBFORM122768
Első szerző:Gál Zoltán (informatikus)
Cím:Deep Learning-Based Analysis of Ancient Greek Literary Texts in English Version: A Statistical Model Based on Word Frequency and Noise Probability for the Classification of Texts / Gál Zoltán, Tóth Erzsébet
Dátum:2024
ISSN:2061-2079
Megjegyzések:In our paper we intend to present a methodology that we elaborated for clustering texts based on the word frequency in the English translations of selected old Greek texts. We used the classification system of the ancient Library of Alexandria, devised by the prominent Greek scholar-poet, Callimachus in the 3rd century BC., as a basis for categorizing literary masterpieces. In our content analysis, we could determine a triplet of a, b, c values for describing a power function that appropriately fits a curve determined by the word frequencies in the texts. In addition, we have discovered 16 special features of the different texts that correspond to various token categories investigated in each text, such as part of speech of the word in the context, numerals, subordinate conjunction, symbols, etc. We have developed a cognitive model in which several hundred different subtexts were utilized for supervised learning with the aim of subtext class recognition. Concerning 200 subtexts, the triplet of a, b, c values, the classes of the subtexts, and their 16-dimensional feature vectors were learnt for the Recurrent Neural Network (RNN). It turned out that the Long-Short Term Memory RNN could efficiently predict which class a chosen subtext could be categorized into without considering the interpretation of the content. The influence of the non-zero error rate of new communication services on the meaning of the transferred texts was also investigated. The impact of the noise on the classification accuracy was found to be linear, dependent on the character error rate.
Tárgyszavak:Műszaki tudományok Informatikai tudományok idegen nyelvű folyóiratközlemény hazai lapban
folyóiratcikk
mélytanulás
ókori görög irodalmi szövegek
szövegklaszterezés
zajos szövegek
Pinakes
text classification
automatic content analysis
Recurrent Neural Network (RNN)
Long-Short Term Memory
Megjelenés:Infocommunications Journal. - 16 : Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality (2024), p. 2-11. -
További szerzők:Tóth Erzsébet (1972-) (informatikus könyvtáros)
Pályázati támogatás:TKP2021-NKTA-34
Egyéb
Internet cím:Szerző által megadott URL
DOI
Intézményi repozitóriumban (DEA) tárolt változat
Borító:

2.

001-es BibID:BIBFORM097832
Első szerző:Gál Zoltán (informatikus)
Cím:Deep learning-based analysis of ancient Greek literary texts: A statistical model based on word frequency for the classification of texts / Gál Zoltán, Tóth Erzsébet
Dátum:2021
ISBN:978 1 6654 2495 0
Tárgyszavak:Műszaki tudományok Informatikai tudományok előadáskivonat
könyvrészlet
szövegek osztályozása
automatikus tartalomelemzés
mély tanulás
ókori irodalmi szövegek
Megjelenés:12th IEEE International Conference on Cognitive Infocommunications: CogInfoCom 2021: Proceedings / ed. Jan Nikodem, Ryszard Klempous. - p. 529-535. -
További szerzők:Tóth Erzsébet (1972-) (informatikus könyvtáros)
Internet cím:Intézményi repozitóriumban (DEA) tárolt változat
Borító:

3.

001-es BibID:BIBFORM122769
Első szerző:Tóth Erzsébet (informatikus könyvtáros)
Cím:Optimizing Text Clustering Efficiency through Flexible Latent Dirichlet Allocation Method: Exploring the Impact of Data Features and Threshold Modification / Tóth Erzsébet, Gál Zoltán
Dátum:2024
ISSN:2061-2079
Megjegyzések:A parallel corpus comprising Croatian EU legislative documents automatically translated into English spans 28 years and is enriched with metadata, including creation year and hierarchical classifier tags denoting descriptors, document types, and fields. However, nearly two-thirds of the approximately 1.5 thousand texts lack complete metadata, necessitating labor intensive manual efforts that pose challenges for human administration. This incompleteness issue can be observed in the case of official legal sites functioning as regular service provisioning databases. In response, this paper introduces an artificial cognitive and multilabel classification approach to expedite the tagging process with only a fraction of the manual effort. Leveraging the Latent Dirichlet Allocation (LDA) algorithm, our method assigns field values or tags to incompletely labeled documents. We implement a Flexible LDA variant, incorporating the influence of topics close to the most probable topic, regulated by a relative probability threshold (RPT). We evaluate the LDA prediction's dependence on document prefiltering and RPT values. Furthermore, we investigate the dependence of quantitative linguistic properties on the type and speciality of pre-processing tasks. Our algorithm, built on error-correcting optimizing codes, succesfully predicts a mixture of topic probabilities for these legal texts. This prediction is achieved by calculating the Hamming distance of binary feature vectors created using the legal fields of the EUROVOC multilingual thesaurus.
Tárgyszavak:Műszaki tudományok Informatikai tudományok idegen nyelvű folyóiratközlemény hazai lapban
folyóiratcikk
Latent Dirichlet Allocation algoritmus
több címkés osztályozás
Természetes nyelvű feldolgozás
jogi szövegek klaszterezése
Ellenőrzött tanulás
Megjelenés:Infocommunications Journal. - 16 : Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality (2024), p. 58-66. -
További szerzők:Gál Zoltán (1966-) (informatikus)
Pályázati támogatás:TKP2021-NKTA-34
Egyéb
Internet cím:Szerző által megadott URL
DOI
Intézményi repozitóriumban (DEA) tárolt változat
Borító:

4.

001-es BibID:BIBFORM115301
035-os BibID:(Scopus)85185533775
Első szerző:Tóth Erzsébet (informatikus könyvtáros)
Cím:Multilabel Clustering Analysis of the Croatian-English Parallel Corpus Based on Latent Dirichlet Allocation Algorithm / Tóth Erzsébet, Gál Zoltán
Dátum:2023
Megjegyzések:A parallel corpus of Croatian EU legislative documents translated automatically to English over 28 years with a year of creation and hierarchical classifier tags including descriptors, document types, and fields considered as meta information assigned to each text. Only two third part of around 1.5 thousand texts have all the fields completed, accomplishing the required manual work too time-consuming for human administration. Similar incompleteness of legal texts may appear in official legal sites operated as regular service provisioning databases. In this paper we proposed an artificial cognitive and multilabel classification method to automatically find the necessary tags for the corpus with just a tiny fraction of the manual tagging time. The Latent Dirichlet Allocation algorithm assigns field values or tags to incompletely labelled documents. The dependence of the quantitative linguistics properties was presented in the function of the type and specialty of preprocessing tasks. We successfully applied this algorithm built on no error correcting optimising codes to predict a mixture of topic probabilities of these legal texts on the basis of Hamming distance of the binary feature vectors created using the legal fields of the EUROVOC multilingual thesaurus.
ISBN:9798350325652 9798350325645
Tárgyszavak:Műszaki tudományok Informatikai tudományok előadáskivonat
könyvrészlet
jogi szövegek
több-címkés osztályozás
Latent Dirichlet Allocation algoritmus
Megjelenés:14th IEEE International Conference on Cognitive Infocommunications : Proceedings / IEEE. - p. 25-32. -
További szerzők:Gál Zoltán (1966-) (informatikus)
Pályázati támogatás:TKP2021-NKTA-34
Egyéb
Internet cím:DOI
Intézményi repozitóriumban (DEA) tárolt változat
Borító:

5.

001-es BibID:BIBFORM104243
Első szerző:Tóth Erzsébet (informatikus könyvtáros)
Cím:A mesterséges intelligencia alkalmazása görög irodalmi szövegek elemzésére / Tóth Erzsébet, Gál Zoltán
Dátum:2022
ISSN:2734-6757
Megjegyzések:Dolgozatunkban egy olyan osztályozási modellt fejlesztettünk ki, amiben több száz különböző ókori görög szövegentitást használtunk ellenőrzött tanulásra abból a célból, hogy az felismerje a szövegentitások osztályát. Meghatároztuk az (a, b, c) hármas értékeit egy olyan hatványfüggvény leírására, amely pontosan illeszkedik a kiválasztott szövegekben lévő szavak relatív gyakorisága által megadott görbére. A 200 darab szövegentitással kapcsolatban az (a, b, c) hármas értékeinek becsléséhez a szövegentitások osztály azonosítóját és a 16 dimenziós tulajdonság ("feature") vektorokat használtuk fel a Visszacsatolásos Neurális Hálózat (RNN - Recurrent Neural Network) betanításához. Arra a következtetésre jutottunk, hogy az LSTM (Long-Short Term Memory) RNN hálózat hatékonyan előrejelezte számunkra, hogy a kiválasztott szövegentitás melyik osztályba sorolható.
Tárgyszavak:Műszaki tudományok Informatikai tudományok előadáskivonat
könyvrészlet
mély tanulás
szövegosztályozás
Visszacsatolásos Neurális Hálózat (RNN)
Long-Short Term Memory hálózat
Megjelenés:XXIII. Energetika-Elektrotechnika - ENELKO és XXXII. Számítástechnika és Oktatás : SzámOkt Multi-konferencia / szerk. Sebestyén-Pál György, Szabó Loránd. - p. 173-179. -
További szerzők:Gál Zoltán (1966-) (informatikus)
Pályázati támogatás:TKP2021-NKTA-34
Egyéb
Internet cím:Szerző által megadott URL
Intézményi repozitóriumban (DEA) tárolt változat
Borító:
Rekordok letöltése1