Magyar
Toggle navigation
Tudóstér
Magyar
Tudóstér
Keresés
Egyszerű keresés
Összetett keresés
CCL keresés
Egyszerű keresés
Összetett keresés
CCL keresés
Böngészés
Saját polc tartalma
(
0
)
Korábbi keresések
Összesen 1 találat.
#/oldal:
12
36
60
120
Rövid
Hosszú
MARC
Részletezés:
Rendezés:
Szerző növekvő
Szerző csökkenő
Cím növekvő
Cím csökkenő
Dátum növekvő
Dátum csökkenő
1.
001-es BibID:
BIBFORM122769
Első szerző:
Tóth Erzsébet (informatikus könyvtáros)
Cím:
Optimizing Text Clustering Efficiency through Flexible Latent Dirichlet Allocation Method: Exploring the Impact of Data Features and Threshold Modification / Tóth Erzsébet, Gál Zoltán
Dátum:
2024
ISSN:
2061-2079
Megjegyzések:
A parallel corpus comprising Croatian EU legislative documents automatically translated into English spans 28 years and is enriched with metadata, including creation year and hierarchical classifier tags denoting descriptors, document types, and fields. However, nearly two-thirds of the approximately 1.5 thousand texts lack complete metadata, necessitating labor intensive manual efforts that pose challenges for human administration. This incompleteness issue can be observed in the case of official legal sites functioning as regular service provisioning databases. In response, this paper introduces an artificial cognitive and multilabel classification approach to expedite the tagging process with only a fraction of the manual effort. Leveraging the Latent Dirichlet Allocation (LDA) algorithm, our method assigns field values or tags to incompletely labeled documents. We implement a Flexible LDA variant, incorporating the influence of topics close to the most probable topic, regulated by a relative probability threshold (RPT). We evaluate the LDA prediction's dependence on document prefiltering and RPT values. Furthermore, we investigate the dependence of quantitative linguistic properties on the type and speciality of pre-processing tasks. Our algorithm, built on error-correcting optimizing codes, succesfully predicts a mixture of topic probabilities for these legal texts. This prediction is achieved by calculating the Hamming distance of binary feature vectors created using the legal fields of the EUROVOC multilingual thesaurus.
Tárgyszavak:
Műszaki tudományok
Informatikai tudományok
idegen nyelvű folyóiratközlemény hazai lapban
folyóiratcikk
Latent Dirichlet Allocation algoritmus
több címkés osztályozás
Természetes nyelvű feldolgozás
jogi szövegek klaszterezése
Ellenőrzött tanulás
Megjelenés:
Infocommunications Journal. - 16 : Joint Special Issue on Cognitive Infocommunications and Cognitive Aspects of Virtual Reality (2024), p. 58-66. -
További szerzők:
Gál Zoltán (1966-) (informatikus)
Pályázati támogatás:
TKP2021-NKTA-34
Egyéb
Internet cím:
Szerző által megadott URL
DOI
Intézményi repozitóriumban (DEA) tárolt változat
Borító:
Saját polcon:
Rekordok letöltése
1
Corvina könyvtári katalógus v8.2.27
© 2023
Monguz kft.
Minden jog fenntartva.