SZÖVEGOSZTÁLYOZÁSI MÓDSZEREK A WEKA ADATBÁNYÁSZATI SZOFTVER SEGÍTSÉGÉVEL
A tanulmányban a Weka adatbányászati szoftver használata és a szövegosztályozás alapelvei kerülnek bemutatásra. Egy gyakorlati példán keresztül, amiben Internetről letöltött 4000 db ingatlanhirdetési szöveget dolgoztam fel, több szövegosztályozási módszert megvizsgáltam. Voltak olyan módszerek, amelyekhez a Weka beépített algoritmusát használtam fel, és előfordultak olyanok is, amelyekhez saját programot készítettem. Több módszert is részletesen elemeztem a paraméterek beállításának változtatásával. Az egyes módszerek eredményeit összehasonlítottam az osztályozási pontosság és a futási idő szerint. A feladatokhoz a programokat Java nyelven írtam meg. -------------------------------------------------------------------------- -------- In my work I presented the usage of the Weka data-mining software and the principles of text classification. I examined several text classification methods with the help of a practical example, where I processed 4000 real estate advertisements from Internet. I used the Weka built-in algorithms for some methods and I wrote programs for the others. I analyzed some methods in detail with different parameters. I compared the results of the methods from the point of view of precision and execution time. I wrote the programs in Java language for the tasks.
Year of publication: |
2013
|
---|---|
Authors: | Subecz, Zoltán |
Published in: |
Acta Carolus Robertus. - Karoly Robert University College. - Vol. 03.2013, 1
|
Publisher: |
Karoly Robert University College |
Subject: | szövegosztályozás | információkinyerés | adatbányászat | szövegbányászat | mesterséges intelligencia | programozás | Java programozási nyelv | text classification | information extraction | data mining | text mining | artificial intelligence | programming | Java programming language | Research and Development/Tech Change/Emerging Technologies |
Saved in:
freely available
Saved in favorites
Similar items by subject
-
French medical named entity recognition : a hybrid approach
Allaouzi, Imane, (2019)
-
IBM predictive analytics reduces server downtime
Bogojeska, Jasmina, (2021)
-
Sentiment analysis in electronic negotiations
Körner, Michael, (2019)
- More ...