04955ntm a22005417i 4500 000722934 CZ-PrVSE 20250614131007.0 m d cr n|||||||||| 250614s2025 xr fsbm 000 0 cze d NEZPRACOVANÝ IMPORT ABA006 cze ABA006 ABA006 rda Holota, Jan ISIS:155651 dis Knowledge graphs and vectorization as means for injecting knowledge into large language models eng Znalostní grafy a vektorizace jako prostředky injekce znalostí do velkých jazykových modelů / Jan Holota 2025 ?? stran : digital, PDF soubor Vedoucí práce: Václav Zeman Diplomová práce (Ing.)—Vysoká škola ekonomická v Praze. Fakulta informatiky a statistiky, 2025 Obsahuje bibliografii Textový (vysokoškolská kvalifikační práce) Rok obhajoby 2025 Tato diplomová práce se zaměřuje na porovnání dvou přístupů pro úlohu Retrieval Augmented Generation, která pomáhá s využitím velkých jazykových modelů pro dotazování se na údaje faktografického typu, a to nejen v interních dokumentech. Jedním z přístupů je využití prosté vektorizace plného textu dokumentů. Tento přístup je v praxi běžný, ovšem dle výsledků této práce vykazuje některé nepříznivé vlastnosti, jako je například přílišná tendence halucinovat v důsledku nerelevantního poskytnutého kontextu. V těchto systémech je také obtížné provést disambiguaci pojmenovaných entit, o nichž se v otázce hovoří. Druhým přístupem je využití znalostních grafů. V této práci jsou znalostní grafy využívány jako znalostní báze, přičemž jsou modelu předkládány RDF triply. Tento přístup zajišťuje možnost implementace disambiguačního modulu, který dokáže fungovat jak v manuálním módu vyžadujícím spolupráci uživatele, tak i v automatickém módu. To zajišťuje vyšší důvěryhodnost celého systému, protože dokáže poměrně dobře rozpoznat potřebnou pojmenovanou entitu a odpovídat pouze na základě informací o této entitě (úspěšnost disambiguace 86,4 % v manuálním a 73,2 % v automatickém módu). V této práci byl systém založený na prosté vektorizaci plných textů implementován jednak pomocí SOTA frameworku Langchain, a dále pomocí autorovy vlastní implementace vytvořené na základě rešerše řešení naivního RAG. Systém na základě znalostních grafů byl navržen autorem a implementován ve dvou formách - automatická a manuální disambiguace. Pro srovnání obou systémů byl vytvořen dataset čítající 1090 otázek, které byly založeny na stejném informačním základu – datech z článků Wikipedie a ze znalostního grafu Wikidata. Bylo pečlivě zohledněno, aby se odpověď na každou otázku v obou zdrojích skute Bylo zjištěno, že s využitím triplů lze úspěšnost vyhledání relevantního kontextu zvýšit oproti vektorizaci plných textů o přibližně 25 %. Také je nutné uvést, že procento správných a relevantních tvrzení v odpovědích na otázky ze všech tvrzení v odpovědích činilo u grafově založených řešení 82,7 % a 84 %, zatímco u prosté vektorizace textu tomu bylo jen 42,4 % a 53 %. Přístup s využitím znalostních grafů také vykazoval značně vyšší důvěryhodnost odpovědí, neboť převážná většina (87 % a 88,7 %) tvrzení byla podložena kontextem, zatímco u přístupu založeného na plných textech tomu tak bylo jen v 35,4 % a 54,3 % v závislosti na použité architektuře. Způsob přístupu: Internet znalostní a webové technologie [obor dipl. práce] diplomové práce fd132022 czenas master's theses eczenas RAG disambiguace velký jazykový model znalostní graf Zeman, Václav ISIS:96325 ths Svátek, Vojtěch, 1967 prosinec 1.- mzk2004217940 opn Vysoká škola ekonomická v Praze. Fakulta informatiky a statistiky kn20010709399 dgg https://insis.vse.cz/zp/88011/podrobnosti VŠKP v InSIS https://insis.vse.cz/zp/88011 Hlavní práce https://insis.vse.cz/zp/88011/posudek/vedouci Hodnocení vedoucího https://insis.vse.cz/zp/88011/posudek/oponent/85457 Oponentura https://insis.vse.cz/zp/88011/priloha/31027 Přiloha k práci https://insis.vse.cz/zp/88011/priloha/31028 Přiloha k práci https://insis.vse.cz/zp/88011/podrobnosti dc:identifier NEPOSILAT VSKP vse88011 250613 88011