<?xml version="1.0" encoding="UTF-8"?>
<collection xmlns="http://www.loc.gov/MARC21/slim">
 <record>
  <leader>04955ntm a22005417i 4500</leader>
  <controlfield tag="001">000722934</controlfield>
  <controlfield tag="003">CZ-PrVSE</controlfield>
  <controlfield tag="005">20250614131007.0</controlfield>
  <controlfield tag="006">m        d</controlfield>
  <controlfield tag="007">cr n||||||||||</controlfield>
  <controlfield tag="008">250614s2025    xr     fsbm   000 0 cze d</controlfield>
  <datafield tag="STA" ind1=" " ind2=" ">
   <subfield code="a">NEZPRACOVANÝ IMPORT</subfield>
  </datafield>
  <datafield tag="040" ind1=" " ind2=" ">
   <subfield code="a">ABA006</subfield>
   <subfield code="b">cze</subfield>
   <subfield code="c">ABA006</subfield>
   <subfield code="d">ABA006</subfield>
   <subfield code="e">rda</subfield>
  </datafield>
  <datafield tag="100" ind1="1" ind2=" ">
   <subfield code="a">Holota, Jan</subfield>
   <subfield code="%">ISIS:155651</subfield>
   <subfield code="4">dis</subfield>
  </datafield>
  <datafield tag="242" ind1="1" ind2="0">
   <subfield code="a">Knowledge graphs and vectorization as means for injecting knowledge into large language models</subfield>
   <subfield code="y">eng</subfield>
  </datafield>
  <datafield tag="245" ind1="1" ind2="0">
   <subfield code="a">Znalostní grafy a vektorizace jako prostředky injekce znalostí do velkých jazykových modelů /</subfield>
   <subfield code="c">Jan Holota</subfield>
  </datafield>
  <datafield tag="264" ind1=" " ind2="0">
   <subfield code="c">2025</subfield>
  </datafield>
  <datafield tag="300" ind1=" " ind2=" ">
   <subfield code="a">?? stran :</subfield>
   <subfield code="3">digital, PDF soubor</subfield>
  </datafield>
  <datafield tag="500" ind1=" " ind2=" ">
   <subfield code="a">Vedoucí práce: Václav Zeman</subfield>
  </datafield>
  <datafield tag="502" ind1=" " ind2=" ">
   <subfield code="a">Diplomová práce (Ing.)—Vysoká škola ekonomická v Praze. Fakulta informatiky a statistiky, 2025</subfield>
  </datafield>
  <datafield tag="504" ind1=" " ind2=" ">
   <subfield code="a">Obsahuje bibliografii</subfield>
  </datafield>
  <datafield tag="516" ind1=" " ind2=" ">
   <subfield code="a">Textový (vysokoškolská kvalifikační práce)</subfield>
  </datafield>
  <datafield tag="518" ind1=" " ind2=" ">
   <subfield code="a">Rok obhajoby 2025</subfield>
  </datafield>
  <datafield tag="520" ind1="3" ind2=" ">
   <subfield code="a">Tato diplomová práce se zaměřuje na porovnání dvou přístupů pro úlohu Retrieval Augmented Generation, která pomáhá s využitím velkých jazykových modelů pro dotazování se na údaje faktografického typu, a to nejen v interních dokumentech. Jedním z přístupů je využití prosté vektorizace plného textu dokumentů. Tento přístup je v praxi běžný, ovšem dle výsledků této práce vykazuje některé nepříznivé vlastnosti, jako je například přílišná tendence halucinovat v důsledku nerelevantního poskytnutého kontextu. V těchto systémech je také obtížné provést disambiguaci pojmenovaných entit, o nichž se v otázce hovoří. Druhým přístupem je využití znalostních grafů. V této práci jsou znalostní grafy využívány jako znalostní báze, přičemž jsou modelu předkládány RDF triply. Tento přístup zajišťuje možnost implementace disambiguačního modulu, který dokáže fungovat jak v manuálním módu vyžadujícím spolupráci uživatele, tak i v automatickém módu. To zajišťuje vyšší důvěryhodnost celého systému, protože dokáže poměrně dobře rozpoznat potřebnou pojmenovanou entitu a odpovídat pouze na základě informací o této entitě (úspěšnost disambiguace 86,4 % v manuálním a 73,2 % v automatickém módu). V této práci byl systém založený na prosté vektorizaci plných textů implementován jednak pomocí SOTA frameworku Langchain, a dále pomocí autorovy vlastní implementace vytvořené na základě rešerše řešení naivního RAG. Systém na základě znalostních grafů byl navržen autorem a implementován ve dvou formách - automatická a manuální disambiguace. Pro srovnání obou systémů byl vytvořen dataset čítající 1090 otázek, které byly založeny na stejném informačním základu – datech z článků Wikipedie a ze znalostního grafu Wikidata. Bylo pečlivě zohledněno, aby se odpověď na každou otázku v obou zdrojích skute</subfield>
  </datafield>
  <datafield tag="520" ind1="8" ind2=" ">
   <subfield code="a">Bylo zjištěno, že s využitím triplů lze úspěšnost vyhledání relevantního kontextu zvýšit oproti vektorizaci plných textů o přibližně 25 %. Také je nutné uvést, že procento správných a relevantních tvrzení v odpovědích na otázky ze všech tvrzení v odpovědích činilo u grafově založených řešení 82,7 % a 84 %, zatímco u prosté vektorizace textu tomu bylo jen 42,4 % a 53 %. Přístup s využitím znalostních grafů také vykazoval značně vyšší důvěryhodnost odpovědí, neboť převážná většina (87 % a 88,7 %) tvrzení byla podložena kontextem, zatímco u přístupu založeného na plných textech tomu tak bylo jen v 35,4 % a 54,3 % v závislosti na použité architektuře.</subfield>
  </datafield>
  <datafield tag="538" ind1=" " ind2=" ">
   <subfield code="a">Způsob přístupu: Internet</subfield>
  </datafield>
  <datafield tag="653" ind1="0" ind2=" ">
   <subfield code="a">znalostní a webové technologie [obor dipl. práce]</subfield>
  </datafield>
  <datafield tag="655" ind1=" " ind2="7">
   <subfield code="a">diplomové práce</subfield>
   <subfield code="7">fd132022</subfield>
   <subfield code="2">czenas</subfield>
  </datafield>
  <datafield tag="655" ind1=" " ind2="9">
   <subfield code="a">master's theses</subfield>
   <subfield code="2">eczenas</subfield>
  </datafield>
  <datafield tag="690" ind1=" " ind2=" ">
   <subfield code="a">RAG</subfield>
  </datafield>
  <datafield tag="690" ind1=" " ind2=" ">
   <subfield code="a">disambiguace</subfield>
  </datafield>
  <datafield tag="690" ind1=" " ind2=" ">
   <subfield code="a">velký jazykový model</subfield>
  </datafield>
  <datafield tag="690" ind1=" " ind2=" ">
   <subfield code="a">znalostní graf</subfield>
  </datafield>
  <datafield tag="700" ind1="1" ind2=" ">
   <subfield code="a">Zeman, Václav</subfield>
   <subfield code="%">ISIS:96325</subfield>
   <subfield code="4">ths</subfield>
  </datafield>
  <datafield tag="700" ind1="1" ind2=" ">
   <subfield code="a">Svátek, Vojtěch,</subfield>
   <subfield code="d">1967 prosinec 1.-</subfield>
   <subfield code="7">mzk2004217940</subfield>
   <subfield code="4">opn</subfield>
  </datafield>
  <datafield tag="710" ind1="2" ind2=" ">
   <subfield code="a">Vysoká škola ekonomická v Praze.</subfield>
   <subfield code="b">Fakulta informatiky a statistiky</subfield>
   <subfield code="7">kn20010709399</subfield>
   <subfield code="4">dgg</subfield>
  </datafield>
  <datafield tag="856" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011/podrobnosti</subfield>
   <subfield code="y">VŠKP v InSIS</subfield>
  </datafield>
  <datafield tag="856" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011</subfield>
   <subfield code="y">Hlavní práce</subfield>
  </datafield>
  <datafield tag="856" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011/posudek/vedouci</subfield>
   <subfield code="y">Hodnocení vedoucího</subfield>
  </datafield>
  <datafield tag="856" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011/posudek/oponent/85457</subfield>
   <subfield code="y">Oponentura</subfield>
  </datafield>
  <datafield tag="856" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011/priloha/31027</subfield>
   <subfield code="y">Přiloha k práci</subfield>
  </datafield>
  <datafield tag="856" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011/priloha/31028</subfield>
   <subfield code="y">Přiloha k práci</subfield>
  </datafield>
  <datafield tag="999" ind1="4" ind2="0">
   <subfield code="u">https://insis.vse.cz/zp/88011/podrobnosti</subfield>
   <subfield code="y">dc:identifier</subfield>
  </datafield>
  <datafield tag="993" ind1=" " ind2=" ">
   <subfield code="x">NEPOSILAT</subfield>
   <subfield code="y">VSKP</subfield>
  </datafield>
  <datafield tag="999" ind1="4" ind2="9">
   <subfield code="a">vse88011</subfield>
   <subfield code="b">250613</subfield>
  </datafield>
  <datafield tag="999" ind1="4" ind2="5">
   <subfield code="x">88011</subfield>
  </datafield>
 </record>
</collection>
