<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>NLP - Hard Wired</title>
	<atom:link href="https://www.hardwired.dev/tag/nlp/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.hardwired.dev</link>
	<description></description>
	<lastBuildDate>Fri, 03 Apr 2026 20:55:06 +0000</lastBuildDate>
	<language>cs</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.hardwired.dev/wp-content/uploads/2022/10/android-chrome-256x256-1-150x150.png</url>
	<title>NLP - Hard Wired</title>
	<link>https://www.hardwired.dev</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>Glosář AI a LLM termínů</title>
		<link>https://www.hardwired.dev/2026/03/06/glosar-ai-a-llm-terminu/</link>
		
		<dc:creator><![CDATA[Valentino Hesse OK2HSS]]></dc:creator>
		<pubDate>Fri, 06 Mar 2026 22:05:04 +0000</pubDate>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[Agentic RAG]]></category>
		<category><![CDATA[Attention]]></category>
		<category><![CDATA[ChatGPT]]></category>
		<category><![CDATA[chunking]]></category>
		<category><![CDATA[embeddings]]></category>
		<category><![CDATA[evaluace RAG]]></category>
		<category><![CDATA[Few Shot Learning]]></category>
		<category><![CDATA[fine-tuning]]></category>
		<category><![CDATA[GPT]]></category>
		<category><![CDATA[halucinace LLM]]></category>
		<category><![CDATA[HHEM]]></category>
		<category><![CDATA[hybridní vyhledávání]]></category>
		<category><![CDATA[inference]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[Mamba]]></category>
		<category><![CDATA[MMR]]></category>
		<category><![CDATA[neurální vyhledávání]]></category>
		<category><![CDATA[NLP]]></category>
		<category><![CDATA[open-source LLM]]></category>
		<category><![CDATA[OpenAI]]></category>
		<category><![CDATA[prompt engineering]]></category>
		<category><![CDATA[RAG]]></category>
		<category><![CDATA[reranking]]></category>
		<category><![CDATA[sémantické vyhledávání]]></category>
		<category><![CDATA[strojové učení]]></category>
		<category><![CDATA[tokenizace]]></category>
		<category><![CDATA[transfer learning]]></category>
		<category><![CDATA[Transformer]]></category>
		<category><![CDATA[umela inteligence]]></category>
		<category><![CDATA[vektorová databáze]]></category>
		<category><![CDATA[vektorové reprezentace]]></category>
		<category><![CDATA[vektorové úložiště]]></category>
		<category><![CDATA[velké jazykové modely]]></category>
		<category><![CDATA[vysvětlitelnost]]></category>
		<guid isPermaLink="false">https://www.hardwired.dev/?p=2965</guid>

					<description><![CDATA[<p>Glosář AI a LLM termínů Úvod Svět a příslib umělé inteligence, zejména velkých jazykových modelů (LLM), přináší nadšení a možnosti. &#62;&#62;&#62;</p>
<p>The post <a href="https://www.hardwired.dev/2026/03/06/glosar-ai-a-llm-terminu/">Glosář AI a LLM termínů</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></description>
										<content:encoded><![CDATA[<div id="bsf_rt_marker"></div><h1>Glosář AI a LLM termínů</h1>
<h2>Úvod</h2>
<p>Svět a příslib umělé inteligence, zejména velkých jazykových modelů (LLM), přináší nadšení a možnosti. Přináší také novou terminologii, které je třeba porozumět.</p>
<p>Tento glosář se zaměřuje na AI, RAG a velké jazykové modely, aby vám pomohl rychle zvládnout koncepty strojového učení.</p>
<hr />
<h2>Agentic RAG</h2>
<p>Agentic RAG je přístup k vytváření AI asistentů a agentů pomocí LLM, který zahrnuje komplexní uvažování, vícekrokové plánování, volání funkcí a používání nástrojů.</p>
<p>Hlavní výhoda Agentic RAG spočívá ve schopnosti volat nástroje pro vyhledávání informací a provádění úkolů.</p>
<p>Například pokud požádáte AI asistenta postaveného na Agentic RAG o porovnání příjmů Apple a Microsoft v roce 2022, může analyzovat dotaz a dvakrát zavolat nástroj pro finanční výkazy – jednou pro Apple a jednou pro Microsoft. Poté sloučí výsledky obou volání a vytvoří požadovanou odpověď.</p>
<hr />
<h2>Attention (Pozornost)</h2>
<p>Mechanismy pozornosti ve velkých jazykových modelech (LLM) jsou základní komponenty, které těmto modelům umožňují efektivněji zpracovávat a rozumět textu. Byly představeny Vaswani et al. v článku &quot;Attention is All You Need&quot;.</p>
<p>Klíčovou inovací je self-attention (sebe-pozornost), kde model vypočítává skóre pozornosti mezi každým párem tokenů ve vstupní sekvenci. Tato skóre určují, kolik pozornosti věnovat každému tokenu při generování výstupu.</p>
<p>Mechanismy pozornosti byly klíčové pro pokrok v NLP a pohánějí aplikace jako strojový překlad a chatboty.</p>
<hr />
<h2>ChatGPT</h2>
<p>ChatGPT je konverzační chatbot vyvinutý společností OpenAI. Je založen na architektuře GPT (Generative Pre-trained Transformer), což je typ modelu hlubokého učení navržený k porozumění a generování textu podobného lidskému.</p>
<p>Základní technologií ChatGPT je neuronová síť typu transformer, která se vyznačuje mechanismem self-attention.</p>
<p>Jednou z výrazných vlastností ChatGPT je schopnost vést otevřené konverzace s uživateli. Na rozdíl od mnoha jiných chatbotů, které fungují na základě předdefinovaných pravidel, ChatGPT dynamicky generuje odpovědi na základě vstupu.</p>
<p>Je důležité poznamenat, že ChatGPT není neomylný – spoléhá na trénovací data a může někdy produkovat nepřesné odpovědi (tzv. halucinace).</p>
<hr />
<h2>Chunking (Dělení na části)</h2>
<p>Chunking je proces používaný ke zvýšení efektivity a přesnosti vyhledávání informací v NLP úlohách. V RAG je vstupní text rozdělen na menší, zvládnutelné jednotky nazývané &quot;chunky&quot;. Tyto chunky mohou být věty, odstavce nebo jiné specifické rozdělení většího textu.</p>
<p><strong>Účel chunkingu:</strong></p>
<ul>
<li><strong>Efektivita:</strong> Práce s menšími chunky zrychluje proces vyhledávání a vyžaduje méně výpočetního výkonu.</li>
<li><strong>Přesnost:</strong> Chunky poskytují cílenější informace, snižují šum a zlepšují relevanci získaných dat.</li>
<li><strong>Škálovatelnost:</strong> Chunking umožňuje systému efektivněji zpracovávat větší dokumenty.</li>
</ul>
<p>V RAG je po chunkování každý chunk indexován a uložen v retrieval systému (jako text i jako embedding vektor).</p>
<hr />
<h2>Embeddings (Vektorové reprezentace)</h2>
<p>V kontextu LLM jsou vektorové embeddingy typem reprezentace, která zachycuje sémantický význam nebo kontext slov či vět v kompaktní formě. Jsou to v podstatě vektory reálných čísel, kde každá dimenze může reprezentovat jinou vlastnost zachycující něco o významu daného konceptu.</p>
<p>Vektorové embeddingy jsou také známé jako &quot;husté reprezentace&quot; (dense representations), na rozdíl od tradičnějších &quot;řídkých reprezentací&quot; (sparse representations).</p>
<p><strong>Typy embeddingů:</strong></p>
<ul>
<li><strong>Word embeddings:</strong> mapují každé slovo na vektorový embedding</li>
<li><strong>Sentence embeddings:</strong> mapují celou větu, odstavec nebo jakýkoli textový chunk do vektorového embeddingu</li>
</ul>
<p>Vektorové embeddingy slouží jako vstup pro různé NLP úlohy jako klasifikace textu, analýza sentimentu nebo strojový překlad.</p>
<hr />
<h2>Explainability (Vysvětlitelnost)</h2>
<p>Ve světě RAG vysvětlitelnost znamená, že systém může ukázat přesně, jak dospěl ke své odpovědi, včetně odkazů na původní zdroje.</p>
<p>Namísto toho, abyste přemýšleli, odkud informace pochází, systém může poskytnout jasné reference nebo citace, podobně jako poznámky pod čarou, takže si můžete detaily ověřit sami.</p>
<p>Tento transparentní přístup buduje důvěru a pomáhá porozumět uvažování za odpovědí.</p>
<hr />
<h2>Few Shot Learning</h2>
<p>V kontextu LLM se koncept few shot learning vztahuje na schopnost poskytnout LLM příklady úkolu, který chcete provést, a tím zlepšit jeho výkon.</p>
<p><strong>Zero shot příklad:</strong><br />
&quot;Přelož následující z angličtiny do francouzštiny: How are you today?&quot;</p>
<p><strong>Few shot příklad:</strong><br />
&quot;Přelož následující z angličtiny do francouzštiny:</p>
<ol>
<li>Hello → Bonjour</li>
<li>Goodbye → Au revoir<br />
Přelož: How are you today?&quot;</li>
</ol>
<p>V druhém případě poskytujeme dva příklady dobrého překladu, čímž pomáháme modelu lépe splnit požadovaný úkol.</p>
<hr />
<h2>Fine-tuning (Doladění)</h2>
<p>Fine-tuning je způsob provádění transfer learningu. Při fine-tuningu vezmete předtrénovaný model a pokračujete v jeho trénování na specifickém (obvykle menším) datasetu.</p>
<p><strong>Běžné techniky fine-tuningu:</strong></p>
<ul>
<li>Pokračování v tréninku celé neuronové sítě na specifickém datasetu</li>
<li>Zmrazení některých vrstev a trénování ostatních</li>
<li>Přidání nové vrstvy pro nový typ úkolu a trénování pouze této vrstvy</li>
</ul>
<p>Fine-tuning je mnohem méně komplikovaný a výrazně levnější úkol než plné trénování LLM.</p>
<p>Nedávno byly navrženy techniky jako LORA (low-rank-adaptation), které fine-tuning ještě zrychlují a zlevňují při zachování podobného výkonu.</p>
<hr />
<h2>GPTs (Vlastní GPT)</h2>
<p>V listopadu 2023 OpenAI představila možnost uživatelů nebo vývojářů vytvářet vlastní verze ChatGPT. Tato schopnost je zaměřena na relativně malé přizpůsobení, umožňující konfigurovat vlastní GPT s určitým tónem hlasu, hledáním na webu a až 20 PDF dokumenty.</p>
<p>GPT jsou nejlepší pro malá přizpůsobení GPT a nejsou ideálním řešením pro enterprise případy s tisíci nebo miliony dokumentů, kde škálovatelná RAG řešení zůstávají doporučeným přístupem.</p>
<hr />
<h2>LLM Hallucinations (Halucinace LLM)</h2>
<p>Když LLM generuje text, který je nesmyslný nebo nevěrný poskytnutému zdrojovému obsahu, často říkáme, že tento obsah je halucinace LLM (také nazývaná fabrication).</p>
<p><strong>Halucinace LLM nastávají ze dvou hlavních důvodů:</strong></p>
<ol>
<li>
<p>Ptáte se na otázku, na kterou odpověď není LLM &quot;známa&quot; (tj. není dostupná v jeho trénovacích datech). V tomto případě LLM může odpovědět špatnou odpovědí.</p>
</li>
<li>
<p>Odpověď na vaši otázku je LLM &quot;známa&quot;, ale obsahuje fiktivní obsah nebo obsah, který je subjektivní jako názory a přesvědčení.</p>
</li>
</ol>
<hr />
<h2>HHEM</h2>
<p>HHEM (Hughes Hallucination Evaluation Model) je open source klasifikační model dostupný na HuggingFace, který lze použít k detekci halucinací.</p>
<p>Je zvláště užitečný v kontextu budování RAG aplikací, kde je sada faktů sumarizována LLM, ale model lze použít i v jiných kontextech.</p>
<p>HHEM se také používá k hodnocení LLM podle jejich celkové pravděpodobnosti halucinovat tímto způsobem.</p>
<hr />
<h2>Hybrid Search (Hybridní vyhledávání)</h2>
<p>Sémantické vyhledávání poskytuje fantastický přístup k získávání relevantních výsledků, ale není dokonalé. Existují případy, zejména u jednoslovných dotazů hledajících informace o konkrétním produktu, kde tradiční vyhledávání na základě klíčových slov funguje lépe.</p>
<p>Hybridní vyhledávání se pokouší kombinovat sémantické vyhledávání s tradičním vyhledáváním na základě klíčových slov, využívající přesnost keyword vyhledávání s kontextovým porozuměním sémantického vyhledávání.</p>
<p>Kombinací obou metod nabízí hybridní vyhledávání nuancovanější a efektivnější přístup k vyhledávání informací.</p>
<hr />
<h2>LLM Inference (Inference LLM)</h2>
<p>Inference je operace, při které generujete text s generativním LLM. Vstupem je sekvence tokenů a výstupem je další předpovězený token. Pokud chcete generovat celou sekvenci, generujete jeden token po druhém.</p>
<p>Inference s LLM je stochastická operace a nemusí pokaždé generovat stejný výsledek.</p>
<p><strong>Parametry ovládající inferenci:</strong></p>
<ul>
<li>
<p><strong>Temperature:</strong> Ovládá, jak randomizovaná je odpověď. Při temp=0 je odpověď deterministická (LLM vždy volí token s nejvyšší pravděpodobností), zatímco vyšší hodnoty vedou k více randomizovaným výsledkům.</p>
</li>
<li>
<p><strong>Top_p a top_k:</strong> Dva mechanismy pro výběr dalšího tokenu.</p>
<ul>
<li>Top_k je celočíselná hodnota určující délku top tokenů k zvážení</li>
<li>Top_p pracuje podobně, ale vybírá top N tokenů tak, aby jejich kumulativní pravděpodobnost byla rovna nebo vyšší než hodnota top_p (0…1)</li>
</ul>
</li>
</ul>
<hr />
<h2>Large Language Model (LLM) - Velký jazykový model</h2>
<p>Velký jazykový model (LLM) je neuronová síť trénovaná k porozumění jazyku a může být použita pro různé úkoly jako sumarizace, překlad, predikce a generování textu. LLM je trénován na masivních textových datasetech jako Common Crawl, WebText2, Books1, Books2 a Wikipedia.</p>
<p>Běžný typ LLM, nazývaný také <strong>auto-regresivní (AR) LLM</strong>, je ten, kde je model trénován k předpovídání dalšího tokenu podmíněného všemi předchozími tokeny. GPT-3 a GPT-4 patří do této kategorie.</p>
<p>Tyto modely se také nazývají generativní LLM.</p>
<hr />
<h2>MAMBA</h2>
<p>Mamba je nová architektura pro modelování sekvencí, která nabízí slibnou alternativu k modelům Transformer. Využívá selektivní stavové prostory k dosažení modelování sekvencí v lineárním čase, což poskytuje významné zlepšení efektivity a škálovatelnosti ve srovnání s kvadratickou složitostí Transformerů.</p>
<p>Klíčová inovace Mamby spočívá v její schopnosti selektivně uchovávat nebo zapomínat informace prostřednictvím selekčního mechanismu, což jí umožňuje efektivně zpracovávat dlouhodobé závislosti.</p>
<p>Architektura Mamba demonstruje působivý výkon napříč různými úkoly včetně jazykového modelování, analýzy sekvencí DNA a generování audia. Nabízí 5x vyšší propustnost generování ve srovnání s Transformery podobné velikosti.</p>
<hr />
<h2>Max Marginal Relevance Ranking (MMR)</h2>
<p>V kontextu RAG se MMR vztahuje na techniku, při které jsou relevantní fakta poskytnutá krokem vyhledávání přeuspořádána tak, aby vytvořila rozmanitější sadu faktů. Původně navržená v roce 1998, je tato technika kritická například tam, kde je mnoho odpovídajících textových chunků z více dokumentů ve skutečnosti velmi podobných nebo dokonce identických.</p>
<p>MMR je často implementován jako krok přeuspořádání po vyhledávání. Algoritmus má složitost O(N²), ale může být implementován efektivně pro nízkou latenci.</p>
<hr />
<h2>Open Source LLM</h2>
<p>Termín &quot;open source&quot;, často používaný pro zdrojový kód veřejně dostupný pod různými licencemi jako Apache 2.0 nebo MIT, byl nedávno použit v kontextu LLM pro označení modelů, jejichž váhy jsou veřejně dostupné.</p>
<p><strong>Nejpozoruhodnější open source modely:</strong></p>
<ul>
<li>LLAMA3 od Meta (verze 8B a 70B)</li>
<li>Mistral</li>
<li>Google Gemma</li>
<li>Microsoft Phi4</li>
</ul>
<p>Většina open source LLM je vydána za podmínek umožňujících komerční použití, ale některé mají dodatečná omezení.</p>
<hr />
<h2>Prompt Engineering</h2>
<p>Proces vytváření, zdokonalování a optimalizace vstupních promptů zadávaných LLM za účelem dosažení požadovaných výstupů. Prompt engineering hraje klíčovou roli při určování výkonu a chování modelů jako GPT.</p>
<p><strong>Specifické techniky prompt engineeringu:</strong></p>
<ul>
<li><strong>Přeformulování:</strong> Někdy může přeformulování promptu vést k lepším výsledkům.</li>
<li><strong>Specifikace formátu:</strong> Pro úkoly, kde záleží na formátu odpovědi, můžete jej specifikovat v promptu (např. &quot;Poskytněte odpověď v odrážkách&quot;).</li>
<li><strong>Úvodní informace:</strong> Zahrnutí dodatečného kontextu může pomoci zúžit požadovanou odpověď.</li>
</ul>
<p>Prompt engineering je důležitý i v kontextu RAG pro získání nejlepších výsledků.</p>
<hr />
<h2>RAG Evaluation (Evaluace RAG)</h2>
<p>Při implementaci RAG ve vaší organizaci je důležité nasadit robustní rámec pro evaluaci RAG. To vám umožní měřit kvalitu odpovědí a určit &quot;jak přesná a užitečná je odpověď na jakoukoli uživatelskou otázku&quot;.</p>
<p><strong>Dva hlavní typy metrik:</strong></p>
<ol>
<li>
<p><strong>Metriky vyhledávání (Retrieval metrics):</strong> Tyto metriky říkají, zda jsou fakta získaná ze zdrojových dat relevantní k otázce a mohou být úspěšně použita jako podkladová data pro odpověď.</p>
</li>
<li>
<p><strong>Metriky generování (Generation metrics):</strong> Tyto metriky hodnotí samotnou odpověď podmíněnou fakty – je odpověď správně ukotvena ve faktech?</p>
</li>
</ol>
<p>RAG evaluace může být velmi akční a pomoci vám nejen vidět problémy, ale také je opravit.</p>
<hr />
<h2>RAG Sprawl</h2>
<p>RAG Sprawl označuje nekontrolované šíření implementací Retrieval-Augmented Generation (RAG) napříč vaší organizací – rostoucí problém způsobující bolesti hlavy CIO a IT oddělením při vyčerpávání zdrojů, ohrožování bezpečnosti a vytváření nekonzistentních uživatelských zkušeností.</p>
<p>S RAG Sprawl se organizace rychle ocitne ve správě více redundantních systémů, které v podstatě vykonávají stejnou základní funkci: vyhledávání relevantních informací a jejich použití k ukotvení odpovědí LLM.</p>
<hr />
<h2>Reranking (Přeuspořádání)</h2>
<p>V RAG hraje reranker klíčovou roli při zvyšování relevance získaných dokumentů ve dvoustupňovém modelu vyhledávání.</p>
<p>Zpočátku zahrnuje proces vyhledávání široké hledání pro shromáždění velké sady potenciálně relevantních dokumentových chunků pomocí rychlé a efektivní metody jako vektorové embeddingy nebo hybridní vyhledávání. Počáteční sada dokumentů však může obsahovat mnoho irelevantních nebo okrajově relevantních položek.</p>
<p>Zde přichází reranker jako druhý stupeň procesu vyhledávání. Aplikuje sofistikovanější algoritmus pro přehodnocení a přeuspořádání původně získaných dokumentů.</p>
<p><strong>Kategorie rerankerů:</strong></p>
<ul>
<li>Relevance reranker</li>
<li>MMR reranker</li>
<li>UDF reranker</li>
</ul>
<hr />
<h2>Retrieval Augmented Generation (RAG)</h2>
<p>Retrieval Augmented Generation (RAG) je přístup, který poskytuje LLM dodatečné, kontextové informace k ukotvení jeho odpovědí a zamezení halucinacím.</p>
<p><strong>Ingest flow (tok příjmu dat):</strong><br />
Data jsou rozdělena na věty nebo jiné chunky. Každý chunk je poté zakódován do vektorového embeddingu (pomocí Embeddings modelu) a uložen ve vektorovém úložišti.</p>
<p><strong>Query flow (tok dotazu):</strong><br />
Když je vydán dotaz, je nejprve zakódován do vlastního vektorového embeddingu a ty jsou porovnány s daty ve vektorovém úložišti. Nejrelevantnější věty nebo fakta jsou získány. Tato fakta jsou poté poskytnuta sumarizačnímu LLM, aby mohl odpovědět na dotaz s tímto kontextem na mysli a poskytnout přesnou odpověď založenou na datech.</p>
<hr />
<h2>Semantic Search a Neural Search (Sémantické a neurální vyhledávání)</h2>
<p>Sémantické vyhledávání je metoda používaná ve vyhledávacích algoritmech, která bere v úvahu záměr hledajícího a kontextový význam termínů v dokumentech. Namísto pouhého hledání klíčových slov se sémantický vyhledávač snaží porozumět základním konceptům, kontextu a významu pro přesnější výsledky.</p>
<p>Například při hledání &quot;apple&quot; by tradiční vyhledávání na základě klíčových slov jednoduše vrátilo výsledky obsahující slovo &quot;apple&quot; bez kontextu rozlišujícího mezi Apple Inc. a jablkem jako ovocem.</p>
<p>Sémantické vyhledávání je často založeno na modelu hlubokého učení a nazývá se &quot;neurální vyhledávání&quot;. Při neurálním vyhledávání je text převeden na formu nazývanou &quot;vektorové embeddingy&quot; reprezentující jeho sémantický význam.</p>
<hr />
<h2>Tokenization (Tokenizace)</h2>
<p>V kontextu LLM je tokenizace proces, při kterém je textový řetězec rozdělen na menší jednotky nazývané tokeny. Tokeny mohou být jednotlivé znaky, jednotlivá slova nebo dokonce subslova, a výběr strategie tokenizace závisí na případu použití.</p>
<p>U tradičního NLP byla tokenizace na úrovni slov. Například věta &quot;How am I doing today?&quot; by byla přeložena do 5 slov: [&quot;how&quot;, &quot;am&quot;, &quot;I&quot;, &quot;doing&quot;, &quot;today?&quot;]</p>
<p><strong>Nejběžnější strategie tokenizace pro LLM:</strong></p>
<ul>
<li><strong>BPE (Byte Pair Encoding):</strong> Tato metoda tokenizace rozděluje text na subslova. Velmi běžně používaná v rodině modelů GPT.</li>
<li><strong>Wordpiece:</strong> Vyvinutý společností Google a používaný v původní implementaci BERT.</li>
<li><strong>Unigram:</strong> Používaný v algoritmu SentencePiece od Google.</li>
</ul>
<hr />
<h2>Transformers</h2>
<p>Transformery jsou typ architektury neuronové sítě široce používané v zpracování přirozeného jazyka a jazykovém modelování. Transformery aplikují mechanismus pozornosti (attention), který umožňuje modelu současně zvažovat důležitost všech slov ve větě. To vede k modelům, které lépe zachycují kontext a dlouhodobé závislosti v jazyce.</p>
<p>Architektura transformeru se skládá z enkodéru a dekodéru. Enkodér čte vstupní sekvenci a vytváří její reprezentaci. Dekodér pak používá tuto reprezentaci ke generování výstupní sekvence.</p>
<p><strong>Typy implementací:</strong></p>
<ul>
<li>Pouze enkodér (např. BERT)</li>
<li>Pouze dekodér (např. GPT-3, Anthropic)</li>
<li>Enkodér i dekodér (např. T5)</li>
</ul>
<p>Modely jako BERT, GPT-3 a T5 jsou všechny založeny na architektuře transformer.</p>
<hr />
<h2>Transfer Learning (Přenosové učení)</h2>
<p>V tradičním strojovém učení je cílem natrénovat model k provedení určitého úkolu jako klasifikace nebo regrese.</p>
<p>S transfer learningem vezmete předtrénovaný model a použijete ho (adaptujete) na nový úkol. Protože předtrénování modelu je poměrně nákladné, myšlenka transfer learningu je následující: můžeme znovu použít část znalostí naučených během procesu předtrénování a aplikovat ji na nový úkol, který z těchto znalostí těží?</p>
<p>Transfer learning není nová myšlenka, jen se stal běžnějším s moderními neuronovými sítěmi, které jsou velké a nákladné na předtrénování.</p>
<hr />
<h2>Vector Store / Vector Database (Vektorové úložiště / databáze)</h2>
<p>Vektorové úložiště je typ databáze, která ukládá vysokodimenzionální vektorová data a poskytuje dotazovací schopnosti na těchto vektorech jako similarity search, kde cílem je najít nejpodobnější dokumenty nebo položky k danému dotazu.</p>
<p><strong>Nejběžnější typy vektorových úložišť:</strong> FAISS, Annoy, NMSLib</p>
<p>Vektorová databáze je specializovanější typ vektorového úložiště optimalizovaný pro efektivní správu velkých datasetů vektorů. Vektorové databáze typicky nabízejí pokročilé funkce jako podpora více typů vektorů, efektivní indexování a vysoká škálovatelnost.</p>
<p><strong>Dostupné vektorové databáze:</strong> Qdrant, Weaviate, Pinecone, Milvus, Chroma</p>
<p>Při budování GenAI aplikací od nuly vývojáři často kombinují různé komponenty jako LangChain nebo LlamaIndex, poskytovatele embeddingů jako OpenAI nebo Cohere, sumarizační nebo Chat LLM jako OpenAI, a vektorovou databázi.</p>

<div class="twitter-share"><a href="https://twitter.com/intent/tweet?url=https%3A%2F%2Fwww.hardwired.dev%2F2026%2F03%2F06%2Fglosar-ai-a-llm-terminu%2F&#038;via=hessevalentino&#038;related=hessevalentino%3AValentino%20Hesse%20OK2HSS" class="twitter-share-button">Tweet</a></div><p>The post <a href="https://www.hardwired.dev/2026/03/06/glosar-ai-a-llm-terminu/">Glosář AI a LLM termínů</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>Context Engineering: Nová disciplína, která mění pravidla AI</title>
		<link>https://www.hardwired.dev/2025/08/17/context-engineering-nova-disciplina-ktera-meni-pravidla-ai/</link>
		
		<dc:creator><![CDATA[Valentino Hesse OK2HSS]]></dc:creator>
		<pubDate>Sun, 17 Aug 2025 06:51:26 +0000</pubDate>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[AI agenti]]></category>
		<category><![CDATA[AI aplikace]]></category>
		<category><![CDATA[AI architektury]]></category>
		<category><![CDATA[AI asistenti]]></category>
		<category><![CDATA[AI best practices]]></category>
		<category><![CDATA[AI debugging]]></category>
		<category><![CDATA[AI development]]></category>
		<category><![CDATA[AI frameworks]]></category>
		<category><![CDATA[AI governance]]></category>
		<category><![CDATA[AI memory]]></category>
		<category><![CDATA[AI nástroje]]></category>
		<category><![CDATA[AI orchestrace]]></category>
		<category><![CDATA[AI research]]></category>
		<category><![CDATA[AI strategie]]></category>
		<category><![CDATA[AI testing]]></category>
		<category><![CDATA[AI workflows]]></category>
		<category><![CDATA[Anthropic MCP]]></category>
		<category><![CDATA[Automatizace]]></category>
		<category><![CDATA[Business intelligence]]></category>
		<category><![CDATA[Chatboti]]></category>
		<category><![CDATA[ChatGPT]]></category>
		<category><![CDATA[claude]]></category>
		<category><![CDATA[Cognitive science]]></category>
		<category><![CDATA[Context compression]]></category>
		<category><![CDATA[Context layering]]></category>
		<category><![CDATA[Context optimization]]></category>
		<category><![CDATA[Context validation]]></category>
		<category><![CDATA[Customer service AI]]></category>
		<category><![CDATA[Deep learning]]></category>
		<category><![CDATA[Enterprise AI]]></category>
		<category><![CDATA[GPT-4]]></category>
		<category><![CDATA[Kódovací asistenti]]></category>
		<category><![CDATA[Konverzační AI]]></category>
		<category><![CDATA[LangChain]]></category>
		<category><![CDATA[LlamaIndex]]></category>
		<category><![CDATA[LLM]]></category>
		<category><![CDATA[machine learning]]></category>
		<category><![CDATA[Model Context Protocol]]></category>
		<category><![CDATA[Multi-modal AI]]></category>
		<category><![CDATA[NLP]]></category>
		<category><![CDATA[Paměťové systémy]]></category>
		<category><![CDATA[Právní AI]]></category>
		<category><![CDATA[Production AI]]></category>
		<category><![CDATA[prompt engineering]]></category>
		<category><![CDATA[Python AI]]></category>
		<category><![CDATA[RAG]]></category>
		<category><![CDATA[Retrieval-Augmented Generation]]></category>
		<category><![CDATA[Semantic search]]></category>
		<category><![CDATA[Software architecture]]></category>
		<category><![CDATA[Tech trendy]]></category>
		<category><![CDATA[Token optimization]]></category>
		<category><![CDATA[Tool management]]></category>
		<category><![CDATA[umela inteligence]]></category>
		<category><![CDATA[Vector databáze]]></category>
		<category><![CDATA[velké jazykové modely]]></category>
		<category><![CDATA[Zde jsou štítky pro WordPress článek o context engineering: Context Engineering]]></category>
		<guid isPermaLink="false">https://www.hardwired.dev/?p=2800</guid>

					<description><![CDATA[<p>Context Engineering: Nová disciplína, která mění pravidla AI Jak jsem se naučil, že úspěch AI aplikací nezávisí na dokonalém promptu, &#62;&#62;&#62;</p>
<p>The post <a href="https://www.hardwired.dev/2025/08/17/context-engineering-nova-disciplina-ktera-meni-pravidla-ai/">Context Engineering: Nová disciplína, která mění pravidla AI</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></description>
										<content:encoded><![CDATA[<div id="bsf_rt_marker"></div><h1>Context Engineering: Nová disciplína, která mění pravidla AI</h1>
<p><em>Jak jsem se naučil, že úspěch AI aplikací nezávisí na dokonalém promptu, ale na tom, co model &quot;vidí&quot; kolem něj</em></p>
<p>Před třemi lety jsem trávil hodiny ladění promptů. Psal jsem stránkové instrukce, experimentoval s různými formulacemi, testoval desítky variant. A přesto můj AI asistent zapomínal klíčové informace z předchozích konverzací, můj kódovací pomocník ztrácel přehled o architektuře projektu a RAG systém nedokázal propojit souvislosti napříč dokumenty.</p>
<p>Pak jsem pochopil zásadní věc: problém nebyl v tom, <em>jak</em> jsem se modelu ptal, ale v tom, <em>co všechno model věděl</em> v okamžiku, kdy odpovídal. Objevil jsem context engineering – disciplínu, která překračuje hranice prompt engineeringu a mění celou hru.</p>
<h2>Proč prompt engineering přestal stačit</h2>
<p>Když poprvé otevřete ChatGPT, připadá vám to jednoduché: napíšete otázku, dostanete odpověď. Jenže reality produkčních AI aplikací je jiná. Představte si, že stavíte AI asistenta pro zákaznický servis. Potřebuje:</p>
<ul>
<li>Znát historii všech předchozích interakcí s klientem</li>
<li>Mít přístup k aktuálním informacím o produktech</li>
<li>Rozumět firemním procesům a pravidlům</li>
<li>Pamatovat si kontext celé konverzace</li>
<li>Umět zavolat externí API pro ověření dat</li>
</ul>
<p>Žádný prompt, ať je sebevíc dokonalý, to sám nezvládne. Potřebujete systém, který modelu poskytne správný kontext ve správný čas. To je podstata context engineeringu.</p>
<h2>Co je context engineering v praxi</h2>
<p><strong>Context engineering je disciplína navrhování a budování systémů, které orchestrují všechny informace, nástroje a paměť potřebné k tomu, aby AI dokázala řešit složité, real-world úkoly.</strong></p>
<p>Nejde jen o prompt. Jde o celý informační ekosystém kolem modelu.</p>
<h3>Reálný příklad z mé praxe</h3>
<p>Nedávno jsem stavěl AI asistenta pro právní kancelář. Klasický přístup by byl:</p>
<pre><code>Jsi právní expert. Odpovídej na otázky klientů o smluvním právu.</code></pre>
<p>Context engineering přístup vypadal takto:</p>
<p><strong>1. Systémový kontext:</strong></p>
<pre><code>Role: Senior právní poradce specializující se na obchodní právo
Firma: [název], 15 let praxe, focus na SaaS a tech startupy  
Regulatory environment: České právo, EU regulace</code></pre>
<p><strong>2. Dynamický retrieval:</strong></p>
<pre><code class="language-python"># Při každé otázce systém:
query = user_question
relevant_cases = vector_search(query, case_database)
current_legislation = api_call(&quot;legal_updates&quot;, query)
client_history = get_client_context(client_id)
firm_templates = search_templates(query)</code></pre>
<p><strong>3. Paměťový systém:</strong></p>
<pre><code class="language-python"># Kontext se skládal z:
- Dlouhodobé paměti klienta (preference, předchozí případy)
- Krátkodobé paměti konverzace (co už probrali dnes)
- Faktual knowledge base (zákony, judikáty)
- Tool access (kalkulačky poplatků, termíny soudů)
- Meta-context (urgence, složitost případu)</code></pre>
<p>Výsledek? Místo obecných právních rad model poskytoval konkrétní doporučení založená na historii klienta, aktuální legislativě a firemních postupech.</p>
<h2>Anatomie profesionálního context systému</h2>
<h3>1. Multi-layer memory architecture</h3>
<p><strong>Immediate context</strong> - co model &quot;vidí&quot; právě teď:</p>
<ul>
<li>Aktuální prompt a konverzace</li>
<li>Výsledky z právě provedených nástrojů</li>
<li>Dočasný stav úkolu</li>
</ul>
<p><strong>Session memory</strong> - co si pamatuje během práce:</p>
<ul>
<li>Historie kroků a rozhodnutí</li>
<li>Předchozí výsledky a chyby</li>
<li>Evoluce strategie řešení</li>
</ul>
<p><strong>Long-term memory</strong> - trvalé znalosti:</p>
<ul>
<li>User profily a preference</li>
<li>Learnt patterns a insights</li>
<li>Firemní knowledge base</li>
</ul>
<h3>2. Intelligent retrieval orchestration</h3>
<p>Nejsložitější část. Systém musí v real-time rozhodnout:</p>
<ul>
<li>Které dokumenty jsou relevantní</li>
<li>Jaké externí API zavolat</li>
<li>Kolik kontextu použít (token limits)</li>
<li>V jakém pořadí informace poskytovat</li>
</ul>
<p>Můj workflow:</p>
<pre><code class="language-python">def build_context(user_query, session_state):
    # 1. Analýza query
    intent = classify_intent(user_query)
    entities = extract_entities(user_query)

    # 2. Multi-source retrieval
    docs = semantic_search(user_query, weight=0.4)
    tools = suggest_tools(intent, weight=0.3) 
    memory = get_relevant_memory(session_state, weight=0.3)

    # 3. Context assembly
    context = assemble_context(
        system_prompt=get_system_prompt(intent),
        retrieved_docs=docs[:5],  # Top 5 to stay within limits
        available_tools=tools,
        conversation_memory=memory,
        user_profile=get_user_context()
    )

    return context</code></pre>
<h3>3. Dynamic context optimization</h3>
<p>Context není statický. Mění se podle:</p>
<p><strong>Task complexity</strong> - složité úkoly potřebují víc kontextu<br />
<strong>User expertise</strong> - expert vs. beginner potřebuje jiné informace<br />
<strong>Performance feedback</strong> - učení se z úspěchů a chyb<br />
<strong>Resource constraints</strong> - tokens, latency, costs</p>
<h2>Praktické techniky z praxe</h2>
<h3>Context Layering</h3>
<p>Místo jednoho obřího promptu stavím kontext po vrstvách:</p>
<pre><code class="language-python"># Layer 1: Core identity
system_role = &quot;&quot;&quot;
Senior business analyst s 10+ lety zkušeností
Specializace: SaaS metriky, customer analytics
Styl: Data-driven, konkrétní doporučení
&quot;&quot;&quot;

# Layer 2: Current task context  
task_context = f&quot;&quot;&quot;
Aktuální projekt: {project_name}
Deadline: {deadline}
Stakeholders: {stakeholder_list}
Previous insights: {session_memory}
&quot;&quot;&quot;

# Layer 3: Dynamic information
dynamic_context = f&quot;&quot;&quot;
Relevantní data: {retrieved_data}
Dostupné nástroje: {available_tools}
Aktuální metrics: {live_metrics}
&quot;&quot;&quot;</code></pre>
<h3>Context Chaining</h3>
<p>Pro komplexní úkoly rozdělím práci do kroků, kde výstup jednoho kroku se stává kontextem pro další:</p>
<pre><code class="language-python"># Krok 1: Analýza problému
problem_analysis = llm_call(
    context=base_context + user_problem,
    task=&quot;Analyzuj problém a identifikuj klíčové otázky&quot;
)

# Krok 2: Sběr dat s kontextem z kroku 1
data_context = base_context + problem_analysis
retrieved_data = gather_data(problem_analysis.key_questions)

# Krok 3: Řešení s full kontextem
solution = llm_call(
    context=data_context + retrieved_data,
    task=&quot;Navrhni řešení založené na analýze a datech&quot;
)</code></pre>
<h3>Adaptive Context Compression</h3>
<p>Když se blížím k token limitu, používám kompresní strategie:</p>
<pre><code class="language-python">def compress_context(context_items, max_tokens):
    if calculate_tokens(context_items) &lt;= max_tokens:
        return context_items

    # Prioritizace podle důležitosti
    prioritized = rank_by_relevance(context_items)

    # Postupná komprese
    compressed = []
    token_budget = max_tokens

    for item in prioritized:
        if item.type == &quot;critical&quot;:
            compressed.append(item)  # Vždy zahrnout
        elif item.type == &quot;supporting&quot;:
            if token_budget &gt; estimate_tokens(item):
                compressed.append(summarize(item))  # Komprese

    return compressed</code></pre>
<h2>Časté problémy a jejich řešení</h2>
<h3>Context Poisoning</h3>
<p><strong>Problém:</strong> Chyba se dostane do kontextu a pak se propaguje dál.</p>
<p><strong>Řešení z praxe:</strong></p>
<pre><code class="language-python">def validate_context(context_item):
    # Fact-checking pro kritické informace
    if context_item.type == &quot;factual&quot;:
        confidence = fact_check(context_item.content)
        if confidence &lt; 0.8:
            context_item.add_disclaimer(&quot;Unverified information&quot;)

    # Timestamp check pro časově citlivé info
    if context_item.age &gt; MAX_STALENESS:
        refresh_data(context_item)

    return context_item</code></pre>
<h3>Context Overload</h3>
<p><strong>Problém:</strong> Příliš mnoho informací rozptyluje model.</p>
<p><strong>Mé řešení:</strong></p>
<ul>
<li>Používám &quot;attention hints&quot; - explicitně říkám, na co se zaměřit</li>
<li>Strukturuji kontext hierarchicky (nejdůležitější nahoře)</li>
<li>Implementuji &quot;context budgeting&quot; - každý typ info má limit</li>
</ul>
<pre><code class="language-python">context_budget = {
    &quot;system_instructions&quot;: 500,   # tokens
    &quot;user_input&quot;: 1000,
    &quot;retrieved_docs&quot;: 2000,
    &quot;tool_outputs&quot;: 1500,
    &quot;memory&quot;: 1000
}</code></pre>
<h3>Tool Confusion</h3>
<p><strong>Problém:</strong> Model si vybírá špatné nástroje.</p>
<p><strong>Moje strategie:</strong></p>
<pre><code class="language-python">def smart_tool_selection(user_intent, available_tools):
    # Jen relevantní nástroje pro daný typ úkolu
    if user_intent == &quot;data_analysis&quot;:
        return [tools.python_executor, tools.data_visualizer]
    elif user_intent == &quot;web_research&quot;:
        return [tools.web_search, tools.summarizer]

    # Nikdy nedávat všechny nástroje najednou
    return filter_tools_by_relevance(available_tools, max_count=5)</code></pre>
<h2>Frameworky a nástroje</h2>
<h3>LangChain/LangGraph</h3>
<p>Skvělé pro orchestraci workflows, ale pozor na over-engineering:</p>
<pre><code class="language-python">from langgraph import StateGraph

# Definuji workflow s explicitním context flow
workflow = StateGraph()
workflow.add_node(&quot;analyze&quot;, analyze_with_context)
workflow.add_node(&quot;retrieve&quot;, smart_retrieval) 
workflow.add_node(&quot;synthesize&quot;, synthesize_response)

# Context se propaguje mezi kroky
workflow.add_edge(&quot;analyze&quot;, &quot;retrieve&quot;)
workflow.add_edge(&quot;retrieve&quot;, &quot;synthesize&quot;)</code></pre>
<h3>LlamaIndex</h3>
<p>Exceluje v knowledge management:</p>
<pre><code class="language-python">from llama_index import VectorStoreIndex, ContextBuilder

# Automatické budování kontextu
context_builder = ContextBuilder()
context_builder.add_memory_layer(user_profile)
context_builder.add_retrieval_layer(document_index)
context_builder.add_tool_layer(available_functions)</code></pre>
<h3>Anthropic MCP</h3>
<p>Nejnovější standard pro propojení AI s externí systémy:</p>
<pre><code class="language-python"># MCP server pro firemní data
mcp_server = MCPServer()
mcp_server.register_resource(&quot;customer_db&quot;, CustomerDatabase())
mcp_server.register_tool(&quot;send_email&quot;, EmailTool())

# AI má strukturovaný přístup k firemním systémům</code></pre>
<h2>Budoucnost context engineeringu</h2>
<p>Vidím tři hlavní trendy:</p>
<p><strong>1. Automated Context Assembly</strong><br />
AI začíná samo rozpoznávat, jaký kontext potřebuje. Experiments s &quot;self-reflective agents&quot; ukazují zajímavé výsledky.</p>
<p><strong>2. Multi-Modal Context Integration</strong><br />
Kombinace textu, obrázků, audio, video do jednotného kontextu. Pracuji na projektu, kde AI analyzuje video cally a extrahuje kontext pro další rozhodnutí.</p>
<p><strong>3. Collaborative Context Networks</strong><br />
Více AI agentů sdílí kontext a buduje kolektivní &quot;paměť&quot; týmu.</p>
<h2>Co si odnést domů</h2>
<p>Context engineering není jen technická disciplína – je to nový způsob myšlení o AI aplikacích. Moje klíčová doporučení:</p>
<p><strong>1. Začněte s auditem kontextu</strong><br />
Podívejte se na vaše současné AI aplikace. Co všechno model &quot;nevidí&quot;, ale měl by?</p>
<p><strong>2. Investujte do memory systémů</strong><br />
Dlouhodobá paměť je game-changer. AI, které si pamatuje vaše preference a zkušenosti, je kvalitativně jiné.</p>
<p><strong>3. Experimentujte s context compression</strong><br />
Naučte se čistit a komprimovat kontext. Méně může být více.</p>
<p><strong>4. Měřte context effectiveness</strong><br />
Trackujte, které části kontextu model skutečně používá. Optimalizujte na základě dat.</p>
<p><strong>5. Myslĕte systémově</strong><br />
Context engineering je systémová disciplína. Nejde o izolované prompty, ale o architekturu informačních toků.</p>
<p>A především: context engineering je budoucnost AI aplikací. Kdo ho zvládne dřív, získá obrovskou výhodu.</p>
<hr />
<p><em>Po několika letech experimentování s LLM si myslím, že context engineering je nejdůležitější skill pro AI builders. Není to jen o tom dát modelu správné informace – je to o pochopení toho, jak AI &quot;myslí&quot; a jak navrhnout systémy, které s tímto myšlením spolupracují. Je to fascinující kombinace software architecture, cognitive science a trochy magie.</em></p>

<div class="twitter-share"><a href="https://twitter.com/intent/tweet?url=https%3A%2F%2Fwww.hardwired.dev%2F2025%2F08%2F17%2Fcontext-engineering-nova-disciplina-ktera-meni-pravidla-ai%2F&#038;via=hessevalentino&#038;related=hessevalentino%3AValentino%20Hesse%20OK2HSS" class="twitter-share-button">Tweet</a></div><p>The post <a href="https://www.hardwired.dev/2025/08/17/context-engineering-nova-disciplina-ktera-meni-pravidla-ai/">Context Engineering: Nová disciplína, která mění pravidla AI</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
