<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>on-device AI - Hard Wired</title>
	<atom:link href="https://www.hardwired.dev/tag/on-device-ai/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.hardwired.dev</link>
	<description></description>
	<lastBuildDate>Fri, 10 Apr 2026 10:01:04 +0000</lastBuildDate>
	<language>cs</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.hardwired.dev/wp-content/uploads/2022/10/android-chrome-256x256-1-150x150.png</url>
	<title>on-device AI - Hard Wired</title>
	<link>https://www.hardwired.dev</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>AI Bits &#8211; BitNet</title>
		<link>https://www.hardwired.dev/2026/04/11/ai-bits-bitnet/</link>
		
		<dc:creator><![CDATA[John Doe]]></dc:creator>
		<pubDate>Sat, 11 Apr 2026 07:58:44 +0000</pubDate>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[1-bit llm]]></category>
		<category><![CDATA[bitnet]]></category>
		<category><![CDATA[bitnet.cpp]]></category>
		<category><![CDATA[cpu inference]]></category>
		<category><![CDATA[edge ai]]></category>
		<category><![CDATA[energy efficiency]]></category>
		<category><![CDATA[local llm]]></category>
		<category><![CDATA[microsoft research]]></category>
		<category><![CDATA[model quantization]]></category>
		<category><![CDATA[on-device AI]]></category>
		<category><![CDATA[open source]]></category>
		<category><![CDATA[small language models]]></category>
		<guid isPermaLink="false">https://www.hardwired.dev/?p=3010</guid>

					<description><![CDATA[<p>Za projektem stojí Microsoft Research, konkrétně výzkumný tým, který od roku 2023 pracuje na architektuře 1-bit transformerů. Na vývoji se &#62;&#62;&#62;</p>
<p>The post <a href="https://www.hardwired.dev/2026/04/11/ai-bits-bitnet/">AI Bits – BitNet</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></description>
										<content:encoded><![CDATA[<div id="bsf_rt_marker"></div><p>Za projektem stojí Microsoft Research, konkrétně výzkumný tým, který od roku 2023 pracuje na architektuře 1-bit transformerů. Na vývoji se podílela i University of Chinese Academy of Sciences. Výsledkem je <code>bitnet.cpp</code> — open-source inference framework pro 1-bit LLM modely, dostupný na GitHubu pod MIT licencí.</p>
<p>Hlavní myšlenka je jednoduchá: místo standardních 16bitových nebo 32bitových vah ukládá BitNet b1.58 každý parametr jako ternární hodnotu (-1, 0, nebo +1), což jsou technicky 1.58 bitu. To dramaticky snižuje nároky na paměť a výpočetní výkon. Praktický dopad je zásadní — modely lze spouštět na běžném CPU bez GPU. Framework <code>bitnet.cpp</code> aktuálně podporuje inference na CPU i GPU, podpora NPU se připravuje.</p>
<p>Čísla mluví za sebe. Na ARM CPU dosahuje <code>bitnet.cpp</code> zrychlení <strong>1.37× až 5.07×</strong> oproti standardnímu přístupu a snižuje spotřebu energie o <strong>55,4 % až 70 %</strong>. Na x86 CPU je zrychlení ještě výraznější: <strong>2.37× až 6.17×</strong> a úspora energie <strong>71,9 % až 82,2 %</strong>. Vlajkový model BitNet b1.58 2B4T (2.4B parametrů, trénovaný na 4 trilionech tokenů) běží s pouhými <strong>0.4 GB paměti</strong> (oproti ~2 GB u LLaMA 3.2 1B), zpracovává tokeny <strong>o 40 % rychleji</strong> a spotřebuje <strong>0.028 J na inferenci</strong> — přibližně 12× méně než Qwen2.5. Na benchmarku GSM8K (matematické uvažování) BitNet b1.58 2B4T skóruje 58.38 a překonává srovnatelné modely v kategorii 1–2B parametrů. Microsoft navíc demonstroval spuštění 100B modelu na jediném CPU rychlostí 5–7 tokenů za sekundu — tedy tempem srovnatelným s lidským čtením.</p>
<table>
<thead>
<tr>
<th>Model</th>
<th>Paměť (non-embedding)</th>
<th>Latence CPU</th>
<th>Energie / inference</th>
</tr>
</thead>
<tbody>
<tr>
<td>BitNet b1.58 2B4T</td>
<td>0.4 GB</td>
<td>29 ms</td>
<td>0.028 J</td>
</tr>
<tr>
<td>LLaMA 3.2 1B</td>
<td>~2 GB</td>
<td>vyšší</td>
<td>—</td>
</tr>
<tr>
<td>Qwen2.5 1.5B</td>
<td>1.4–4.8 GB</td>
<td>vyšší</td>
<td>0.347 J</td>
</tr>
<tr>
<td>Gemma-3 1B</td>
<td>1.4–4.8 GB</td>
<td>vyšší</td>
<td>~0.17 J</td>
</tr>
</tbody>
</table>
<hr />
<p><strong>Zdroje:</strong></p>
<ul>
<li><a href="https://github.com/microsoft/BitNet">https://github.com/microsoft/BitNet</a></li>
<li><a href="https://huggingface.co/microsoft/bitnet-b1.58-2B-4T">https://huggingface.co/microsoft/bitnet-b1.58-2B-4T</a></li>
<li><a href="https://arxiv.org/abs/2410.16144">https://arxiv.org/abs/2410.16144</a></li>
<li><a href="https://arxiv.org/abs/2402.17764">https://arxiv.org/abs/2402.17764</a></li>
<li><a href="https://arxiv.org/html/2504.12285v1">https://arxiv.org/html/2504.12285v1</a></li>
<li><a href="https://www.microsoft.com/en-us/research/publication/bitnet-a4-8-4-bit-activations-for-1-bit-llms/">https://www.microsoft.com/en-us/research/publication/bitnet-a4-8-4-bit-activations-for-1-bit-llms/</a></li>
</ul>

<div class="twitter-share"><a href="https://twitter.com/intent/tweet?url=https%3A%2F%2Fwww.hardwired.dev%2F2026%2F04%2F11%2Fai-bits-bitnet%2F&#038;via=hessevalentino" class="twitter-share-button">Tweet</a></div><p>The post <a href="https://www.hardwired.dev/2026/04/11/ai-bits-bitnet/">AI Bits – BitNet</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></content:encoded>
					
		
		
			</item>
		<item>
		<title>NanoQuant: Post-training kvantizace LLM pod hranici jednoho bitu</title>
		<link>https://www.hardwired.dev/2026/04/03/nanoquant-post-training-kvantizace-llm-pod-hranici-jednoho-bitu/</link>
		
		<dc:creator><![CDATA[Valentino Hesse OK2HSS]]></dc:creator>
		<pubDate>Fri, 03 Apr 2026 20:54:15 +0000</pubDate>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[ADMM]]></category>
		<category><![CDATA[ADMM optimization]]></category>
		<category><![CDATA[binární faktorizace]]></category>
		<category><![CDATA[binary factorization]]></category>
		<category><![CDATA[binary GEMM]]></category>
		<category><![CDATA[bits per weight]]></category>
		<category><![CDATA[BPW]]></category>
		<category><![CDATA[consumer GPU]]></category>
		<category><![CDATA[CUDA kernely]]></category>
		<category><![CDATA[DBF]]></category>
		<category><![CDATA[edge inference]]></category>
		<category><![CDATA[extreme compression]]></category>
		<category><![CDATA[GGUF]]></category>
		<category><![CDATA[inference na edge]]></category>
		<category><![CDATA[komprese modelů]]></category>
		<category><![CDATA[kvantizace LLM]]></category>
		<category><![CDATA[large language models]]></category>
		<category><![CDATA[LittleBit]]></category>
		<category><![CDATA[llama.cpp]]></category>
		<category><![CDATA[Llama2-70B]]></category>
		<category><![CDATA[LLM quantization]]></category>
		<category><![CDATA[low-rank decomposition]]></category>
		<category><![CDATA[model compression]]></category>
		<category><![CDATA[NanoQuant]]></category>
		<category><![CDATA[nízko-rankový rozklad]]></category>
		<category><![CDATA[on-device AI]]></category>
		<category><![CDATA[Pareto frontier]]></category>
		<category><![CDATA[post-training kvantizace]]></category>
		<category><![CDATA[post-training quantization]]></category>
		<category><![CDATA[PTQ]]></category>
		<category><![CDATA[Samsung Research]]></category>
		<category><![CDATA[sub-1-bit kvantizace]]></category>
		<category><![CDATA[sub-1-bit quantization]]></category>
		<category><![CDATA[velké jazykové modely]]></category>
		<category><![CDATA[weight-only quantization]]></category>
		<guid isPermaLink="false">https://www.hardwired.dev/?p=2991</guid>

					<description><![CDATA[<p>O čem je řeč V únoru 2026 tým Samsung Research (Hyochan Chong, Dongkyu Kim, Changdong Kim, Minseop Choi) publikoval paper &#62;&#62;&#62;</p>
<p>The post <a href="https://www.hardwired.dev/2026/04/03/nanoquant-post-training-kvantizace-llm-pod-hranici-jednoho-bitu/">NanoQuant: Post-training kvantizace LLM pod hranici jednoho bitu</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></description>
										<content:encoded><![CDATA[<div id="bsf_rt_marker"></div><hr />
<h2>O čem je řeč</h2>
<p>V únoru 2026 tým Samsung Research (Hyochan Chong, Dongkyu Kim, Changdong Kim, Minseop Choi) publikoval paper popisující NanoQuant — metodu post-training kvantizace (PTQ), která dokáže komprimovat váhy velkých jazykových modelů na 1 bit a méně. Ne jako marketingový trik s hvězdičkou a poznámkou pod čarou, ale jako funkční framework s měřitelnými výsledky na standardních benchmarcích.</p>
<p>Proč je to zajímavé: dosavadní PTQ metody (GPTQ, AWQ, QuIP, AQLM) fungují spolehlivě na 3–4 bitech na váhu. Pod touto hranicí se rozpadají. Kdo chtěl jít níže, musel sáhnout po QAT (quantization-aware training) metodách jako LittleBit nebo DBF, které ale vyžadují výrazně víc dat, výpočetního času a často i přístup k trénovacímu pipeline modelu. NanoQuant tuhle mezeru překlenuje — dosahuje komprese srovnatelné s QAT, ale s efektivitou a jednoduchostí PTQ.</p>
<h1>NanoQuant jednoduše: 70B model na herní grafice</h1>
<p><em>Co je sub-1-bit kvantizace a proč na tom záleží</em></p>
<hr />
<p>Představ si, že máš knihu, která má 138 000 stránek. Je v ní všechno — umí odpovídat na otázky, překládat, psát texty. Problém je, že potřebuješ obrovskou knihovnu, aby se ti tam vešla. Normální člověk si ji domů nedá.</p>
<p>Kvantizace je v podstatě způsob, jak tu knihu přepsat menším písmem. Místo toho, aby každé číslo v modelu (a těch jsou miliardy) zabíralo 16 pozic přesnosti, řeknete — stačí mi 4. Nebo 2. Model je pak menší, ale pořád rozumně funguje. Tohle se dělá běžně a funguje to dobře až do určité hranice.</p>
<p>NanoQuant jde dál. Řekne — stačí mi <em>méně než jedna pozice</em> na číslo. To zní absurdně, protože jedna pozice znamená jen dvě možnosti: plus nebo minus. Méně než jedna pozice by znamenalo, že ani to plus/minus nemáte pro každé číslo zvlášť.</p>
<p>Jak to udělají? Místo toho, aby každé číslo komprimovali samostatně, vezmou celou tabulku čísel a rozloží ji na několik menších tabulek, kde jsou jen jedničky a minus jedničky. Ty menší tabulky se pak vynásobí a dají dohromady přibližně totéž co originál. A protože ty menší tabulky jsou <em>menší</em> než originál, průměrně vychází méně než jeden bit na původní číslo.</p>
<p>Výsledek: model, který normálně zabírá 138 GB a potřebuje dvě profesionální grafické karty za statisíce, se smrskne na 5,35 GB a běží na běžné herní grafice za pár tisíc. A pořád dává rozumné odpovědi.</p>
<p>Háček je v tom, že tohle zatím existuje jen jako vědecký článek. Kód není veřejný, nemůžete si to stáhnout a zkusit. Ale ukazuje to směr — modely, které dnes potřebují serverovnu, by za rok nebo dva mohly běžet na normálním počítači nebo i na telefonu.</p>
<hr />
<p><em>Zdroj: <a href="https://arxiv.org/abs/2602.06694">NanoQuant — arxiv.org/abs/2602.06694</a></em></p>
<hr />
<h2>Problém: proč je sub-1-bit komprese těžká</h2>
<p>Standardní kvantizace funguje tak, že se každá váha zaokrouhlí na nejbližší hodnotu z omezeného počtu úrovní. Při 4 bitech máte 16 úrovní, při 2 bitech 4 úrovně. Při 1 bitu máte dvě: +1 a −1. To je brutální ztráta informace.</p>
<p>Existující PTQ metody na tomhle selhávají ze dvou důvodů:</p>
<ol>
<li>Nemají dostatečně sofistikovaný způsob, jak rozhodnout, která váha bude +1 a která −1, aby výsledný model stále dával smysl.</li>
<li>Některé metody technicky tvrdí, že komprimují na 1 bit, ale pak si &quot;berou zpět&quot; paměť přes pomocné struktury — škálovací faktory, lookup tabulky, metadata — takže skutečný paměťový otisk je výrazně vyšší.</li>
</ol>
<p>QAT metody tenhle problém řeší přetrénováním modelu s kvantizačním šumem jako součástí tréninkového procesu. Funguje to, ale vyžaduje to stovky tisíc až miliony kalibračních tokenů, desítky GPU hodin a přístup k tréninkovému pipeline.</p>
<hr />
<h2>Jak NanoQuant funguje</h2>
<p>NanoQuant reformuluje celý problém kvantizace. Místo zaokrouhlování jednotlivých vah na binární hodnoty rozkládá váhovou matici na součin nízko-rankových binárních matic a škálovacích faktorů. Matematicky: matice vah W se aproximuje jako součin binárních matic (obsahujících pouze +1 a −1) a diagonálních škálovacích vektorů.</p>
<p>Pokud má původní matice rozměr m×n a rank rozkladu je r, potřebujete r×(m+n) binárních hodnot plus škálovací parametry. Při dostatečně nízkém r klesne průměrný počet bitů na váhu pod 1.0.</p>
<h3>Tříkrokový pipeline</h3>
<p>Komprese probíhá po blocích modelu (transformer block po bloku) ve třech krocích:</p>
<p><strong>Krok 1 — Mitigace propagace chyb.</strong> Kvantizační chyba se akumuluje, jak rekonstrukce postupuje sítí. Před kvantizací aktuálního bloku se jeho full-precision váhy doladí tak, aby kompenzovaly chyby zavedené kvantizací předchozích bloků. Tohle není nový nápad — podobný přístup používají i AQLM nebo QuIP — ale NanoQuant ho aplikuje na všechny lineární vrstvy v bloku, ne jen na vybrané.</p>
<p><strong>Krok 2 — Inicializace binární faktorizace (LB-ADMM).</strong> Tady je jádro celé metody. NanoQuant používá ADMM (Alternating Direction Method of Multipliers) pro řešení kombinatorického problému: jaká kombinace binárních matic a škálovacích faktorů nejlépe aproximuje původní váhy? ADMM iterativně střídá řešení dvou podproblémů — optimalizaci spojitých škálovacích parametrů (uzavřená forma, least-squares) a projekci na binární omezení (sign operace). Celý postup je &quot;Hessian-aware&quot;, tedy bere v úvahu citlivost výstupu na jednotlivé váhy.</p>
<p>Autoři experimentálně ukázali, že LB-ADMM inicializace překonává inicializační schémata z LittleBit i DBF. Jejich hypotéza: vyřešit kombinatorický problém binární faktorizace <em>před</em> fine-tuningem poskytuje stabilnější optimalizační krajinu než přístupy, které inicializaci řeší přibližně a spoléhají na to, že ji gradientová optimalizace dotáhne.</p>
<p>Po ADMM následuje magnitude balancing — vyrovnání škálovacích faktorů, aby binární matice měly vyvážený rozsah.</p>
<p><strong>Krok 3 — Zpřesnění faktorizovaných komponent.</strong> Po inicializaci se binární matice a škálovací faktory dolaďují pomocí Straight-Through Estimatorů (STE). STE je standardní trik pro gradientovou optimalizaci přes diskrétní operace — při zpětném průchodu se gradient sign funkce nahradí identitou. Toto zpřesnění probíhá lokálně na úrovni bloku, ne globálně.</p>
<p>Na závěr celého procesu přichází model-level rekonstrukce: lehká kalibrace škálovacích faktorů přes celý model pro lepší globální zarovnání aktivací.</p>
<hr />
<h2>Co znamená &quot;sub-1-bit&quot;</h2>
<p>Pojem sub-1-bit může znít jako protimluv — jak můžete mít méně než jeden bit informace na váhu? Odpověď je v tom, že nízko-rankový rozklad sdílí informaci mezi váhami. Binární matice v rozkladu jsou menší než původní váhová matice, takže celkový průměrný počet bitů na váhu (bits per weight, BPW) klesne pod 1.0.</p>
<p>NanoQuant demonstroval výsledky na 0.8 BPW, tedy méně než jeden bit na váhu v průměru. Při tomhle kompresním poměru samozřejmě dochází k degradaci kvality — ale ta je měřitelná a v kontextu 70B modelů stále překvapivě nízká.</p>
<hr />
<h2>Čísla</h2>
<p>Tady to přestává být akademické cvičení a začíná to být prakticky relevantní:</p>
<ul>
<li><strong>Llama2-70B:</strong> komprese ze 138,04 GB na 5,35 GB — kompresní poměr 25,8×</li>
<li><strong>Inference:</strong> kvantizovaný 70B model běží na spotřebitelské 8GB GPU rychlostí až 20,11 tokenů/s</li>
<li><strong>Kalibrace:</strong> 128 vzorků (~0,26M tokenů), 1 GPU</li>
<li><strong>Čas komprese:</strong> ~13 hodin na jednom H100 pro Llama2-70B</li>
<li><strong>CUDA kernely:</strong> autoři implementovali vlastní binární GEMV/GEMM kernely optimalizované pro datacenter, spotřebitelské i edge GPU</li>
</ul>
<p>Pro srovnání: Llama2-70B v FP16 vyžaduje minimálně 140 GB VRAM, tedy dvě A100 80GB. NanoQuant ho nacpe na jednu RTX 4060 s 8 GB.</p>
<p>Autoři testovali na rodinách modelů Llama2, Llama3, Qwen3 a dalších. Napříč modely NanoQuant vytváří novou Pareto frontu v prostoru komprese vs. kvalita — tedy pro danou úroveň komprese dosahuje lepší kvality než kterákoliv jiná PTQ metoda.</p>
<hr />
<h2>Kontext: co existuje kolem</h2>
<p>NanoQuant není v izolaci. Celá oblast sub-1-bit kvantizace LLM se v posledním roce výrazně zahustila:</p>
<p><strong>LittleBit</strong> (Samsung Research / NeurIPS 2025) — QAT metoda, která jde až na 0.1 BPW. Používá SVD-inspirovanou latentní faktorizaci s multi-scale kompenzací. Dosahuje skvělých výsledků, ale vyžaduje přetrénování.</p>
<p><strong>DBF / Double Binary Factorization</strong> (Boža &amp; Macko, 2025) — Rozkládá váhové matice na součin dvou binárních matic s diagonálním škálováním. Inference je efektivní (jen sčítání místo násobení), ale škálovací parametry jsou příliš omezené — všechny rankové komponenty sdílejí stejný magnitudový profil.</p>
<p><strong>MDBF / Multi-Envelope DBF</strong> (prosinec 2025) — Rozšíření DBF, které nahrazuje jednoduché škálování rank-l obálkou. Zlepšuje perplexitu i zero-shot přesnost oproti DBF při stejném BPW.</p>
<p><strong>BTC-LLM</strong> (květen 2025) — Používá naučitelné transformace a binární codebooky místo přímé binarizace.</p>
<p><strong>HBLLM</strong> — Waveletová dekompozice pro vylepšenou 1-bit kvantizaci s frekvence-aware seskupováním.</p>
<p>NanoQuant se od těchto metod odlišuje tím, že je čistě PTQ — nepotřebuje přetrénování — a přesto dosahuje konkurenceschopné kvality. To je prakticky zásadní rozdíl, protože PTQ můžete aplikovat na libovolný model bez přístupu k trénovacím datům nebo pipeline.</p>
<hr />
<h2>Současný stav projektu</h2>
<p>Na rovinu: k dnešnímu dni (duben 2026) je NanoQuant čerstvý research paper bez veřejně dostupného kódu.</p>
<ul>
<li><strong>Paper:</strong> publikován 6. února 2026 na arXiv, necelé dva měsíce starý</li>
<li><strong>Kód:</strong> zatím nevydaný. Autor na Hugging Face napsal: &quot;We are working on open-sourcing the code, so please stay tuned!&quot;</li>
<li><strong>Kvantizované modely / checkpointy:</strong> nejsou k dispozici. Na otázku po checkpointech autor zatím neodpověděl.</li>
<li><strong>Vlastní CUDA kernely:</strong> zmíněny v paperu, ale rovněž nejsou veřejné</li>
</ul>
<p>Jde o výzkum Samsung Research, takže open-source release může trvat déle kvůli interním schvalovacím procesům. Autor Hyochan Chong se v únoru 2025 vrátil do Samsung Research po dokončení studia a NanoQuant je jeden ze dvou paperů, které publikoval v únoru 2026 (druhý je RaBiT — 2-bit QAT metoda).</p>
<hr />
<h2>Co to znamená pro praxi</h2>
<p>Než se kód uvolní, NanoQuant zůstává akademický výsledek. Ale i jako takový naznačuje směr:</p>
<p><strong>Pro edge nasazení:</strong> Pokud se sub-1-bit formáty dostanou do mainstreamových inference frameworků (llama.cpp, vLLM, TensorRT-LLM), otevírá se možnost provozovat modely třídy 70B na hardware, kde dnes sotva běží 7B. To je relevantní pro kohokoliv, kdo provozuje lokální LLM inference na omezeném hardware — Raspberry Pi, jednočipové GPU, mobilní zařízení.</p>
<p><strong>Pro GGUF ekosystém:</strong> Zatím žádná podpora. NanoQuant vyžaduje vlastní binární CUDA kernely, takže integrace do llama.cpp by znamenala portovat tyhle kernely na CPU/Metal/Vulkan backendy. To není triviální, ale komunita kolem llama.cpp už v minulosti portovala i složitější formáty.</p>
<p><strong>Pro kvalitu vs. komprese trade-off:</strong> NanoQuant ukazuje, že Pareto fronta se posouvá. Před rokem byl sub-1-bit režim terra incognita pro PTQ. Teď máme měřitelné výsledky, které říkají, že 70B model komprimovaný na 5,35 GB stále dává rozumné výstupy. To mění kalkulaci pro deployment.</p>
<p>Stojí za to sledovat autorův profil a Samsung Research na Hugging Face. Jakmile se kód uvolní, bude to jeden z nejzajímavějších frameworků k otestování.</p>
<hr />
<h2>Reference a zdroje</h2>
<ul>
<li><strong>NanoQuant paper (arXiv):</strong> <a href="https://arxiv.org/abs/2602.06694">arxiv.org/abs/2602.06694</a></li>
<li><strong>Hugging Face paper page:</strong> <a href="https://huggingface.co/papers/2602.06694">huggingface.co/papers/2602.06694</a></li>
<li><strong>Samsung Research na Hugging Face:</strong> <a href="https://huggingface.co/SamsungResearch">huggingface.co/SamsungResearch</a></li>
<li><strong>Profil autora (Hyochan Chong):</strong> <a href="https://d7chong.github.io/">d7chong.github.io</a></li>
<li><strong>Blog-style summary (alphaXiv):</strong> <a href="https://www.alphaxiv.org/overview/2602.06694v1">alphaxiv.org/overview/2602.06694v1</a></li>
<li><strong>LittleBit (Samsung Research):</strong> <a href="https://research.samsung.com/blog/LittleBit-Ultra-Low-Bit-Quantization-via-Latent-Factorization">research.samsung.com/blog/LittleBit-Ultra-Low-Bit-Quantization-via-Latent-Factorization</a></li>
<li><strong>DBF — Double Binary Factorization:</strong> <a href="https://arxiv.org/abs/2505.11076">arxiv.org/abs/2505.11076</a></li>
<li><strong>MDBF — Multi-Envelope DBF:</strong> <a href="https://arxiv.org/abs/2512.24545">arxiv.org/abs/2512.24545</a></li>
<li><strong>BTC-LLM:</strong> <a href="https://arxiv.org/abs/2506.12040">arxiv.org/abs/2506.12040</a></li>
<li><strong>RaBiT (další paper od stejného autora):</strong> <a href="https://huggingface.co/papers?search=RaBiT+Residual-Aware+Binarization">huggingface.co/papers — RaBiT: Residual-Aware Binarization Training</a></li>
</ul>
<hr />
<p><em>Dokument vytvořen: Duben 2026</em></p>

<div class="twitter-share"><a href="https://twitter.com/intent/tweet?url=https%3A%2F%2Fwww.hardwired.dev%2F2026%2F04%2F03%2Fnanoquant-post-training-kvantizace-llm-pod-hranici-jednoho-bitu%2F&#038;via=hessevalentino&#038;related=hessevalentino%3AValentino%20Hesse%20OK2HSS" class="twitter-share-button">Tweet</a></div><p>The post <a href="https://www.hardwired.dev/2026/04/03/nanoquant-post-training-kvantizace-llm-pod-hranici-jednoho-bitu/">NanoQuant: Post-training kvantizace LLM pod hranici jednoho bitu</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
