<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>1-bit llm - Hard Wired</title>
	<atom:link href="https://www.hardwired.dev/tag/1-bit-llm/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.hardwired.dev</link>
	<description></description>
	<lastBuildDate>Fri, 10 Apr 2026 10:01:04 +0000</lastBuildDate>
	<language>cs</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://www.hardwired.dev/wp-content/uploads/2022/10/android-chrome-256x256-1-150x150.png</url>
	<title>1-bit llm - Hard Wired</title>
	<link>https://www.hardwired.dev</link>
	<width>32</width>
	<height>32</height>
</image> 
	<item>
		<title>AI Bits &#8211; BitNet</title>
		<link>https://www.hardwired.dev/2026/04/11/ai-bits-bitnet/</link>
		
		<dc:creator><![CDATA[John Doe]]></dc:creator>
		<pubDate>Sat, 11 Apr 2026 07:58:44 +0000</pubDate>
				<category><![CDATA[AI]]></category>
		<category><![CDATA[1-bit llm]]></category>
		<category><![CDATA[bitnet]]></category>
		<category><![CDATA[bitnet.cpp]]></category>
		<category><![CDATA[cpu inference]]></category>
		<category><![CDATA[edge ai]]></category>
		<category><![CDATA[energy efficiency]]></category>
		<category><![CDATA[local llm]]></category>
		<category><![CDATA[microsoft research]]></category>
		<category><![CDATA[model quantization]]></category>
		<category><![CDATA[on-device AI]]></category>
		<category><![CDATA[open source]]></category>
		<category><![CDATA[small language models]]></category>
		<guid isPermaLink="false">https://www.hardwired.dev/?p=3010</guid>

					<description><![CDATA[<p>Za projektem stojí Microsoft Research, konkrétně výzkumný tým, který od roku 2023 pracuje na architektuře 1-bit transformerů. Na vývoji se &#62;&#62;&#62;</p>
<p>The post <a href="https://www.hardwired.dev/2026/04/11/ai-bits-bitnet/">AI Bits – BitNet</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></description>
										<content:encoded><![CDATA[<div id="bsf_rt_marker"></div><p>Za projektem stojí Microsoft Research, konkrétně výzkumný tým, který od roku 2023 pracuje na architektuře 1-bit transformerů. Na vývoji se podílela i University of Chinese Academy of Sciences. Výsledkem je <code>bitnet.cpp</code> — open-source inference framework pro 1-bit LLM modely, dostupný na GitHubu pod MIT licencí.</p>
<p>Hlavní myšlenka je jednoduchá: místo standardních 16bitových nebo 32bitových vah ukládá BitNet b1.58 každý parametr jako ternární hodnotu (-1, 0, nebo +1), což jsou technicky 1.58 bitu. To dramaticky snižuje nároky na paměť a výpočetní výkon. Praktický dopad je zásadní — modely lze spouštět na běžném CPU bez GPU. Framework <code>bitnet.cpp</code> aktuálně podporuje inference na CPU i GPU, podpora NPU se připravuje.</p>
<p>Čísla mluví za sebe. Na ARM CPU dosahuje <code>bitnet.cpp</code> zrychlení <strong>1.37× až 5.07×</strong> oproti standardnímu přístupu a snižuje spotřebu energie o <strong>55,4 % až 70 %</strong>. Na x86 CPU je zrychlení ještě výraznější: <strong>2.37× až 6.17×</strong> a úspora energie <strong>71,9 % až 82,2 %</strong>. Vlajkový model BitNet b1.58 2B4T (2.4B parametrů, trénovaný na 4 trilionech tokenů) běží s pouhými <strong>0.4 GB paměti</strong> (oproti ~2 GB u LLaMA 3.2 1B), zpracovává tokeny <strong>o 40 % rychleji</strong> a spotřebuje <strong>0.028 J na inferenci</strong> — přibližně 12× méně než Qwen2.5. Na benchmarku GSM8K (matematické uvažování) BitNet b1.58 2B4T skóruje 58.38 a překonává srovnatelné modely v kategorii 1–2B parametrů. Microsoft navíc demonstroval spuštění 100B modelu na jediném CPU rychlostí 5–7 tokenů za sekundu — tedy tempem srovnatelným s lidským čtením.</p>
<table>
<thead>
<tr>
<th>Model</th>
<th>Paměť (non-embedding)</th>
<th>Latence CPU</th>
<th>Energie / inference</th>
</tr>
</thead>
<tbody>
<tr>
<td>BitNet b1.58 2B4T</td>
<td>0.4 GB</td>
<td>29 ms</td>
<td>0.028 J</td>
</tr>
<tr>
<td>LLaMA 3.2 1B</td>
<td>~2 GB</td>
<td>vyšší</td>
<td>—</td>
</tr>
<tr>
<td>Qwen2.5 1.5B</td>
<td>1.4–4.8 GB</td>
<td>vyšší</td>
<td>0.347 J</td>
</tr>
<tr>
<td>Gemma-3 1B</td>
<td>1.4–4.8 GB</td>
<td>vyšší</td>
<td>~0.17 J</td>
</tr>
</tbody>
</table>
<hr />
<p><strong>Zdroje:</strong></p>
<ul>
<li><a href="https://github.com/microsoft/BitNet">https://github.com/microsoft/BitNet</a></li>
<li><a href="https://huggingface.co/microsoft/bitnet-b1.58-2B-4T">https://huggingface.co/microsoft/bitnet-b1.58-2B-4T</a></li>
<li><a href="https://arxiv.org/abs/2410.16144">https://arxiv.org/abs/2410.16144</a></li>
<li><a href="https://arxiv.org/abs/2402.17764">https://arxiv.org/abs/2402.17764</a></li>
<li><a href="https://arxiv.org/html/2504.12285v1">https://arxiv.org/html/2504.12285v1</a></li>
<li><a href="https://www.microsoft.com/en-us/research/publication/bitnet-a4-8-4-bit-activations-for-1-bit-llms/">https://www.microsoft.com/en-us/research/publication/bitnet-a4-8-4-bit-activations-for-1-bit-llms/</a></li>
</ul>

<div class="twitter-share"><a href="https://twitter.com/intent/tweet?url=https%3A%2F%2Fwww.hardwired.dev%2F2026%2F04%2F11%2Fai-bits-bitnet%2F&#038;via=hessevalentino" class="twitter-share-button">Tweet</a></div><p>The post <a href="https://www.hardwired.dev/2026/04/11/ai-bits-bitnet/">AI Bits – BitNet</a> first appeared on <a href="https://www.hardwired.dev">Hard Wired</a>.</p>]]></content:encoded>
					
		
		
			</item>
	</channel>
</rss>
