检测到论坛CSS可能没有正确加载，如出现排版混乱请刷新重试。

We detected that the CSS might not be loaded correctly. If the website displays abnormally, Please refresh and try again.

关于压缩算法的一些见解

Ghdgtdgu

我以前一直在想, 这个所谓的压缩算法, 也就是缩减数据的比特位, 究竟是怎么实现的呢?
有一天我想明白了, 这个所谓的"压缩", 也并不是完全压缩, 而是压缩数据中出现频率高的部分. 而出现频率比较低的部分, 则可能不压缩甚至导致"逆压缩" (数据比特位增多).

将某段数据以字节为单位计算出出现的频率, 然后用二叉树将数据重新编码, 这样每个字节就有了独一无二的新编码: 出现频率第一的字节的新编码就只有1个字, 出现频率第二的字节的编码就有2个字... 以此类推, 我们就完成了一个最基本的压缩算法.

gailium119

Ghdgtdgu 倒是讲讲什么叫固实压缩（

Ghdgtdgu

比如说现在我有一段文本:

who are you i couldnt help but bow and pray to you with folded hands i imitated your everything with my poor talent all the original sin is in me in your under the mask in the cross hanging high in the sky o foolish and incompetent me beg your forgiveness

它的长度是255字节.
(为了降低问题难度, 我将原动态里的大写字母转化为了小写字母, 同时去掉了所有的标点符号和换行)

经过统计, 这篇文字中(包括空格在内)所有的字母出现的次数统计如下:

QJS Studio 王琳芳

Ghdgtdgu
只要有一本字典，每个英文单词用两个字节表达（两个字节一共65536种排列组合，足够容纳英文词库了）
这样每个长单词都能用两个字节表达出来。
这就是最基本的压缩原理。

Ghdgtdgu

如何给每一个字母制作独一无二的编码呢? 我想出来了一个下策:

独立的“0”被分配到了出现次数最多的空格中. 因为没有出现独立的"1", 所以压缩文件里所有的“1”都会和后面的“1”以及代表结束的“0”组合, 编码成一个独一无二的字符.

Ghdgtdgu

QJS Studio 王琳芳这个思路也没错。
我在思考二进制文件的压缩方法...

QJS Studio 王琳芳

Ghdgtdgu 原理和我说的也差不多，就是各种字典压缩。
多数二进制文件不是杂乱无章的，有一定规律就容易套字典。
如果是完全随机生成的0或1，就非常难压缩了。

Ghdgtdgu

文件转换后的样子.
初步估算比之前的255B要多出几个字节, 而且加上用于解压缩的文件头等信息, 难道我的思路并没有什么优势?
还是等程序写出来之后再看吧.

gyigi

要不，我们考虑一下哈夫曼编码（？

Ghdgtdgu

gyigi 可以试试

© 2026 wvbCommunity 管理团队

删封申诉 | 知乎专栏 | 状态监控 | 用户协议(EULA) | 隐私政策

本站文章除其作者特殊声明外，一律采用CC BY-NC-SA 4.0许可协议进行授权，进行转载或二次创作时务必以相同协议进行共享，严禁用于商业用途。