算法

共 589 篇文章

IT 2013-05-01 22:37:49 / 累计浏览 4,081

在线协同编辑的实现

这篇讲的是如何自己动手实现一个类似Google Doc的多人实时协同编辑器。文章从多人编辑同一文档必然面临的“冲突”问题切入，拆解出四个核心步骤：计算修改、服务器合并、同步状态和移动光标。作者重点介绍了核心的冲突解决方案——**操作转换（Operational Transformation，OT）算法**。比如用户A插入文本、用户B删除文本时，服务器会动态调整后续操作的位置，确保所有人的视图最终一致。计算文本差异的部分，则借鉴了经典的动态规划算法，并推荐了Google开源的diff-match-patch库。文章不仅梳理了理论路径，还给出了一个完整的实现范例：作者已将自己写的编辑器部署到SAE上，并开源了全部代码。对于想理解实时协作背后技术细节的开发者来说，这是一份从原理到实践的清晰指南。

本机暂存

IT 2013-05-01 22:35:53 / 累计浏览 3,902

google group varint 无损压缩解压算法的高效实现改进版

这篇讲的是Google Group Varint无损压缩解压算法的一个高效C++实现，作者在此前版本的基础上进行了关键优化，使整体性能提升了约20%。文章的核心亮点在于那个256行的静态索引表。传统的Varint解码需要逐个判断每个字节的编码长度，而Group Varint将四个整数打包，通过一个字节的索引就能“一表查四数”，直接确定这组整数在压缩流中的起始位置和各自的长度。这种查表法将解码操作从逐位判断提升为批量定位，是速度飞跃的关键。优化后的效果非常惊人：处理100万个整数（4MB数据），压缩耗时约3.2毫秒，解压仅需3.7毫秒。换算下来，其解压吞吐量可以达到每秒1GB，非常适合对速度要求极高的场景。文章不仅展示了性能对比，还直接提供了完整的实现源码，包括那个精心构造的索引表，开发者可以即拿即用。对于追求极致性能的系统工程师而言，这个实现展示了如何通过巧妙的数据结构设计，将算法理论上的优势转化为实际运行效率的巨大提升。

本机暂存

IT 2013-05-01 18:34:10 / 累计浏览 3,585

bash遍历目录

作者从实际需求出发，整理了两套用纯Bash遍历目录树的方法：深度优先（DFS）和广度优先（BFS）。文章坦言，对于大多数简单操作，`find`命令组合其他工具足矣；但当需要严格控制遍历顺序，或者执行的操作逻辑比较复杂时，手动实现遍历就很有必要。文中的两个函数提供了清晰的模板。作者特别指出一个实用的细节：循环中使用`` `ls "$dir"` ``而非通配符`"$dir"/*`，是为了避免当目录为空时，循环体需要额外判断`dentry`是否存在，让代码更简洁。BFS版本使用队列结构，DFS版本则用栈来模拟递归。更巧妙的是，作者通过将回调函数作为参数传入，让遍历逻辑与具体任务解耦。示例中展示了如何用它们实现一个统计C/C++项目代码行数的脚本。文章追溯了这些代码的起源——从早年为FVWM桌面窗口管理器生成文件树菜单，到后来因ext3迁移ext4后修复文件权限而反复打磨，这些脚本在解决具体问题的过程中不断演进。对于有类似定制化需求的运维或开发人员，这份经过实践检验的代码片段值得参考。

本机暂存

IT 2013-04-07 13:18:50 / 累计浏览 7,501

深入浅出插入类排序算法(直接插入, 折半插入, 希尔排序)

这篇讲的是如何用最生活化的方式理解插入类排序。作者从打扑克牌的场景切入——手里每拿到一张新牌，就按大小插到已排好序的牌列中——清晰展示了直接插入排序的核心过程。文章不仅给出了这个算法的C语言实现，还通过统计比较和移动次数，分别演示了最好情况（已排序）和最坏情况（逆序）下的性能差异，最后得出平均时间复杂度为O(n²)的结论。随后，文章对比介绍了两种优化变体。折半插入排序通过二分查找减少比较次数，而不是顺序扫描；希尔排序则通过分组和逐步缩小增量的方式，让排序效率更高。作者通过扑克牌的连续操作步骤，将这些抽象算法的每一步都可视化，让读者能直观看到算法如何一步步移动元素、缩小比较范围。整体而言，这篇文章没有停留在代码罗列，而是结合实例与原理分析，把三种容易混淆的插入排序讲得层次分明。尤其适合想搞清楚“它们到底有什么不同”以及“各自适合什么场景”的学习者。

本机暂存

IT 2013-04-07 13:17:17 / 累计浏览 7,022

深入浅出交换类排序算法(冒泡排序,快速排序)

这篇文章通过对比两种经典的交换类排序算法，系统讲解了冒泡排序与快速排序的原理、实现与性能差异。文章从冒泡排序“两两比较、逐步上浮”的直观思想切入，用军训排队的生活比喻和具体的序列交换过程（如4,3,5,6,2,1的逐步排序），清晰展示了其简单但低效的特点，并指出平均时间复杂度为O(n²)。重点转向快速排序时，文章突出了其“分治”核心：通过选取基准元素（pivot），用双指针扫描将序列划分为左右两部分，再递归处理。文中通过图示详细拆解了一轮快排的完整指针移动与交换过程，代码实现也体现了递归思想的巧妙运用。对比部分明确指出，快速排序在平均情况下时间复杂度可达O(n log n)，是内排序中效率最高的算法之一，尤其适合处理大规模或基本无序的数据。整体上，文章将算法思想、步骤图解、代码实现与复杂度分析紧密结合，既解释了冒泡排序易于理解但效率有限的教学价值，也阐明了快速排序在追求效率的实际应用中的优势。

本机暂存

IT 2013-04-07 13:15:28 / 累计浏览 4,584

深入浅出选择类排序算法(简单选择排序,堆排序)

这篇文章讲的是两种经典的选择类排序算法：简单选择排序与堆排序。作者从基本思想出发，用一个有趣的比喻——在班级中依次选择最喜欢的“女朋友”——生动解释了简单选择排序如何工作：每一轮遍历未排序部分，找出最小值放到已排序序列末尾。它的实现直观，但时间复杂度固定为O(n²)，无法避免大量的比较操作。堆排序的讲解则更深入。它将待排序序列构建成一个完全二叉树（大顶堆或小顶堆），利用“父节点总是最大（或最小）”的性质，通过反复交换堆顶元素与末尾元素并调整堆来完成排序。文中详细演示了建堆和递归调整的过程，并附有代码。这种基于二叉树结构的方法，将最坏情况下的时间复杂度提升到了O(nlogn)，同时保持O(1)的空间复杂度。两者虽然同属选择排序范畴，但效率差异显著。简单选择排序逻辑简单、易于实现，适合数据量小或对稳定性有要求的场景；堆排序则凭借更优的时间复杂度，在处理大规模数据时表现突出，是许多高效排序系统的基础。

本机暂存

IT 2013-04-07 13:14:34 / 累计浏览 4,025

数学中的极限思想求时间复杂度

这篇讲的是如何用更严谨的数学方法来计算算法的时间复杂度。通常大家习惯直接保留函数中的最高次项，比如将 T(n) = 2n^5 + 3n^2 - 1 简写为 O(n^5)。文章指出，这种简便做法其实不够严格，其背后的正确依据应当是数学中的极限概念。作者详细推导了极限判定法：当 n 趋向无穷大时，T(n) 除以某个猜想 f(n) 与一个常数系数的乘积，若结果为一个常数，则 f(n) 就是 T(n) 的时间复杂度。用这个方法重新计算开头的例子，可以严谨地得出 O(n^5) 的结论。更重要的是，极限思想能解决一些常规方法棘手的对比。比如比较多项式 n^k 和指数 k^n（k 为大于1的常数）的复杂度，直接判断很模糊。文章通过对两边取对数再求极限，清晰地证明 n^k / k^n 的极限为 0，从而得出结论：当 n 足够大时，O(n^k) 的效率远优于 O(k^n)。最后，文章还展示了如何将指数增长的思想应用于分析循环次数，推导出类似 i = i*2 这种模式的时间复杂度为 O(log₂n)。这篇内容为理解算法效率提供了一个更坚实的数学视角，帮助开发者不仅知其然，更知其所以然。

本机暂存

IT 2013-04-06 23:19:04 / 累计浏览 4,502

信用卡校验位算法THE LUHN MOD-10

这篇讲的是信用卡卡号校验位背后的经典算法——Luhn Mod-10。作者从卡号的每一位数字出发，解释了如何通过一套简单而精巧的步骤来验证其真实性。算法核心流程很清晰：先给卡号每位数字乘上一个交替的1或2的权重（具体从哪个权重开始，取决于卡号总位数是奇数还是偶数），如果乘积大于9则减去9。接着，将所有处理后的数字相加，最后对10取模。只要结果为0，就说明这个卡号格式上是校验通过的；否则很可能存在输入错误或是伪造号码。这个算法的巧妙之处在于，它仅通过基础的加减法和取模运算，就能高效地检测出常见的输入错误，比如输错一位数字或相邻两位数字颠倒。虽然简单，但它被广泛应用在银行卡、身份号码等多种编码体系中，作为一种可靠的基础校验手段。

本机暂存

IT 2013-04-06 23:16:11 / 累计浏览 7,881

记一下那些伪随机数生成函数

这篇讲的是一个在多线程环境下由伪随机数生成函数引发的性能“血案”。作者在使用100M数据跑LDA算法时，发现多线程迭代反而比单线程慢了数倍，且CPU大量时间耗在系统空间。排查后发现，罪魁祸首正是代码中调用的random()函数。原来，glibc中的random()和rand()虽然是线程安全的，但其内部实现（加了一把全局锁）导致它们是不可重入的。在多线程竞争同一把锁时，性能便一落千丈。文章进而对比了rand_r()等可重入函数的实现，指出其算法较弱；而drand48系列函数则提供了更优的、基于独立状态数组的可重入版本（如erand48_r()）。作者清晰地梳理了这些函数族的内在区别与适用场景：若需多线程高性能计算，必须使用能维护线程本地状态的可重入版本。文章从具体坑点出发，剖析了glibc源码实现，最终落到了对随机数函数选型的实用建议上，对理解并发编程中的隐形陷阱很有启发。

本机暂存

IT 2013-04-06 23:13:26 / 累计浏览 5,281

为什么Fibonacci数列相邻两项之比会趋于0.618？

这篇文章从斐波那契数列相邻两项的比值现象出发，解释了它为何会趋近黄金比例0.618。作者没有停留在代数推导上，而是借助 Mathematica 动画，通过“黄金矩形”的几何构造给出了一个直观而优美的解释。核心思路是：以斐波那契数对（1,1）、（1,2）、（2,3）…为边长构造矩形序列，每个新矩形都由前一个旋转90度并拼接一个正方形生成。随着图形不断递归生长，初始细节的影响逐渐消散，矩形整体与其内部的小矩形变得高度相似——这正是黄金矩形的定义特征。图形化演示清晰地展现了，无论起始矩形的比例如何，最终都会收敛到相同的黄金比例。文章还顺带点明了一个有趣的结论：任何遵循“每项为前两项之和”规律的数列（哪怕起始值是任意的2和7），其相邻项比值最终都会收敛到0.618。这让抽象的数学规律变得可看、可感，也解释了一个常见的数学魔术背后的原理。

本机暂存

IT 2013-04-06 22:43:36 / 累计浏览 11,449

加州求职记

这篇讲的是一位国内互联网工程师放弃稳定工作，决心通过H1B签证赴美求职，最终却在Google、Amazon、Facebook三家巨头的面试中折戟的全过程复盘。作者在百度工作四年多，曾带过技术团队并出版译作，离职时信心十足。然而，他很快发现，湾区科技公司的面试核心是扎实的编码能力，要求写出可直接运行的零Bug代码。他坦承自己算法基础薄弱，并非ACM科班出身，最大的失误在于因自满而没有尽早研究目标公司的面试特点，也未及时用最有效的方法弥补短板。文中详细对比了CareerCup、ZOJ、TopCoder、LeetCode等平台的优劣，指出LeetCode结合了真题与在线评判系统的优点，其难度与实际面试最为接近，是他后期最有效的训练工具。在英语沟通方面，他也分享了通过“自言自语”进行模拟技术讲解的独特练习法。尽管最终未能成功，但这段经历涵盖了首次英语面试、办理签证等多个“第一次”。作者以诚恳的态度记录下从盲目自信到反思自身不足的心路历程，为同样计划“肉身翻墙”的同行者提供了一份极具参考价值的实战教训与准备路线图。

本机暂存

IT 2013-04-06 22:42:45 / 累计浏览 36,710

如何高效使用搜索引擎

这篇讲的是如何通过一系列高级搜索指令，将普通搜索变成精准的信息挖掘工具。文章从基础的双引号完全匹配和减号排除，逐步深入到inurl、intitle、site等更具针对性的指令，并清晰指出了它们在百度、Google等不同平台上的支持差异。作者不仅列出了指令，更侧重于实战组合。比如，通过“inurl:.edu.cn intitle:交换链接”可以精准定位学校网站的链接交换页面；而“site:.com inurl:blog “post a comment””这个组合，则能高效筛选出可评论的博客，为寻找外链资源提供了可复制的模板。文章的核心价值在于，它将搜索引擎从一个简单的提问工具，转变成了一个能够定向筛选权威信息源（如.gov、.edu域名）、分析竞争对手（通过inanchor、related指令）以及探测内容详情（filetype搜索特定文件）的高效侦察系统。对于需要经常查找特定资料、进行市场调研或SEO优化的读者而言，这些技巧能显著提升搜索效率与结果精度。

本机暂存

IT 2013-03-11 13:52:23 / 累计浏览 3,626

如何测试洗牌程序

这篇文章讲的是，如何为一个看似简单、实则暗藏玄机的“洗牌程序”编写有效的测试。作者从面试中发现，许多资深程序员竟然对如何测试 ShuffleArray() 束手无策这一现象出发，指出了测试本身可能比算法实现更具挑战性。文章对比了三种常见的、看似可行的洗牌算法：递归二分法、利用快排的 Hack 技巧，以及大多数人采用的随机交换法。从表面运行结果看，它们似乎都能完成洗牌工作。然而，作者通过概率统计的测试方法——记录大量洗牌结果中每个元素出现在每个位置的频率——揭露了问题的本质。测试数据清晰地显示，这三种算法产生的序列都存在严重的统计偏差（例如，某些位置的特定元素出现次数远高于预期），证明它们都不是真正的随机洗牌。最终，文章引出了经典的 Fisher-Yates 算法，并用同样的统计方法验证了其输出的均匀性。这篇文章的价值在于，它生动地展示了“如何验证一个随机算法”这一具体案例，并强调了基于统计的验证思维对于开发者至关重要。

本机暂存

IT 2013-03-07 13:52:09 / 累计浏览 3,583

JVM垃圾收集算法

这篇系统梳理了JVM垃圾回收中几种核心算法的思路与权衡。文章从最基础的“标记-清除”算法切入，指出了它虽简单却有效率低下与内存碎片两大硬伤。为解决效率，“复制算法”以空间换时间，通过内存分区和存活对象拷贝来运行，但代价是内存减半；不过，结合新生代“98%对象朝生夕死”的特性，现代虚拟机巧妙调整了Eden与Survivor区的比例，将浪费降至10%。针对老年代对象存活率高、无法浪费空间的场景，“标记-整理”算法则另辟蹊径：标记后让所有存活对象向一端移动，从而整理出连续内存空间。最后，文章点明了当今主流的做法——“分代收集”，它并非新算法，而是根据新生代与老年代的不同特点（对象存活率、空间担保需求等），灵活组合采用上述策略，以达到整体最优的回收效果。整篇文章对比清晰，从算法原理到工程实现，为理解JVM内存管理提供了扎实的脉络。

本机暂存

IT 2013-03-05 13:24:00 / 累计浏览 4,502

开源压缩算法Zopfli介绍

这篇讲的是谷歌近期推出的一款名为Zopfli的开源压缩算法。它本身是一款deflate格式的兼容性压缩器，灵感来源于WebP图像压缩中的无损压缩技术优化，因此能与广泛使用的zlib、gzip完全兼容，这意味着几乎所有浏览器和解压工具都能直接处理Zopfli生成的数据。文章重点剖析了Zopfli的两个核心特点：一是压缩性能，其输出文件比gzip 9压缩的结果小约3.7%到8.3%；二是压缩速度，比gzip 9慢了81倍。这是一个典型的用时间换空间的权衡。作者指出，这种“高压缩率、解压完全兼容”的特性，使其特别适合Web服务器的数据存储与分发。虽然单个文件压缩率的提升看似不大，但在海量数据的场景下（如大型网站、CDN），由此带来的带宽与存储成本节约将非常可观。文章末尾还附上了简要的命令行用法，方便读者快速上手测试。

本机暂存

IT 2013-03-04 14:42:41 / 累计浏览 1,661

为什么互联网产品的成功率这么低

这篇文章回应了一位创业者的困惑，深入剖析了为何互联网新产品的存活率可能不足1%。作者从三个核心原因展开：首先是马太效应，互联网渠道扁平化和体验高度同质化导致赢家通吃，市场留给后来者的机会极少；其次是盈利模式单一，在国内尤其依赖大规模流量变现，逼迫产品涌入红海；最后是行业生态不成熟，团队几乎需要独立包揽从策划到运营的所有环节，对综合能力要求极高。文章不仅分析了现象，更揭示了一个行业悖论：马太效应驱使产品创新需远离红海，但小团队又往往因生态支持不足而难以突破全能型挑战。最终，作者反思了“成功”的定义，提出对许多从业者而言，全心投入并装扮一个自己热爱的产品，所收获的历程本身，或许比追逐那1%的渺茫成功更为真实和重要。

本机暂存

IT 2013-03-03 23:45:16 / 累计浏览 2,207

不得不留意的STL string重载函数和隐式类型转换

这篇讲的是STL `std::string` 构造函数的性能差异，作者从360云引擎团队的一篇深入剖析文章出发，通过实测数据揭示了几个容易忽视的关键点。文章在Linux GCC 4.1.2环境下，对多种`string`构造方式进行了万次循环计时。结果发现，利用拷贝构造函数`string(const string&)`最快，这得益于写时复制（COW）机制。而令人意外的是，最常用的`string(const char*)`构造方式耗时竟然最长，比其他需要分配内存的构造方式慢数倍。原因在于，若不预先提供字符串长度，构造函数内部必须先调用`strlen`遍历一次整个字符串以确定内存大小，而像`string(const char*, size_t)`这样直接给出长度的版本则省去了这步开销。这提醒开发者，在已知字符串长度的情况下，显式传递`size_t`参数能带来显著的性能提升。同样，需要复制`string`时，直接使用拷贝构造函数也是更高效的选择。

本机暂存

IT 2013-03-03 23:32:34 / 累计浏览 2,082

社交网络的自我实现及社交要素

作者从马斯洛的“自我实现”理论切入，结合自身经历，探讨了社交网络如何成为个人发现潜能、达成自我实现的重要场域。文章核心观点在于，实现自我的关键路径是“尝试”与“激励”——用户需要在平台中低成本试错、发现兴趣，并通过社区反馈获得持续动力。作者以豆瓣和新浪博客为例进行了具体说明：豆瓣通过书籍指引与兴趣小组，帮助其找到了产品道路并积累了人脉；博客则通过读者的互动与认可，激发了其持续写作与分享的潜能。这些体验支撑了作者的判断：基于弱关系和兴趣连接的社区，更能有效支持用户的自我探索与成长。在此基础上，文章进一步提炼了社区的三个核心要素。首先是“关系”，它决定了社区发展的方向与用户动力来源；其次是“文化”，一个社区的主流氛围会筛选并影响用户群体；最后是“工具”，包括内容创作、激励与秩序管理工具，它们赋予了用户行为发生的可能性，其中内容创作工具的设计（需平衡成本、表达性与学习性）尤为关键。整体而言，这篇内容从个人体验出发，层层推导至产品设计逻辑，对理解社区产品的底层驱动力提供了具体的分析视角。

本机暂存

IT 2013-03-03 23:10:09 / 累计浏览 3,321

为什么算法渐进复杂度中对数的底数总为2

在分析算法时，我们常看到 O(log₂n) 或 O(n log₂n) 这样的复杂度表达，但很少有人深究：为什么对数的底总是 2？为什么不出现以 3 为底的情况？这篇文章从这个看似理所当然的细节出发，揭示了算法复杂度表示中一个容易被忽略的知识点。作者以大家熟悉的归并排序为例，引出了“三分式归并排序”这个变体——即每次将数组三等分而非二等分进行递归。通过分析它的实际时间复杂度，文章直观地展示了一个关键事实：不同底数的对数之间只相差一个常数因子。在渐进复杂度的大 O 表示法中，这个常数会被忽略，因此 O(log₂n) 与 O(log₃n) 本质上是等价的。既然如此，为何惯例上总是书写底数 2？文章指出，这主要源于直觉和历史习惯。因为二分法（每次问题规模减半）是计算机科学中最常见、最基础的分解方式，它直接对应了二叉树的结构和许多经典算法（如二分搜索）的核心思想。使用底数 2 能让人立刻联想到“将问题规模反复减半”的过程，这使得算法的逻辑与复杂度表达在直觉上形成了统一。因此，底数的选择并非数学上的严格要求，而是一种服务于理解与沟通的工程约定。这篇文章的价值在于，它帮读者厘清了这一约定背后的原理，让我们在写下 O(log n) 时，能更清晰地理解其背后的计算图景。

本机暂存

IT 2013-02-28 23:57:27 / 累计浏览 13,164

Linus：利用二级指针删除单向链表

这篇讲的是Linus Torvalds如何用二级指针来优雅地删除单向链表节点。文章从Linus在slashdot上对一段“标准”代码的批评切入，他直言那种需要维护`prev`指针并判断是否为表头的写法，表明作者“不懂指针”。核心对比了两种实现思路。传统写法（很多教科书和面试题的标准答案）需要额外维护一个`prev`指针，并在删除时判断当前节点是否为链表头，代码中存在条件分支。而Linus推崇的“core low-level coding”技巧，是直接使用一个指向节点指针的指针（即二级指针`node** curr`）来遍历和操作链表。其精妙之处在于，无论要删除的是表头还是中间节点，都可以通过统一的`*curr = entry->next`操作完成，无需任何条件判断。文章通过逐行代码解析和示意图，阐明了这种写法如何将“前驱指针”的概念融入到对`next`指针本身的间接操作中，最终生成更清晰、更可能被编译器优化出高效指令的代码。这种对指针的深刻理解和运用，体现了Linus所看重的注重细节、追求高效底层编码的审美。

本机暂存