数学模型与简化(modeling simplify)

Posted by anson

at 2008年1月10日

我们这代人很幸运，也很无奈，幸运在于我们处在一个知识大爆炸的年代，新的知识层出不穷，我们每个人的知识可能能够跟那些历史的伟人像牛顿、伽利略等比肩，无奈的是正是因为知识大爆炸，这些知识的更新的速度也加快，知识的更新速度有时已经不是用年来计算了，而是以月来计算了。记得我大学的时候学习的高级计算机语言是pascal，上机实习用的是IMB的PC/xt，几年后这种计算机就销声匿迹了。等到我本科毕业开始做论文的时候，已经用上了486，至于之前准备的一堆的5寸盘，都已经成了历史的证据。在最近的几年这种趋势呈加速发展的趋势，新的互联网应用和互联网产品每时每刻都在更新，每天都有新的应用产生。这些新的知识和新的应用有些能够很快成为流行，被大众接受，有些却昙花一现，没有成功，这里面到底有哪些共同点呢？

互联网一方面使得信息的流通变得特别的容易，使得知识的获取变得比以往快速得多，也使得知识的分享真正脱离了传统的图书馆和课堂。同时，互联网使得很多的商业可以依靠这个看似简单的工具极其有效的运转起来。很多原本很难实施的商业模式都被搬到了互联网上。例如拍卖就是一个非常好的例子，传统的拍卖很难在一个物理的地方上集中数以万计的商品和卖家，因此规模也就变得有限了。有了互联网，物理上的约束被彻底解放了，数以万计的卖家和买家可以在一个平台上针对不同的商品进行交易，一个虚拟的市场就很容易形成，也很容易形成规模。原来我们关于商业的一些认识在互联网时代就被彻底的改变了。

从过去的10年里，我们看到了一系列成功的案例，例如netscape、kazza等，无疑开创了网络时代的创新。这些应用一方面利用了互联网的最本质的特征，另外一方面在技术上的创新使得这些应用风靡一时。这里面最为杰出的就是我们熟知的搜索引擎了。与其说是搜索引擎的杰出，倒不如说是google带来的革命。

在google之前有相当多的搜索引擎，都有过短暂的辉煌，在google之前，所有的搜索引擎里关于相关度计算的最重要的部分是被广泛了解的TF*IDF算法，然而当google使用page rank来计算网页的重要度的时候，良莠就显现出来了。page rank来自于一个假设：重要的网页会被链接的次数更多。一个简单的假设再加上一个简单的迭代公式，作为pagerank的原型，google的搜索明显优于其它的搜索引擎了。虽然接下来的几年里google又调整了page rank算法和加上了hilltop算法，但都是锦上添花，而不是革命性的变革。

我们能从google的模式上学到什么呢？google的创新模式有什么规律可循？

1. 对网络社会的认识，设定一个假设
2. 针对假设进行一个数学建模
3. 对建立的模型进行实际数据的对比，以简化或可计算化
4. 将实际收集的数据进行实际运算

例如就拿Google PageRank为例，我们对网络社会的假设就是“重要的网页会被链接的次数更多”。这个假设是建立在我们认为好的网页、有用的网页往往会被别人收录，或者通过链接的方式连接起来。
针对这个认识，建立一个数学模型。在这个数学模型里有几个核心：第一，每一张网页都有一个重要度、第二，被其他网页链接会提高重要度、第三，链出会降低重要度。整个模型就像一个一个水池，每个池子的水量就是重要度，池子之间的管道就是链接。

数学模型建立起来了，这个数学模型更像是解一个多元方程组，其中的变量可能高达数千万甚至上亿，要对整个互联网的全部的网页进行计算，规模巨大。解这样一个方程组显然是不可能的，因此简化算法，采用迭代的计算方法。首先将网页的重要度设定一下初始值，然后进行多次迭代，在迭代的过程中找到稳定的结果，也就是最终这个多元方程组的最后的答案。

实际收集到的数据网页进行分析，获得链出和链入的链接，然后根据简化的计算模型进行迭代计算，就获得了最后每张网页的PR值。

记得以前看过google的中午blog，里面有一片谈到数学之美的文章，我想这大概应该是google的一个理念的体现。一切皆有可循之因，一切皆有可简之美。

数学模型与简化(modeling simplify)

相关文章:

Comments

Leave a comment

Search

文章归档

网站分类

最近发表

网站分类

标签TAGS

文章归档

网站收藏

友情链接

图标汇集