原型出来以后是不是一下子就能使用呢?不是,因为它需要不断训练来提升到可应用的精度。在算法架构的时候,需要业务数据结合经验作为构建的基础,等到有了原型以后,我们要把实际生活里面的数据放进去,看看它跑的效果怎么样,跑几轮优化之后,算法的精度就会不断提升。比如通过算法在地铁里抓小偷,一共测出138名小偷,有两个人不是,但是没有关系,不会冤枉他,因为一旦判定他是小偷,会部署好在行动的时候才抓他现行,那么有两个人始终没有抓,我们确认了这两人不是,再来分析为什么算法认为这两人是呢?可能需要对特征进行适当调整,甚至获取更丰富的训练样本,调整模型的超参,再来寻找优化指令的方法。经过多次训练优化的过程,算法的精度通常会逐步提升。
以前数学建模是把模型带进去计算,每次算的时候还需要人来干活,行为是人工的。算法软件化以后有一个好处,就是可以自动计算,一旦有数据进去,结果就出来了,过程实现了自动化。算法软件化非常重要,过去遇到问题不管是用什么先进的系统,处理的时候是用传统方法处理的。但是算法出来以后,每次遇到这个问题,把数据输进去就知道怎么办了,处理的效率会大大提高。跟大型系统不同,我们一般把面对场景问题的算法称为微应用,形成的软件叫微软件。进一步来说,算法很重要的特点就是可以针对垂直的业务问题,选择不同的算法组合。比如能够用来辨别冠心病的算法不能辨别糖尿病辅助论坛,因为这个算法是精准地解决这个问题的。同样,在城市管理中,不同的部门会遇到不同的问题,比如前段时间有个地方燃气爆炸,我们需要辨别燃气的安全,然后做预测、预警;上海为了减少城市自来水流失,把管道全部传感器化,根据水深、流速等等判断大概在哪一段有故障,能够及时加以维护和抢修,燃气预警算法跟水管监测算法就不同。
城市管理会遇到很多问题,需要建设一整套监测、判断、分类、匹配、干预等算法。这些算法建设起来以后,什么地方、什么情况需要用到什么样的算法,都上到电子货架上进行不同的组合,这个称为算法货架或算法池、算法库。我们有大数据中心的概念,大数据相当于石油,但是石油有能用的吗?我们能用的是汽油,汽油是从石油里提炼出来的,提炼的方法和配方叫做算法。石油是原料,算法是解决问题的指令。
一个算法只能解决一个问题吗?不是,其实很多的算法模块既可以在这用,也可以在那用。像乐高积木一样,BPAA很多参赛项目路演时提到了积木式的应用,比如一个用来发现虚假欺诈问题的算法,也可以用来在地方税务里辨别虚开发票。算法中间有一些模块是可以拿出来的,可以在另外的方面产生另外的成效。比如一串算法一共有12个算法模块,其中6个算法模块做下一个东西的时候直接可以移过去用,这种算法组合效应使得算法开发的效率越来越高。如果城区需要3600个热线算法,第一批开发50个算法需要用6个月,第二批开发200个用6个月,开发到1100个的时候也只用6个月,到开发2800个的时候也是6个月。在开发算法的时候,效率是越来越高的,原因就在于组合效应在中间发挥的成效。
大脑到底是什么样的?我认为今天大部分的大厂——无论是IT大厂、互联网大厂还是数字化大厂生成的大脑都更像脑壳,主要是系统和平台。人和猴子的区别是脑容量不一样,本质是脑细胞和神经元总量不一样,每一个神经元和脑细胞面对不同的问题解决不同的问题,所以反映的能力也不一样。大部分城市所建设的是一个系统,布置很多传感器、很多硬件,相当于超级章鱼,章鱼的感知能力很强,但还是会被人类吃掉,因为它没有脑袋,所以章鱼干不过人类。猪看起来跟人类脑袋一样大,脑容量也不小,但是脑细胞和神经元总量比我们低很多,所以它不是灵长类动物。无论是行业大脑还是金融大脑、城市大脑,神经元总量决定了它是不是真正的灵长类解决问题的大脑,这就是为什么我们今天强调算法的价值所在。