根据学位委员会(2013)36号文件,自2014年起,原"在职研究生课程班"更名为"课程班",在职人员申请硕士学位流程及要求不变。原“在职博士课程班”更名为“高级课程班”同等学力申请博士学位流程与要求不变。

在线咨询

在线报名

开课城市
北京、上海、深圳、郑州等教学中心。

当前位置:首页 - 智库讲座

第44期陆家嘴读书会实录

庞引明 :大数据分析在互联网金融中的运用

主讲嘉宾介绍


庞引明

绿地金控集团互联网金融事业部总经理

上海市互联网金融行业协会理事。在复旦数据库实验室,获得计算机软件与理论专业理学博士学位。先后在Ipedo、Sybase等一流软件研发机构从事技术工作。在无锡国家软件园担任总工程师期间,从事IBM中国首个商用SAAS平台的运营管理工作。之后,进入金融界,先后担任东海基金管理有限责任公司运营总监和东海证券股份有限公司互联网金融部总经理等职位。现任绿地金控集团互联网金融事业部总经理,是行业资深互联网金融和大数据分析专家。2014年起,在职攻读中国社科院研究生院金融学博士学位。

以下是庞引明演讲实录:


最近国家对互联网金融领域正在进行整治,之前预计6月底会结束整治,现在来看可能还需要点时间,因为存在的问题比较多,这也是在发展过程当中存在很多问题的领域。其实从证券行业从业人员来说,这一点都不令人奇怪。我记得几年前和深交所的段总一起聊天,他给我们举了一个例子,证券公司刚在大陆发展的时候,当时有两类公司:一类背后是国家部委,还有一类是各个省、市的财政相关部门的一批证券公司。当时的问题比现在还多,没有风控、没有管理的情况下,面对一大笔钱没有谁会不动心。

还有一个著名的笑话,当时深交所做债券交易是用现金,当时还没有100元,都是10块钱的面值,买卖债券都是用拖拉机拉钱去的。当时觉得很不可思议,但是那就是现实,走到半路就有人想反正没有账面,也没人知道,瓜分了算了。回去之后要给个说法,也很简单。就说走到一个村庄,被农民打了一顿,钱被抢了就可以了。这是当时真实的案例,没有风控、没有管理、没有监管,什么事情都有可能发生。当然现在互联网金融我们说有“吉祥三宝”,最近出现风险状况的公司,其实一点都不奇怪。和那个时候是惊人的类似,又是一个轮回。所以有人研究区块链的时候我就想,若用区块链去掉中间的节点,交易双方互相清楚对方情况,或许这种问题也就不存在了。

这两天发生了件大事,大家知道Lending Club从最高85美元股价一直跌到上个星期五是3.99美元。为什么会出现这个问题?大家仔细分析一下就会很清楚。我们和美国那边联系说Lending Club有没有可能被中国收购。美国人很惊讶,为什么中国人对Lending Club如此感兴趣。他不知道,当时国内讲互联网金融,言必称Lending Club,Lending Club是一个标杆,因为它的风控做的好。当时有一个基本的假设,Lending Club之所以在美国成功,是因为美国完善的风控体系。但现在看来,也只是一个美丽的故事。

为什么这么说?我可以给大家分析一下。Lending Club给谁贷款?LendingClub给在美国现有金融体系当中很难拿到贷款的人,或者是无法忍受现有的管理体系、审核周期比较长的人。比如说我今天晚上申请贷款,明天审核完就可以拿到钱,速度很快,而且一个在原来的信用体系中有瑕疵了人也可以拿到贷款。大家想想这是不是一个美丽的谎言呢?也就是说,如果他的风控体系是完善的,那你在新的P2P平台上也应该贷不到款才对,瑕疵仍然是存在的。如果这个人已经有瑕疵了,现有的体系当中不能给他贷款,在P2P平台上应该有一套完整的风控体系。如何给这种有瑕疵的人建立一种信用体系,使他可以贷到款,中美是站在同一个起跑线上。

当时我们想的是,Lending Club是建立在美国的征信体系上,我们没有征信体系,所以我们说我们要从头发展。实际上这是一个很可笑的逻辑。所以一旦明白这个道理,华尔街就把Lending Club抛弃了,所以股价从85美元一下子跌到3美元,我打电话问Lending Club的第一大股东,他说股价还会往下跌。因为大家发现,他的风控体系有问题。为什么CEO可以跨过风控体系来动那个钱,说明他的风控体系形同虚设,和国内类似。只不过其他的法律体系完善一些,或者说人守规矩,不会卷款逃跑。而我们的人不一样,比如e租宝,是一个安徽初中毕业的干小五金的人干起来的。其实我们都在背后研究,他为什么可以很快集资700亿,而且做的很高端。

别看Lending Club好像没有什么文化,但是他深谙中国人的心理,这正好是我们互联网金融行业如何不断获得资金集聚的很重要的部分。所以当时我们和出版社商量,希望加重风控部分的内容描述。在复旦做演讲时,有研究生问我,第七章中提出了三种可控制风控的方法,这些方法在哪本教课书,或者哪篇论文当中讲过?我说这就是被教傻掉了。我们是工作在一线的,在一线当中碰到一些问题,通过手中的一些数据工具来解决风控问题。就好像在井冈山的时候,别人指着毛泽东鼻子说,你这是马克思主义哪一章当中提到的,可以打游击战。这是一个非常可笑的事情在现实中又发生了。这些研究生都是非常优秀的学生,他一定要言之有据,必须在某一篇论文当中或者是某一本书当中看到这条理论才可以站得住脚。你从实际当中来,你就是土的,你就站不住脚。后来还有很多人问我这个问题,我就统一做一个解答。因为第七章是遇到问题之后,我运用自己的知识想到的解决方法。

书中我没有提到,在P2P当中有一个著名的问题,就是P2P如何衡量风险。一个人还是没还,就是0和1的问题。但是我们现实生活当中并不是这样。比如说我的贷款应该12个月内还完,我还到11个月毁账,和只还一个月就毁账的人,信用登记不应该一样。用函数的方法表达就是, 1/12和11/12的信用等级应该是不一样的。但是这是其他人的观点,所以我没有写到书当中,但是可见很多人在思考如何解决当中的风控问题。

国内P2P或者是互联网金融出现的问题,都是风险问题。风险是不是能用技术解决?很难说。我写这本书,希望大家读完之后可以一起探讨。是不是可以通过其他的方式解决?当然技术手段确实可以更有章法或更有效率地解决问题。大数据分析能否解决这个问题?前两天我在武汉的时候和大家讨论这一个问题。很多人认为他在网上抓到了大数据,但他并不能保证这个数据的正确性。但是我们是看结果的,如果说你结果是错误的,或者结果导致的结果是不好的,我们会反溯回来看这个数据本身的真实性。

其实在在学术当中,这个问题早已解决了。很多论文都阐述了如何在不保证数据真实性的情况下可以得到真实的结果。这是在学术界已经成为定论的东西,通过一些统计学中的方法可以做到这一点。

这本书写完之后,我发现互金行业发展的非常快。这当中有很多东西我们希望可以重写,甚至是下一本书当中我们可以把它讲明白。比如说区块链,我们在第一章讲的很建设,现在已经被讨论的非常多了。

首先什么是金融。我是先读的计算机博士,然后到这里读金融博士。一年多之后,我认为金融就是钱,我希望钱可以流动起来,经济发展是一个个个体,有机器、厂房、人等等的东西,里面流动的是什么东西?使得这些要素如何转起来,那就是钱。最早的时候钱怎么来的?金融单位是怎么来的?我是种地的,我的邻居是养鸡的,我种地之后一年得到的多是粮食,我想吃肉怎么办呢?邻居养了15只鸡,一个月吃一只的话,有三只是多余的,可以和我交换一下。没有货币,我用一担谷子换他三只鸡。但是如果说我做大了以后成为一个地主,我有几千亩地,他开了一个养鸡场,我们之间就不能用数人头的方法来做了,就会专门有人从土地独立出来做这个事,中介机构就形成了。证券是怎么回事?我借你的钱我要还,如果说我不还呢?变成一个股权机构那就是一个公司制的东西了。互联网金融是什么呢?我为什么说他不会消失,因为它很可能是人类金融发展的一个过程。我不赞成说互金是一个过眼云烟的东西。因为我们觉得如果运用技术手段,不光是可以提高金融的效果,而且真的可以展现很多金融的方面。

比如说区块链,大家知道里面很多要素性的东西可以通过区块链有相当程度上颠覆性的改变效果。怎么解释?不管你把互联网金融看成未来一个重要的金融形式,还是中间形式,它一定是绕不过去的,或者是存在的经历的形式。为什么国家是整顿互联网金融而不是取缔呢?因为这是一个人类金融文明的进步的一个阶梯。

我刚刚举了很多例子,我们技术的进步,最开始是固定电话,在80年代初的时候很多人家里没有固定电话,到80年代末的时候,家里有了电话,那个时候还是受限的,那个时候我一个星期给父母打一个电话,当时我的电话就是装在床头。后来大家发现不方便,就有了BP机,BP机给你留一个言,我就不用在家等电话了。这一切都是技术进步的结果,其中是一个技术进步的台阶,阶梯也有一些东西会消失。有人说互联网金融会过一段时间消失掉。那么首先什么是互联网金融,互联网金融给人类带来的是什么?这个值得大家去讨论。

我们当时在写这本书的时候,也问出版社,编辑不太赞成我们写的很激进,用“颠覆”这样的字眼。因为他考虑这本书的受众是大众层面,就要求我们写的大而化之一点。但是我们写完之后觉得不满意。我们希望在下一本区块链当中表达一些更加激进的观点。

讲了这么多前面的看似无关的东西,接下来讲讲这本书。诺贝尔经济学奖获得者哈里·科斯在加州的一次演讲当中说,如果金融不改变,互联网将改变金融。和马云的那句话有点像,银行不改变,就改变银行。


书中提到互联网金融有六个维度。这代表了我们当时的想法,现在很多东西都发生变化了。从业务的角度、监管的角度,我们这里面讲到一些最基本的工具。这本书当中讲到一个基本的观点,我们认为国内提“互联网+”其实是一个补充。当时我们国家在95年的时候,第一轮互联网热的时候,当时遍地都是互联网公司,和现在的互联网金融有点像,那个时候经济发展很快,各地都可以赚钱,并没有人在意互联网可以带来什么。其实那个时候也有很多骗子,只是涉足金融的不多。到了2000年左右,互联网开始赚钱了。到了2005年的时候,有好几个做互联网保险的比较成功。10年间经历了一个老百姓认识的提升,以及国内基础设施的进步。

到了国家开始提“互联网+”的时候,我们认为中美的差距并不大,美国有谷歌我们有百度。现在很多人对百度有不满,毕竟百度对国内互联网的普及,中国资料的整理是有其独特的地方的。我们互联网行业和美国差不多,但是制造业方面我们就差很多了。所以我们提出了“互联网+”是补充。比如说金融,网上有一个很有名的观点是说到底是做互联网金融,还是金融互联网。其实从我们的观点来说这个观点是不存在的。其实金融互联网就是一个信息化的过程,我们为什么要“互联网+”,其实就是信息化。比如说众筹、P2P,这些东西才是真正的模式创新,但是我们很多传统金融做互联网,其实就是做的信息化没有完成的工作,其实我并不认为互联网金融是创新。当然我也很遗憾,众筹是西方人的发明,我们国家在这方面没有什么贡献。我们当初也做过一个总结,P2P对银行一开始说是颠覆,但是现在来看至少补充是没有疑问的。如果说大家都用同一个征信体系,那结果一样;如果要不一样,就一定要建立新的征信体系。只有让原有的信用体系当中有瑕疵的人可以借到款,那才是有意义的补充。所以实际上银行做P2P,做的只是原来的征信体系,如果说没有扩大这个征信体系,银行业务依然没有扩大。因为他认为可以借款的人,永远是那些他认为是合格的人。

我对众筹评价很高。我是互联网金融的理事,我们成立了一个众筹专业委员会。我们的委员会主席是袁岳,他带着我们做众筹,我觉得众筹是人类非常伟大的发明。当然我也许在社会上学习的时间还不够长。我觉得股权公司的模式更伟大,大家是合伙人的概念,只有合伙人的概念,公司才可以得到更大发展,而不是简单的借钱关系,如果是入股、合伙人的方式,对推动公司发展有更大意义。众筹是一个细微化的证券的一个分支,是一个入股的概念,尤其是股权众筹。现在大家还没有看到其巨大推动意义的原因是,老百姓的接受度还比较低,且其中还存在一大堆风控问题。这个问题解决以后,我是比较看好众筹,特别是股权众筹对人类发展的推动作用的。

第三个是P2P理财。理财方面,我个人来说我是不太看好的。因为理财和基金公司做的事是差不多的。尤其是私募基金,他们可以互联网化,且效率高,因为它背后是一块牌照,有完善的风控体系。现在从头做互联网理财模式的话不太容易。首先是面临当下国家严格的监管,虽然监管还没有一个定论,但和公募基金相比,国内的P2P行业发展相对还是很吃力的,你会看到非常清楚的一对一的关系,P2P和银行,众筹和证券公司,理财和基金公司。

区块链我们是非常看好的。有一帮国内的人在网上成立一个公司,他们要用区块链技术来解构人类的现有架构。这个听起来是比较吓人。他认为目前人类的架构,比如说中央银行,中央政府,可以用区块链解构,重新架构成一个简洁化的,更有利于人类发展的体系。我认为,现在的区块链技术就是分布式账本,用分布式数据库的方式来做,其实这是在20年前就开始讲的东西,也基本上没有什么进步。

互联网金融首先有亲民性,互联网金融可以构建一个金融的理想国。大家可以认识到互联网金融,包括区块链技术,从技术的推动可能使人类可以达到这样。这样人类有一种返祖的感觉。最早是通过物物交换实现,现在假如说中间是网络,没有银行中间结构为我服务。如果用互联网金融技术架构达到之后,两个点之间通过区块链建立征信,我就不需要中间有中介的东西。当然中间风控是非常重要的,如何把风险降到最低,人类发展一定可以找到解决办法。

如果说是众筹的话,众筹是什么方式?1对1的话借的钱是有限的,除非他是一个非常富有的人,我用众筹方式就可以把面散播出去。这一切都用技术方式实现的话,试想这对人类现在的金融结构是不是一个非常大的颠覆?为什么从银行借钱有那么高的利息,就是因为这个原因。说简单的话,其实金融业没有那么复杂。但是简化金融的技术一定是非常复杂的,因为他要解决的问题非常多。

我认为互联网金融发展不应该出现像证券行业卷款逃跑的现象。20年前出现这样的问题,为什么现在又出现这个问题。一开始就不能完全任由互联网金融发展,大家都怕担负一个罪名,好像妨碍了创新。

我们国家在监管当中有比较好的手段可以解决互联网的问题。比如牌照制度、额度管理制度等,对于卷款逃的等问题,当初证券行业是怎么解决的?采用银行第三方存管。所以大家炒股一定要开银行账户,谁要动你这个钱一定要通过银行同意。这是一个行之有效的方法。

P2P用银行第三方存管就可以解决问题了,我们没有采用这个办法。这个事情其实很简单,只要让银行管起来,就解决了,没有那么复杂。但是可能要摔更大跟头之后,大家才会明白。

这个里面我们梳理了很多技术方面的东西。互联网金融对技术实际上提出了新的要求。我是学数据库的,我看到了几个问题,第一,互联网金融专用的编程语言现在是没有的,这个编程语言是很需要的,互联网金融里面很多都是需要专业的语言来做。

第二个是架构平台化,我们用的还是以前的电子商务架构,这个并不一定完全适合我们。

关于通用浏览器的开发。微软以前做了一件很不好的事情,有一个网景公司,技术比他先进得多,但是买了之后就给灭掉了。IE其实长期受诟病,说他用起来很不方便。这是现有人类公司制发展一些不利、负面的东西。有利于人类发展的技术,被微软买了以后就把它杀掉了。我觉得这是我们现在架构的问题。

另外两位作者是张博士和宋博士(指《互联网金融与大数据分析》另外两名作者张绍华和宋俊典),张博士原来是我的同学,宋博士是搞大数据的,他们在整个行业内,在工信部领导下提出了大数据治理的概念。他们对大数据有更大的发言权。这里谈谈我对大数据的概念。我在金融业干了很多年,对技术的东西并没有那么了解。我们现在主要是搞业务方面的,但是并不妨碍我从技术的角度来对大数据谈一些自己的看法。我在实验室研究数据库研究了6年,出来之后,当时提出大数据概念的时候,我准备写这本书的时候,我就问我的导师什么是大数据?现在的4个V的概念我觉得并没有什么技术上革命性的进步。我导师给了我一个概念,他说大数据是要讲它的完整性,全息性和可还原性。

我举一个例子,现在的人工智能的技术,实际上还是比较有限的。人记忆还原的能力是非常令人吃惊的。比如说我看你一眼,十年之后我可能还会记得你。这是非常奇妙的还原能力,他通过眼睛抓到的是什么?抓到的是什么关键数据,让你十年不忘,抓到的就是大数据。我是反对大数据是越多越好,当然没有任何遗漏的一定是大数据,但是我觉得大数据应该是关键性数据。关键的数据就是可以勾勒出你这个人形象的东西。这个东西具有还原性。现在的IT技术,让计算机记住一个人十年不忘,现在的人工智能技术是做不到的,那么怎么做?尽量把关键数据都包含在当中就可以了。

另外一个例子是87版的《红楼梦》,里面最出彩的是王熙凤。其实四大名著对人的描写,导演找到演员,好像他就点像,就是他的感觉。王熙凤出场两句话叫做“粉面含春威不露,丹唇未启笑先闻”,红楼梦的导演看了全国几千个演员不满意,为什么?就不是他脑子里装的大数据,对不上。这个人要是什么样一个人,导演组跑到四川,那是80年代,看电视录像,两个人晚上喝酒,进去一看,感觉王熙凤就是电视上的那个人,那个人就是邓婕。也有人说不像,那么请找一个比她更像的,后来又有新的版本拍了新的《红楼梦》,站在公正的立场上来看,后来的演员就是不像。

大数据在金融当中有什么用?举一个例子,证券公司当中,客户的适用性是产品的最基本的要求。就是你发的产品要和客户的风险喜好度相匹配。如果说他是畏惧风险,你发了高风险产品给他,证监会要找你的。那么你如何来衡量?我觉得抓到大数据很重要,不要认为是计算机处理的就是大数据,你如果记三笔可以把他记下来,也叫大数据。当时在证券公司提了一个叫“大数据意识”。比如说所有营业部都有监管要求的,都装有探头的。那个人从门口进来整个过程要录下来。他如果进来之后走一步退三步,畏畏缩缩,东张西望的,那个人是可以承担很大风险的人吗?那一定不是。你通过一分析,这就是大数据。而且大数据在金融系统当中的应用,我提出了一个理念,如果要做大数据,一开始就要做好。不管是什么样的结构,一开始的架构就要设计好,因为一开始架构设计好了之后,就可以使得未来的分析建立在非常可靠基础上。就是哪些数据是关键数据。数据要全,要好,精度要够,才可以做分析。现在有人提“大数据金融”。在大数据基础上做金融是可以的,在人的图像当中可以抓到王熙凤的概念,你在大数据当中是不是有这样的火眼金睛,抓住那个东西对你未来有用。

我们一直有一个理想,根据这个大数据进行分析,我们要的客户应该是什么样的人。比如说现在绿地有350万客户,这些客户都是非常有钱的。我们在卢湾滨江的房子10万一平,300平一套,3000万,一个小时卖完,全部都是全款,没有贷款,这样的客户我们有350万,这些客户当中,谁能够买美国的房子,我们要进行分析。我们的营销总监说,群发短信没有意义,而且要花很钱。我要找一些客户登门拜访的。我要去访问的话,最好我敲门的一定是我的客户。我如何进行大数据分析?

现在在绿地社区当中,通过基站,每天有打出打进的电话。你所有的东西得被他掌握的,你电话打给谁,谁会打进来,所有的东西都会记录的。你讲话的东西是音频,对音频分析是比较高端的技术。对音频进行比对不是一般的事情。中国人有方言,IBM说我要进行语音识别,我说你不要忘了中国有30多个省市地区,你让四川人和上海人在一起讲方言,彼此根本听不懂的。音频分析很难,这些东西分析完了之后,你可以对他的行为进行一些对号入座。他是不是适合买在美国和澳洲的房子。这是我们金融当中可以做的,但是目前没有定论,但是现在你到书上找的话是找不到这样的结论的。如何去找我也不知道,我们正在做类似的事情。做成的时间会比较长,也许一段时间之后,就会出现AlphaGo,我认为计算机早就应该战胜人了,而不是今天。为什么呢?我们人类大脑下棋,你前100步你走的什么你还可以记得住吗?可以回溯三层就不错了。而计算机没有问题,回溯三五百部非常容易。我们大脑做不到的。为什么人类棋艺会进步。因为他大脑当中会不断把那些东西进行修正,但是和计算机比一定是劣势的。计算机的记忆力可以用机器的方式固定下来,人是做不到的。


互联网金融开创了人类融资发展新阶段。有人提出来互联网金融是现有金融结构的补充,有人说是颠覆。补充也是有争议的,到底有没有补充?到底现代金融有没有缝隙?比如说金融机构给客户贷款,我用的是原来的征信体系,把在现有的金融体系贷不到款的人纳入进来,是对是错是问号,能不能赚到钱,这是一个很难的事情。重新打造一遍。但是除了现代金融体系之外还能不能赚到钱。我们绿地的实践认为是可以的,在绿地内部达到了我们利润的1/3。这个体量是很大的。就说明在现有金融体系,至少在国内,这个框架以外是可以赚到钱的。这个由谁来管怎么管确实是一个学问。

在这本书当中我们弱化了监管部门如何管的问题。但是另外一个兄弟写的文章当中就对监管提了很多意见。我们在这方面提的很少。在一行三会领域之外,最近有传闻说要成立一个互联网金融管理部门,也有人说一行三会合并成立一个部门,但是总之是成立一个专门的部门管一行三会以外的领域,要把这一块要纳入管理,我觉得这个时代已经到来了。

当然昨天有人说,P2P要切掉90%,我们很多做P2P的朋友都很害怕。我觉得你只要是合法的做,问题不大。根据我们的了解,行业内的做P2P的很多企业,他们的营业状况是非常好的。基本上来讲,都是合法合规的。出事情的并不多。不像我们想像的那样这个行业已经非常乱了。其实大多数企业是赚钱的。

在书当中我们对数据科学发展也有一个回顾。数据科学发展,我们里面写了四个图灵奖获得者,图灵奖是数据库的诺贝尔奖。

第一个人巴赫曼,他提出了网状数据库概念,他认为数据库是网状结构。

第二个人是科德,他是IBM的研究专家,他提出了二维表格,就是我们现在所有数据库都遵循的二维表结构。

第三个人就是格雷。格雷的贡献,大家现在到ATM机取款,最早的时候,你会担心什么?比如说我要取200块钱,一旦停电,你这个钱会不会被扣掉,格雷提出了这个概念,就是你整个过程要么做完,要么就一点没有做,如果中间有断电的情况,会回到原来的地方。如果说没有这个理论整个现有ATM机是没有办法用的。

格雷是一个天赐级的人物,他曾经有一个神秘失踪的故事。他是一个孝子,他要把母亲的骨灰撒到大海里,从加州的海岸走了45分钟。由于他手机失去信号了,找了好几天也没有找到他。人家说这种天才,天会收回他的

那个时候,微软一直想发展自己的数据库方面的技术。当然里面比较著名的数据库和微软的结构是同一个版本。西方人很爱才,微软想招格雷到西雅图工作,但是他不愿意,他喜欢加州,后来比尔盖茨讲了一句著名的话,既然格雷喜欢加州的阳光,就在加州给他盖一个研究院。

第四个人就是斯通布莱克。他在数据库当中发展当中是饱受争议的人,他最早是伯克利DB的灵魂人物。但他出来之后,他在社会上很喜欢批评别人,他看别人都不顺眼,会讲一些偏执的话,这也可能是天才的特点。

这四个人当成故事一样讲,把这四个人的历史搞清楚了,我们对人类数据科学的历史就搞清楚了。现在提数据科学,就是研究这个。当时研究数据库水平比较低,当时我们那个小组还是可以的。那个时候我记得我后来到外企之后,外企在加州那边有很多斯坦福毕业的印度工程师,他们看到我们当时讨论的东西,他说跟他们那边差不多。因为论文讲究什么呢?先有一个idea,写一个草稿,草稿放到研究所的网站上,我们可以去看。基本上是半年时间,半年时间之后配上试验,这个文章才可以发。配试验的半年时间就是我们研究这个论文的时间。所以基本上我们比他们差半年的时间。当然你也可以说半年差很多,也许是的。但是我们基本上可以给他半年左右的时间地他在做试验我们也在做试验。所以我们数据很多东西当时做的还是有点说服力的。

这个里面的案例大家可以看一看。我们的观点是如果你做了大数据,如果是全面的话,对现在的统计学是一个挑战。因为统计学是根据有限的样本来得到一个结论,如果有全面的数据,还要统计学干什么。为什么大家现在才提出一个大数据。我就跟他提了两个观点。首先这和IT处理的速度和水平有关。

我们知道人类做的第一台计算机速度是很慢的,他的功能现在用一个芯片就可以替代了,当时占地面积是非常大的,是非常大的一台机器。现在人类的存储才举行了解决大数据的可能性。那天EMC的人说,他们12306卖票经常会出现拥塞,登不上去,买不到票。他说我们应用先进技术就解决了,这技术就是内存数据库技术,这就是现在处理大数据了一个非常有力的技术。如果说你放在硬盘上处理速度会很慢,但是放在内存处理会很快。大数据其实讲起来很拗口,但是很多逻辑还是比较简单的。你在内存当中可以很快解决,这是器件的进步,使得我们具有了处理大数据的可能性。也使得金融单位收集的大数据可以去进行分析了。

大数据分析是互联网金融当中重要的支撑。分析是从原始数据一层层上来的。去年我们还建了一个实验室来对大数据分析做一些基础性的工作。但是这个并不那么容易做到。

这个是大数据分析的一个逻辑的过程,我有一个观点,作为一个技术人员要把握好技术的进步,这样你才可以知道我们的切入点在哪里。现在是在系统集成、预算能力上,使得我们做大数据有了可能性。像国内著名的电商的公司,他们的IT人员和业务人员基本上是1:1的。阿里是2万IT人员,5万员工。我们做互联网金融这一块,也是按照1:1招进来的。

如果你做大数据,我个人认为人员还可以再多一些。我认为技术比业务更重要,很多IT人员转到业务部门,他一旦把你的系统写出来,他会比业务人员还懂业务。这个是为什么很多金融单位当中,很多IT人员自动会跳到前面去。当然技术一定会听业务的。因为很多革命性的变化,包括互联网金融这些东西是IT人提出来的吗?包括互联网本身这个概念,都是欧洲做核子物理研究的人提出来的,而不是做IT人提出来的。这是做IT人的羞辱,基本上都是系统外面的人提出来的,因为都是应用推动理论的发展,当然你可以不断把它往前推进,但是最初推出来的,一定是实践推动的。

讲到海量数据。数据库有一个最好的国际会议叫VLDB,Database这个词是我在复旦大学的导师翻译的。当时数据库国内是两个人。一个是复旦的,一个是人大的。他们两个人在人大红楼一起喝下午茶的时候提出来的。现在你觉得不叫数据库叫什么呢?

数据库的发展最早是叫LDB,就是海量数据处理,那个时候叫海量数据现在叫大数据。海量数据处理我们认为处理的手段其实并没有革命性变化,就是有处理速度,时间的需要,使得大数据成为一个非常热门的事情。但是做这个事情,这个理论架构不是实验室当中的架构,在应用当中也是非常重要的。限语能力所限,我们没有提出这方面的能力架构,我们希望行业内有人可以提出来,我们愿意起到抛砖引玉的作用,推动数据的发展。我们希望我们自己能参与其中。

为什么我们写这本书来做这个事情。我们想推动这个应用的发展。想跟着大家一起把这个事情做起来,这个事情做起来并不容易,而且这个行业时走时停,监管意见也不是非常明确,而且我们国家,我个人觉得金融单位像我们很多大的咨询公司,不像美国投行,比如说高盛、摩根史丹利,他们有很强的IT队伍,他们的IT队伍一点不亚于互联网公司。至少在复旦,每年最好的那个人都被他们高薪拿走了,我记得在05年的时候,在国内开70万一年,那个时候70万是什么样的概念,就要这样把我们最好的学数据库的人都给招走了。他的IT队伍是非常强的,我也希望我们国内的公司,在赚钱的时候,也可以拿出一部分钱做一些研究。因为现在国内是有牌照就太好做了,没有人有动力做技术进步方面的工作,现在西方的传统机构包括瑞银银行他们自己都在研究区块链的技术等等这些东西,而国内的金融机构并没有足够的重视。也许这个技术是一个革命性的东西,如果说没有跟上,可能我们未来还是要从国外引进技术,还是要花很多钱,等于是一个二流的技术水平的状况。

EMC跟我们讲的时候讲到一个高铁票的问题。刚刚讲到把它调到内存当中。买票是很有意思的事情。上海到南京,我如果从上海买到苏州,苏州到南京这张票就空出来了,原来一张票就变成了两张票,内存当中你要写回去。这个是我们现在大数据时代很有意思的现象,也是需要解决的问题。为什么12306动不动就瘫掉?内存数据库的特点是什么呢?他经常会一下子崩溃掉,之后你就很难再写回去了,你一定要重启,很多原来的东西就不存在了,这个问题也是技术没有解决的问题,这个技术一旦解决,对后面很多东西的发展会有大的推动作用。目前已经在进步过程当中,已经比原来的技术好了。12306一开始是铁道部自己搞的,服务器无限加,还是有问题。

当时,我有一个机会经常在沪宁线上跑,苏州、无锡、上海。我根据自己的判断可以找到位置的。这是大数据的问题,我刚刚讲的票斩断之后,如果出现横跨的。有一张票是无锡到苏州是空的,一张票是南京到苏州,另外一张票从无锡到上海,虽然都横跨那个座位,但是那个座位还得空在那儿,不能给他们。这个空位就是我的。大家想想对不对,这是很有意思的一件事情。这个生活当中无处不存在数据的处理问题。把这些东西给孩子讲讲,是有利他的成长的。这些东西都是比较理论化的东西,大家想写论文大家可以详细探讨一下。

我们这个群体接下来还会有两本书,区块链技术我们已经在写了,下一本我们会和出版社沟通一下写什么。因为现在国内形势正在发生变化,区块链如果写得太理论化,他们不同意,觉得书卖不掉。写一些普及性的内容。不管怎么写,我们是这个行业的从业人员,希望通过我们的努力,对这个行业发展有益。

© 20019 caesedu.cn All Rights Reserved.   中国社会科学院研究生院课程班

京ICP备14024353号-4 版权所有:北京唯学教育科技有限公司

提供最新中国社科院在职研究生、社科院在职研究生报名、社科院在职研究生报考条件、中国社科院研究生院在职研究生
经济学研究生、金融学研究生、管理学研究生、工商管理研究生、市场营销研究生、企业管理在职研究生
管理学博士、经济学博士、金融学博士、新闻学专业、考古学专业、民商法专业、文化产业管理专业信息.