身长185cm,脸庞英俊消瘦,从小接触编程……Geek形象的背后,王涛更像一个钢琴王子。
他从小获得北京市少年钢琴比赛冠军,还曾客串一个钢琴相关电影。如今,即便是编程,王涛也常与古典钢琴乐曲相伴。
2012年,
在北美完成分布式数据库原型完成后,王涛与创始团队一起回到中国,创立“巨杉数据库”。它主攻数据存储基础应用,自主研发了新型分布式数据库,企业使用后,可查开户以来所有数据,用来实时查找、分析、挖掘。
比起传统关系型数据库,
分布式数据库,使数据库系统价格下降数百倍,同时让速度提升10倍以上。
2014年12月,“巨杉”先后获得极客帮创投Pre-A轮,已经启明创投的 A轮投资。
目前,“巨杉”已有100家客户左右,包括民生银行、广发银行、中国银行以及中国移动、中国电信等传统企业,也包括NASDAQ上市公司途牛、360、蓝汛以及多盟等互联网公司。
注: 王涛已确认文中数据真实无误,铅笔道愿与他一起为内容真实性背书。
“我是纯种的蓝巨人。”
王涛在加拿大上完大学,直接进入IBM DB2 Lab工作。在多伦多的4层楼总部里,他工作了近10年,除了核心引擎的研发,整个DB2数据库生意,他从头到尾做了一圈,源代码也从头到尾敲过一遍。
期间,Hadoop(数据库)吸引了他的眼球,它和DB2传统关系型数据库不同,运用的是分布式算法,这个算法当时看起来不起眼,但呼声挺高。
王把分布式技术与传统的数据库比较一番,形成一个判断:虽然短期来看,分布式计算还很边缘化,但未来一定是主流。
多年来,企业数据一直都储存于Oracle、DB2这样关系型数据库里,是比较老的技术,原型在20世纪70年代便提出。其思路为,将数据拆分成不同的类型进行存储。
“比如存储一辆汽车,就把汽车拆了,轮子和车窗分门别类存储。这会使数据搭建与维护变得极为复杂。”
它们(数据)都是存储在单独的机器内,比如某台笔记本,它自身有CPU、内存,能运行Office等应用,但如果买10台笔记本,运行一个Office,速度并不会达到原来的10倍,因为笔记本之间是不通的。
而分布式数据库,能让所有数据分布于不同笔记本中,可能让速度、存储量翻10倍。“既能降低价格成本,又能保证存储数据类型的多样化。”
磁盘的存储价格下降使分布式数据库实现成为可能。“磁盘价格已经降至令人发指的程度,1GB可能一块钱,跟白菜价一样。既然如此便宜,若把过去存到磁带里的数据都迁移出来,就能发挥更多用处了,如实时查找、分析、挖掘......”
大数据与普通的传统数据,本质差别并不大,只是几乎突破了量的限制。“之前可能要花一个亿才能迁进数据,现在可能花十万就搞定了。另外,多类型数据的统一存储,也让存储分析的数据源大大增加。”
2011年初,王涛带着几人一起从IBM辞职,思考着如何利用分布式算法,让数据可存、可改、可删、可查。大家都在各自独栋别墅中,有事儿一起讨论,没事儿在家敲代码,研发持续了一年。“大数据产业链有很多环节,巨杉主攻数据的存储。”
一年后,王一行人做出原型,但暂不支持SQL。“SQL是一种结构化的查询语言,这种语言传统数据库做了几十年,我们短期之内很难支持,就先把数据存储做好。”
2012年初,王从北美回到深圳,在清华信息港,成立了“巨杉软件”,研发人员以IBM DB2和华为的资深数据库研发为主。
接下来,“巨杉数据库”一方面增加新功能,比如定期备份数据库、故障自动排除。一方面完善旧功能,不断提升过去增、删、改、查等核心性能。
一年后,“巨杉”推出产品SequoiaDB1.0版本,正式走向市场,王把目标客户定为国内金融相关企业。
这源自他在IBM的积累。期间,王经常在国内数据库圈子讲课,有些知名度。不久,中国银行和民生银行率先成为巨杉的第一批客户。
民生用的是MongoDB,属于传统数据库,王带着充足信心,与团队来到北京,不到2周时间,就把MongoDB系统替换完成。
“银行本身有很多数据,但因存储成本很高,很多历史数据都被封存起来。”它们的存储常分几个区域:1、在线区,比如银行里所有流水,账户信息,“这些都能实时查出来”。2、进线数据,其中存储了最近1~2年的数据,但仅供内部使用,不对外开放(访问)。3、离线数据,2年之前的数据,因很少调用,就把它存到磁带中。
数据库更新后,民生开户以来的所有数据都被激活。接下来几个月,民生在此数据库基础上,陆续开发新应用。
如更精准的营销活动。“以前都是粗放式的,这个月推荐A套餐,下个月推荐B套餐,所有用户都一样。而现在,通过历史数据就能知道每一个用户的行为,估算出用户之后的行为轨迹。如此可做到千人千面。”
从零到一的过程是最艰难的,项目完成那天,王跟小伙伴在广州大学城的一家湘菜馆聚餐。餐桌上,大家都喝得畅快淋漓。而王却更多感到的是压力,担子更重了,“在家里闭门开发,到产品有企业使用,感受还是不一样。”
民生反馈良好,并按照标准付费(授权费与服务费)。
民生银行帮助“巨杉”吸引了更多银行。其中,有家银行使用产品之后,在其取号机增设了理财产品推荐功能,根据数据分析,判断用户风险承受能力,向其推荐理财产品。
“据该行反馈,理财产品推荐成功率从过去的千分之几提高了近20倍,几个月内理财收入增加了数亿元。”
服务中,产品也在不断提升。如数据压缩,过去可能需要10个TB,现在3个TB就搞定了;稳定性也优化了,原来机器发生故障,重新恢复可能需要用2小时,现在可能几分钟就好了。
慢工出细活,口碑渐渐形成。“我们跟互联网玩儿法不同,互联网能通过一个事件咸鱼翻身,但对于2B市场,抓眼球不是重点,关键是每次用户看到‘巨杉’的名字时,充满的都是信任。”
2014年12月,王涛做了一个重要决定,将SequoiaDB巨杉数据库开源。“此前国内做技术软件的公司没有任何一家是开源的。我们也一度怀疑开源在国内是否可行,但后来认为,只要一直在市场上保持领先,那么别人就只能是跟随者。”
将SequoiaDB巨杉数据库开源。“这两年,硅谷的大数据厂商也流行商业化开源,比如Pivotal的Greenplum以及Cloudera的Impala和Kudu。”
“好比一道数学题,不开源的话只告诉你题目答案。开源则是把解题的过程和结果全部公开,让别人检验是否正确。”
因此,对于开源可能引发的抄袭问题,王涛并不担心。基础数据软件是很复杂的系统,不像手机App类应用,很难复制抄袭。而且,还需要定期更新系统,这只有巨杉自身才能驾驭。
开源产品为社区版,与企业版的核心数据库相同,企业(多为初创公司)可将其作为内部数据库,用来存储数据,增、删、改、查。对于巨杉来说,开源能培养大量用户,迅速占领市场份额(现有约1万用户)。
社区版免费,企业版收费,功能也所区别。1、数据备份:遇到数据中心宕机等灾害事故时,可以及时恢复数据;2、企业级安全机制上,可保证存储、访问、传输安全;3、负载管理,分布式数据库能对各个分区的数据量均衡管理、优化。
到了2015年,服务更加细化、标准化。此时,团队已有些轻车熟路:
接单之前立项,调研项目带来的价值,了解哪些部门使用,比如查交易流水部门等,都需要数据库的更新。
确定价值后,领导审批——通过,正式立项——“巨杉”会与部门协调,了解部门所需的数据状况、接口形式、性能等——最后汇总,搬迁数据,用户验收。
历史数据可用之后,各部门工作简化很多,如大数据历史数据部门。之前,此部门想查询五年前的交易,可能得去翻带库,有没有数据难说,即便好不容易找到了数据,还要先恢复数据,最后汇总出数字。整个过程可能花费2~3个星期。而现在,客户只需点击鼠标,几分钟就能找到。
之后,“巨杉”大规模进军电信、政府、互联网等行业,覆盖了华北、华南等各大区域。
目前,巨杉企业用户已超过百家,其中包括民生银行、广发银行、中国银行以及中国移动、中国电信传统企业,也包括纳斯达克上市公司途牛、360、蓝汛以及多盟等互联网客户。
读完文章,求报道的创业者请加微信号Michael001;
如需转载、市场合作,请加微信号meera003;
正在寻找小伙伴,点击加入我们。
|