为了实现70000员工在家办公,腾讯这群人挖空了心思

图片来源:pixabay

在腾讯内部,有一群“零信任”的先锋探索者。

撰文|弘一 编辑|展洋


历史学家尤瓦尔·赫拉利在《人类简史》中阐述了这样一个观点:对于不确定性保持天然焦虑的人类而言,信任是一记强心剂。


在他看来,信任是塑造和推动人类文明发展的基石。


但在如今愈加复杂的网络世界中,毫无防备的信任则会带来巨大安全隐患。


2010年,Forrester分析师约翰·金德维格(John Kindervag)提出“零信任”概念——“持续验证,永不信任”。他认为,基于“零信任”架构理念,首先要怀疑一切网络流量;其次要做到“翻脸不认人”。这一概念的关键在于——打破默认的“信任”。


但如其它所有“敢为人先”的尝试和创新一样,“零信任”的出现起初也遇到了各种不理解。诸如“听上去‘零信任’并没什么令人兴奋的新技术”、“是不是新瓶装旧酒呢?”的质疑声也曾不绝于耳。


经过十一年的发展,作为新一代网络安全防护理念,“零信任”已经有了很多实践与探索。不少网络安全从业者遵循着“零信任”的原则和底线,他们认为,在互联网世界里,只有对一切尽可能地减少信任,才是更明智、更安全的做法。


在腾讯内部,有一群“零信任”领域的先锋探索者。


在他们的努力下,腾讯也是国内最早将“零信任”架构真正落地在全公司应用上的互联网大厂。疫情期间,腾讯零信任安全管理系统(iOA)更是扛住了7万名员工同时远程办公的高负荷运转,扛住了数种网络攻击,也拥有了对外输出的底气。


从最初的传统内网,到现在的零信任安全管理系统,腾讯零信任已实现全链条完善,具备对外输出的能力,帮助更多企业建立起更安全的城墙,而这背后跨越了十余年的“内练苦功”。


腾讯的零信任到底是如何实现“从0到1”突破的?这群零信任先锋探索者,有经历了哪些故事?


两大问题


多年以后,腾讯内网网络安全负责人蔡晨慨叹,“有段时间,压力真的很大”。


在2016年以前,腾讯很多员工远程在家办公时,会在内部论坛上投诉和吐槽传统内网VPN的安全和体验。也有人当面找到蔡晨,诉求十分简单:既要保证网络安全,又要体验稳定顺畅。


为安抚这些同事,蔡晨只好硬着头皮挤出了三个字:“必须能”。


但现实是,就当时的条件而言,这些问题很难马上得到解决。鲜为人知的是,腾讯遇到的这两个问题,几乎是早年所有企业面临的共性问题。


腾讯为此专门成立了安全部门。2004年,腾讯内部遭遇过病毒侵袭,而彼时盗号问题也很严重,因此腾讯诞生了第一个安全部门——安全运维组。


但随着互联网世界的发展,安全问题也愈加复杂多变,安全运维组面临的安全问题越来越多。两年后的2006年,腾讯又经历了“朽木事件”。据公开报道称,这个叫做“朽木”的黑客通过进入腾讯内网,窃取到了很多敏感信息。这一事件的发生,让腾讯下决心要搞好内网安全建设。


彼时,之后的安全部门“大佬”蔡晨还是一枚网络建设“新兵”,刚刚加入腾讯不到一年的他“临危受命”,和同事一起组建了内网安全团队,目标是要研发出腾讯自己的内网安全系统iOA。


据蔡晨回忆,当时搭建内网系统“并没有什么可以参考的标准,只能靠团队自己摸索”。


但在2007年,蔡晨团队在内部推行第一版内网安全系统iOA时,就遭遇了员工的“吐槽”。在随后的几年中,蔡晨和他的团队继续顶着大大小小的压力,经历了内网安全系统的无数次试验、调整、再试验、再调整,腾讯的内网安全系统iOA也在不断进化和完善,支撑起越来越多的员工办公。


在这期间,蔡晨团队也是采纳行业内经典“VPN”方案来构建传统内网安全系统iOA。


不过,VPN接入不仅稳定性体验不好,病毒入侵、敏感信息泄漏,各种Bug时有发生。特别是在员工远程办公时,问题更加突出。


“比如说,VPN总是断线、几分钟就要重新认证重连。又比如说,遇到台风天,体验就更差,不能访问只能干着急,在线等是常有的事,员工的吐槽特别多。”一位腾讯早期员工回忆起十四年前(2007年)的情景时说。


传统VPN方案更“致命”的问题还在于,它虽然解决了大部分企业在用户身份鉴权、互联网通讯加密和内部网络权限授权的安全需求,但它无法解决边界被突破后的安全问题。


举个例子,一旦企业的传统边界被其他携带病毒木马的终端突破,黑客会通过木马远控终端,随后出现“漫游内网,翻箱倒柜”,进而窃取邮件、源代码甚至企业敏感信息的恶性事件。


对企业而言,内部信息泄漏事件一旦发生,将带来可怕的后果。


这也是传统边界安全模型的最大缺陷之一。可以理解成,传统边界安全模型,实际上只是用一个安全的外壳包裹着一具软弱的躯体。对于几乎全天候泡在网络世界的人类而言,真正意义的安全是需要一具坚硬的躯体。


“All in”


2010年,Forrester分析师约翰·金德维格(John Kindervag)提出了“零信任”概念,这也打开了传统VPN之外的另一条网络安全路径。


约翰·金德维格认为,基于“零信任”架构理念,首先,要怀疑一切流量。


这就好比,不管你是普通员工,还是公司老大,进来创建的每个会话在被允许通信前,都需要进行身份认证。


其次,即使你曾被取得过信任,系统也会持续“翻脸不认人”。


也就是说,无论你是谁、你来自哪里、你从哪个设备发起过任何请求,再次访问授权前都会被“一视同仁”对待。“刷脸”、“走后门”的暗操作根本不存在。


不过最初,“零信任”理念并未得到网络安全行业的普遍关注和认可。随着网络风险和威胁不断袭来,安全边界被不断延伸,企业零信任架构变革开始被重视。


2013年,美国互联网巨头谷歌开始向“零信任”架构转型,而国内“零信任”还处于概念探索阶段。


在经过了潜心研究之后,蔡晨等人开始决定将“零信任”这套先进的安全理念在腾讯公司内部落地。2016年,腾讯决定开始自主设计、研发零信任安全管理系统(也就是升级版的iOA)。而这项任务自然而然地落到了蔡晨的肩上。


在项目启动之前,蔡晨团队对谷歌当时发布的论文进行了深入研究。蔡晨团队总结了谷歌和腾讯的两大差异:谷歌的业务系统含有很强的校验机制,而腾讯必须加入更强的安全因子;另一方面,腾讯需要结合自身的IT环境和体系去构建属于自己的一套零信任解决方案。


而后来作为腾讯零信任(iOA)部门技术负责人的蔡东赟,也在此时被蔡晨招进来。


在面试环节,两人聊的是企业安全业务。来腾讯之前,蔡东赟曾在乙方做企业安全的公司工作。


回忆起2015年的那次面试,蔡东赟笑谈自己是“被忽悠”进来的。“当时岗位是要我做企业安全产品,但最后却被安排去企业安全建设,做架构改善,服务于内部网络业务。”也就是要对腾讯安全原有的iOA旧版本做检测,可以理解成是对腾讯原有iOA架构的一次“完善”。


蔡东赟发现,腾讯原有iOA架构在数据采集功能以及执行效率和安全检测能力等方面,当时架构在应对新的安全需求上面存在一些难以跨过解决的问题,需要彻底改进框架。


到2016年,腾讯安全决定将架构重心转向探索“零信任”体系架构,蔡东赟等人就需要“再建”一个新的“零信任版iOA”出来。2018年底,腾讯的企业内网和远程办公网络全都用“零信任”方案完成了重构,实现了从0到1后的“All in”。


据蔡晨回忆,在不断打磨产品的过程中,员工也感受到了“零信任”方案的优点。“在一次内部试验中,大概有70%的员工开始主动选择‘零信任’方案,替代原来的VPN方案”。


“从最初做架构完善到后来探索‘零信任’再到输出能力,最后我其实都是在做安全”。当初“被忽悠”进来做iOA架构完善的蔡东赟笑称。


在蔡晨和蔡东赟等人眼中,腾讯安全团队经历了十年如一日的技术打磨,这实际上就是一个不断修炼“内功”的过程。


此时的蔡晨团队已修炼了十几年的“内功”。这如同一个即将上场杀敌的“斗士”,在任何黑云压城、兵临城下面前,它不惧不忧。不管是基于腾讯安全能力的对内实践,还是对外输出,才有了他们口中的那句“自然而然”。


疫情大“练兵”


“滴、滴、滴……”2020年1月25日,在老家过年的腾讯零信任技术团队负责人蔡东赟被不断响起的微信声连番“轰炸”。


这一天是2020年旧历年春节,距1月23日武汉封城刚刚过去两天。


蔡东赟觉得情况不妙,赶紧打开微信,发现自己被拉进了一个紧急项目组的群,发起方是腾讯公司信息安全的企业IT部,不同部门的十几个小伙伴都在里面。


群内公告内容大致是:春节后需要大家支持内部员工远程办公,有没有问题?蔡东赟和很多小伙伴的第一反应是,“这并不难”。但很快有人接着提出:这次要支撑全员、全量、全尺寸远程办公。


蔡东赟盯着手机屏幕上出现的“全员、全量、全尺寸”这几个词,大脑快速解读,信息量如滚动的字幕条:


“腾讯内部有近7万名员工,全员、全量远程办公对应的是10万个终端以及背后更复杂的网络环境。”


“全尺寸就意味着既要满足员工的收发邮件、远程会议、项目管理的基础需求,又要实现远程无差别访问内网。”


一言以蔽之,这次任务的关键是“如何保证7万腾讯员工在家就像如同在公司一样,正常登录进入系统工作”。尤其是要保障同时在线的两万多名技术人员正常使用跳板机MNET、蓝鲸等,挑战极大。


“最核心的问题是扩容”,腾讯内网网络安全负责人蔡晨回忆说。


他进一步解释称,“以前腾讯内部的远程在线办公主要是解决发邮件文档、开会等简单任务,一晚上只需几十台服务器支撑,但疫情期间的需求一下子就变成了连研发、设计等业务都要在家完成,服务器至少需要扩容到上百台”。


这需要跨部门协作,“重新分工!抓紧开六条专项通道”。当意识到此次任务的难度之后,群里讨论和决策的气氛一度紧张。


很快,蔡东赟和同事们就遇到了“用电脑难”的尴尬,“当时一些员工在老家过年,电脑不在身边,加上当时快递无法正常运行,有人不得不想办法买电脑。”


为避免远程办公出现Bug而导致“死循环”,一些员工被派往深圳总部支持线下执行。线上线下合力之下,仅30多个小时,腾讯整个安全团队就完成了200多台服务器的上架。


在保证正常运行的同时,蔡晨和团队还做了两件重要的事:一是把那些外网不检测的部分改为全部接受检测;一是启动红蓝军对抗模式,对产品做直接线上测试,扫除安全隐患。


1月29日,适应全员、全量、全尺寸远程工作的内部平台基本搭建完毕。从接到任务到完成任务,这个临时小分队仅用了四天时间。


2月10日,复工的第一日,8点,系统上显示远程在线办公的员工数近3 万。到11点半左右就达到了高峰,实现5万腾讯员工同时在线。


复工第一周,腾讯安全疫情“大练兵”刷新了最新记录:实现最高峰值7万人同时在线,终端数超过10万台。既保证了内部7万员工在家里的厨房、客厅甚至洗手间都能轻松“云上办公”,同时让外界看到了腾讯的安全能力。


“这次疫情‘大练兵’也是腾讯零信任(iOA)的一次内部实践。”一位参与这场练兵的腾讯安全员工称。


这群先锋探索者也坚信“零信任”会是未来互联网发展的主流方向。“虽然传统边际防御在业内已经实施了几十年,但我们觉得‘零信任’理念更可靠,未来企业都会选择它,这也是互联网安全发展的必经历程。”蔡晨如是说。


对外输出


在一些看似“自然而然”的输出背后,总会经历过不理解、被质疑。


2018年9月30日,腾讯成立“云与智慧产业事业群(CSIG)”,拥抱产业互联网。


蔡东赟等负责技术的“关键人物”也要转型去支持CSIG商业化输出,对外向输出企业级的安全能力。


谈及早期转型,曾经负责C端终端安全,后来主管零信任安全管理系统(iOA)的王宇深有感触:


“原来做to C业务是基于海量用户提供服务,用户反馈周期短,尝试迭代的周期也短,很快就能得到市场反馈,进行持续迭代,进而不断完善产品。而to B业务项目周期长、反馈慢,输出产品和服务要保证质量,才能获得用户的的认可。”


变化不只是思维层面,有“社交”恐惧、潜心搞技术的程序员很快也被锤炼成了“既搞得了代码、又跑得动业务”的多面手。


王宇也是众多“多面手”的一员。转型后,他的性格有了180度转变,更加外向。“曾经每天一到办公室就戴上耳机,沉浸在敲代码的世界里,转型一开始那段时间,我们很是怀念。”


真正的挑战来自架构落地时的复杂。腾讯安全团队最早对外落地的一些项目主要来自金融领域,银行和金融机构对安全的要求相对较高,网络架构也更为复杂。


一般行业直接用VPN就能登陆访问内网业务,但金融行业的登录系统要先用一个VPN登录到一个云桌面,再从这个云桌面要登录到内部的另一个云桌面,就像登录系统里存在“套娃”一样。


基于此去做架构改造或升级,难度之大可想而知。王宇说,前前后后做了几百种方案才满足了客户的需求。而这恰恰也是当前金融行业的痛点。


另外一个挑战来自于被质疑。早期做输出时很多客户会不断追问,比如“你说我们原有的VPN存在安全漏洞,用iOA替代它,难道iOA产品没漏洞吗?”又比如“我用iOA替代后的成本是多少?给我带来的收益是什么?”


这些质疑的核心问题在于,一方面,没有客户会为一个安全新理念买单,他们必须看到是实实在在的效果;另一方面,由于零信任处于起步阶段,整个行业并没有一个行业标准,导致市场上出现混乱局面。


“必须要探索出一个零信任的标准来。”王宇找到蔡晨沟通,两人一拍即合。但此后的几个月时间里,二人一度很迷茫,因为整个标准的建立和推动并不顺利。


直到2019年,在腾讯标准团队的介入及各方努力下,腾讯安全团队最终完成了以下探索:


9月,在瑞士日内瓦举办的ITU-T(国际电信联盟通信标准化组织)SG17安全研究组全体会议上,由腾讯主导的《服务访问过程持续保护参考框架》国际标准成功立项,成为国际上首个零信任安全技术标准。


2020年6月,腾讯联合零信任领域16家机构企业,共同成立“零信任产业标准工作组”。8月,零信任产业标准工作组发布《零信任实战白皮书》,为零信任在各行业领域的落地提供参考。当前工作组成员单位已扩增到33家。


随着标准的确立及腾讯不断对外和对内的输出实践案例,加上企业自身对安全意识的增强,这两年国家在网络安全方面也持续开展攻防演练,金融行业以外的物流、汽车、在线教育等行业也开始接受“零信任”架构。


以车企为例,车企规模大、员工分散多、接入终端多,难以进行安全高效的管理。4S店销售人员等身份权限大,容易造成企业隐私数据泄漏。而在维修车辆时,维修人员的设备需要接入车企内网VPN,这也容易直接危害企业内网安全。


零信任解决方案帮助车企通过身份验证、网络分段、威胁侦测和统一防御等手段保障厂区和车辆本身的安全,同时也提升了企业数字资产及终端设备的安全管理。


对于一些大型集团、多级分支机构而言,总部及各分公司人员层级本身就很复杂,人员较多、身份繁杂、且应用权限众多。而业内大多数解决方案是对接入业务系统的人员做身份预认证,访问预授权,不同身份的人员给予不同的访问系统的权限。


零信任方案的价值恰恰在于将整个体系通过预授权提前划分好业务访问的细粒度权限,区分客户端所能访问的网关和应用,避免业务直接暴露在互联网上,也避免了黑客提前知道网关入口。


在国际上,谷歌走在“零信任”架构变革的前列,在一定程度上助推了很多安全厂商和大型企业跟进。


反观国内企业,对新理念新方案的接受显然需要时间,而腾讯作为国内“零信任”的先锋实践者,已经对传统边界安全架构进行了重构,日臻完善。


突如其来的疫情犹如一记“助攻”,加速刷新了客户对于自身安全和iOA的认知:原有的传统边界防护确实需要完善和迭代,“零信任”架构也更适合远程办公模式。


一位安全行业人士如此评价:腾讯零信任架构的不断实践落地,也是在促进现有安全技术的进一步成熟。它根据企业不同的场景需求,按照新的逻辑去组合,产生了不同的安全效果,正推动国内网络安全进入一个新阶段。


而腾讯内部这群先锋探索者,他们已经准备好,将腾讯安全这种能力对外输出,通过商业化运作,帮助更多企业建立起更安全的城墙。

举报
评论 0
    正在获取更多内容