安全计算是一种在加密状态下收集和利用个人和公司隐私数据的技术。该技术的出现为人们提供了一种新的视角;随着该技术的应用,公司和行业之间将可能出现全新的合作方式。以“自主管理数据”为目标,该技术将带给用户更多的自主权。为了进一步探讨这个话题,我们请到了铠侠存储器技术研究所的吉水康人,和全同态加密(FHE)领域的领头羊,Eaglys Inc.的今林广树和丸山祐丞。
何为全同态加密(FHE)技术
今林(Eaglys):如今,无论是B2B还是B2C,位于行业最前端的企业都在通过各种方式利用个人信息和商业秘密等“机密数据”,以提高服务和产品的质量。在医疗领域,利用人工智能进行诊断和个性化医疗的需求日益增长。但如果个人信息保护和安全措施不完善,我们就无法放心使用数据。安全计算有望降低这些技术的风险。
安全计算是一种允许数据在加密的状态下进行计算和搜索的技术。传统的数据仅在传输或存储时进行加密保护,但安全计算则不同;即使在分析或人工智能学习等处理过程中,数据也能保持加密状态,避免了数据泄露和未经授权使用的风险。
丸山(Eaglys):安全计算方法有多种,目前研究开发的主要种类是同态加密和秘密共享。秘密共享法是一种将数据分成无意义的片段并保密的方法,通过多台服务器相互协作,在保密数据的同时执行任意计算,但由于需要多台服务器以及设置服务器之间的串通,导致系统建设难度高。与此同时,同态加密是一种无需解密就可以对加密数据进行计算的加密方法。可以在单台服务器上进行秘密计算,只要能够保护密钥,就可以保证数据的机密性。同态加密的缺点是计算量庞大。为了缩减计算量,当前的解决方案使用了多种技术,例如秘密共享和同态加密的混合处理,或者SIMD(单指令多数据)操作的方法。然而,这些方案通常会带来其他的不便,比如只能应用于某些流程,或是限制了可以构建的系统类型等。
今林:在Eaglys,我们的目标是在安全计算中使用全同态加密(FHE),以解决以上这些问题。
FHE可适用于加密数据在安全云计算环境中的各种操作。它的应用范围很广泛,例如在不同组织或个人之间共享数据,将计算外包给外部实体,或是在数据库内执行加密搜索和数据分析。
丸山:实现FHE的挑战在于计算量。因为处理密文需要的运算非常复杂,计算量极大,所需执行时间就会很长。例如,处理纯文本的运算需要一秒钟,处理加密文本可能需要长达六个小时。我们与铠侠的合作就是为了解决这些问题。
吉水(铠侠):去年铠侠和Eaglys为提高安全计算的效率签订了联合开发协议。通过结合两家公司的技术以及从硬件到软件的共同开发,探索如何加速安全计算。
公司里有人在硅谷听说了FHE之后,我们找到了日本国内的专家Eaglys,并立即联系了他们。这种加密技术将使数据量增加一个数量级。从今后社会的发展趋势来看,所有数据都需要加密计算,铠侠的市场也会随之加速扩张。而这一发展中,庞大的计算量是最急需解决的问题。
通过与今林先生和丸山先生的交谈,我们看到了FHE技术可以给社会带来的潜在好处。这对铠侠来说是一个机会,不仅可以促进存储器的销售,还可以充分利用我们在技术开发方面的专业知识。这就是这次联合开发项目开始的契机。
丸山:当吉水先生第一次来到办公室时,他告诉我,“数据量越大对铠侠的吸引力也越大”。我当时很受感动,我就回答说我想要一个和榻榻米一样大的GPU。结果我们一拍即合。之后我们认真讨论了如何突破常规的想法来解决问题,吉水先生给我留下了很深的印象,与我平时接触的人截然不同。
新型计算机
吉水:我想让你做一个榻榻米大小的GPU可不是开玩笑的。说实话,如果要打造Eaglys想要的那种计算机,铠侠目前的核心产品技术(例如SSD和闪存)可以利用的领域并不多。除非我们开始研发各种周边技术,否则我们可能永远无法实现这一目标。换句话说,这对我们来说不仅是一个挑战,更是一个新的领域。
今林:我们要开发的不是一台多功能的普通计算机,而是一台专门处理特定类型数据的计算机。处理纯文本数据的最佳计算机不一定是处理加密文本的最佳计算机。如果是明文的话,只需要发送1位数据即可,但是如果是密文的话,就必须一次发送4000x32位。因此,我们需要的是与普通计算机完全不同的电路,除非有其他什么原因。
与当今为通用数据处理而设计的计算机相比,我们希望创建一台功能强大的计算机,能够在一个安全的环境中单独处理从存储到计算的所有任务(例如基因组分析),我们已经开始看到对类似计算环境的需求。
如果我要求用户将自己的基因组数据或机密的公司信息上传到云服务器,很多人肯定会不愿意,这很正常,因为云端服务还存在很多安全隐患。而增强公司之间的数据协调具有潜在的好处,比如供应链的优化;但目前还没有一个足够可信的“容器”可供公司将其数据与许多其他公司的数据一起存储。
为了混合与分析各种数据,我们正在设计一种特殊的计算机来对数据进行全新的解析;而这些解析只能通过分析大量数据来进行,单靠一家公司或个人的数据是无法实现的。
丸山:在传统的计算机架构中,隐私保护往往是基于信任的。这种信任可能是基于对方是一家大公司,或者是以前和他们有过业务往来。然而一般来讲,建立信任关系是相当困难的,而且需要时间。此外仅仅依靠信任关系来分享机密信息(比如一旦泄露可能导致公司破产的信息)的风险太大。相比之下,我们正在开发的软件和硬件是一种不依赖信任关系的隐私保护机制。
吉水:铠侠的存储技术有能力应对数据应用发展的大趋势。然而,在这一大趋势中,重要的不仅仅是SSD和闪存的销售,而是要准确理解数据的内在价值。现在已经可以通过在无限数据上训练像ChatGPT这样的生成式人工智能,来创建巨大的语言模型,这需要能够高速处理大量数据的存储和计算。FHE也是一样的。目前除了Eaglys之外,涉足这一领域的公司还很少,因此铠侠可以充分发挥其优势。对我们来说这是抓住商机的绝好时机。
实际应用的瓶颈
今林:安全计算领域,尤其是与FHE相关的领域,正在全球范围内引起广泛关注;IBM、微软和谷歌等大型科技公司越来越多地投入研究,甚至美国国防部也在投资私营部门。因此,开源开发正在取得进展,但仍然没有实际应用的实例。当公司提到他们的实例时,大多数也只是假设;好像大家都在等着其他人为他们创建实际应用的例子。这就是为什么尽管该领域具有创建未来社会基础设施的潜力和趋势,却是一个让人难以理解且没有引起足够关注的领域。正如比特币引起了大众对区块链的关注和期待一样,我们需要现实世界的应用来提升安全计算和FHE的形象。
吉水:但他们并不是没有受到任何关注,比如日本内阁府的一个专家小组发布了一份声明,鼓励在材料信息学中使用安全计算,这是您在Eaglys从事的另一个领域。
今林:投资者都是很关心投资回报的,因此我们不能只向他们提供计算机或程序库,然后让他们自己去解决。我们要从应用层面或实例出发,让人们更容易想象该技术如何在业务中使用,以及它在行业中广泛应用之后可能带来哪些变化。
丸山:没错。我希望来自不同行业的人们能够为探索这项技术的意义而走到一起,就像铠侠与我们的合作一样。我也希望这样的合作能够吸引更多的投资,从而得到更广泛的关注。说到这里,我想分享一个很有意思的想法。我称之为窃听应用程序。
吉水:你第一次提到这个名字的时候可吓了我一跳(笑)。
丸山:是吧,但我认为这个名字可以让人们更容易理解安全计算可以给世界带来什么,所以我给它起了一个暂定的名称(笑)。具体来说就是通过手机上的应用程序录音。地球上任何地方的人(甚至你自己)都无法收听这些录音,但你可以对其进行分析并查看结果。
人们通过使用智能手机或智能手表来跟踪脉搏率和睡眠时间,从而监测自己的健康状况,这已经非常普遍了。但实际上,我们需要更多样化的数据集才能准确了解一个人的健康状况。比如对一个人的言语进行分析可能是早期发现痴呆症或阿尔茨海默氏症的重要医学指标。
然而,持续不断的数据收集是不现实的,每天24小时记录你所说的话和别人对你说的话,然后由某个地方的某人进行分析,这是对隐私的巨大侵犯。但是如果使用FHE技术,我们就可以以加密形式分析语音数据,而任何人都无法读取数据或解密数据。仅根据分析结果,专家甚至医疗人工智能就可以及早发现各种症状。
即使是借助其他程序,加密的数据也永远无法被访问,但它可以被分析。如果你确信任何人都只能看到分析结果,你还会担心你的手机被窃听吗?这就像一种积极的窃听形式。我认为,如果人们可以在完全保证隐私的情况下使用智能手机应用程序来记录自己的信息,并且这些信息将仅用于自己的利益,我们就能够收集更多数据并扩展分析数据的方式。
今林:这是个好主意,将来可能会实现。但我觉得名字还是得改改(笑)。
在某种程度上,智能手机是一种现代窃听设备,因为它配备了GPS技术,可以跟踪我们的一举一动。GPS让人类移动更加方便,这项技术在日常生活和医疗保健中可以得到广泛应用。这么一想的话,“窃听”这个名字听起来也还不错(笑)。
互联数据带来的未来
今林:毫无疑问,各个行业内部保存的大数据,包括至今未使用的数据,是会导致未来社会变革和个人福祉的触发器。
大数据在医疗领域的价值可能是最容易理解的,例如新冠疫情导致了远程工作的增加,生活方式相关疾病和精神疾病症状的人数也因此不断增加。生活习惯病患者很少有专家会诊的病例,都是随便找医生看看,结果导致误诊率不断增加。
使用人工智能是一种解决方案,但如果不收集足够的数据,我们就不能指望人工智能做出准确的决策。但目前,将某人的个人数据带出医疗机构是违法的,而且将不同医疗机构的数据结合使用也不可行。
然而,由于FHE涵盖了从存储到计算的所有内容,人工智能就可以在数据加密的情况下进行分析,并仅将结果显示给所有相关人员。这不仅会减少误诊的可能性,还可以将这些数据与制药公司共享,以有助于新药的开发;甚至可能开启个性化医疗基础设施的创建。
吉水:该技术在医疗保健领域的应用很容易想象。个人数据和诊断数据结合的分析结果将会创造出不可估量的价值。
通过基因分析来调查疑难杂症的病因就是个很好的例子,如果依靠征集个人同意来收集数据,能收集500个病例的基因组数据,但想收集1亿人的基因组数据是不可能的。
没有足够的数据,我们最多只能确定一个人对某些成人发病疾病的易感性。但如果我们有一亿人的数据,也许就能够调查罕见疾病和不治之症的原因。目前实际去收集如此大量的数据是不可能的,这正是FHE可以派上用场的情况。
今林:未经处理的一级信息,也就是原始信息的获取,在时间和金钱方面都是昂贵的。FHE的使用将大大降低成本,甚至可以比以往更彻底地利用数据。像ChatGPT这样的生成式人工智能就是基于谷歌上的开放数据,即二级和三级信息而开发的。但如今还未有人涉足的领域在于对一级信息的有效利用,在保证安全的情况下积极有效地利用一级信息将是信息领域的下一个主战场。
丸山:原始信息在医疗领域的应用还需要一段时间,但Eaglys已经开始为化学品和材料制造商提供类似的服务。
比如目前正在提供的一项名为ALCHEMISTA的服务,为化学品制造商提供了将自己的材料数据加密并提供给外界的功能。该服务将来自产品制造商的测试结果和其他数据加密并发送给材料制造商。
化学品和材料制造商将能够凸显其材料的价值,创造新的商机,并与外部公司和研究机构进行更细致的合作和共同开发。另一方面,外部公司和研究机构可以轻松找到最符合其需求的材料。这意味着在保持数据私密性的同时,可以轻松选择最合适的材料以满足最新的需求。
吉水:我经常有一些非常基本的想法,但和两位一起讨论这些想法,并在将其付诸实践的途中产生新的想法,从而不断从中获得动力,这对我来说是一种全新的体验。
两家公司共同开发的“第一阶段硬件和软件”将于2023年内成型。这将是真正意义上的FHE,一个非常高水平的平台。我们可能先于世界其他地区实现这一目标。
正如今林先生之前所说,创建应用实例并将其传达给社会很重要,而不是仅仅将计算机和程序库做出来就到此为止。因此应当首先在丸山先生提到的化学工业材料信息学领域取得成果,然后再转向医疗领域。
今林:对于我们两家公司来说,存储器及其应用是两家公司具有高度合作潜力的画布;能够描绘出一幅将Eaglys的梦想与铠侠的梦想融合在一起的图画是很令人兴奋的。我们将共同开发一种崭新的技术,带我们创造仅靠Eaglys无法想象的未来。
从这个意义上说,拥有铠侠的持续支持让我深受鼓舞,我相信我们能够通过这次合作构建新的未来。
刊登内容为2023年7月的采访内容。