ChatGPT的成功大部分来源于海量的数据支撑和丰富的数据维度,基于13亿参数量的庞大模型,随着用户的不断涌入,ChatGPT不断迭代进化新的“知识”,而在模型表达能力的增强之外,同时也带来了难以忽视的安全风险。除了模型本身可能存在的投毒风险,隐私数据泄露导致的数据重构等风险,都可能造成一定的社会及经济损失。
在数字经济迅速发展的大背景下,如何能够利用安全、合规、有序的数据流通和共享手段,将本地数据共享给人工智能平台进行联合训练?
为提升模型学习与决策能力,隐私计算技术能够在保护数据本身不泄露的前提下,能够较好解决数据在收集、传输、分析、计算等处理活动中的动态安全,但实际应用中,仍存在技术应用成熟度低、应用实施改动大、权威机构认证少等痛点问题。
因此,同态科技围绕以同态加密为核心的一系列国产新型密码技术,在充分保护数据隐私安全的基础上,不改变原有业务流程,低成本、低改造地拓展数据应用场景。通过“一次加密,一次加载,全量应用”的新型数据流转模式,实现数据价值最大化,达成 “原始数据不出域,数据可用不可见”目的。
同态加密技术,就是指数据加密之后,密文数据和未加密前的明文数据相比,具有完全一致的计算能力。目前对比市场上主流的同态加密技术,或多或少的有一些效率上的瓶颈。
Craig Gentry曾给出直观定义:“A way to delegate processing of your data, without giving away access to it”,通俗的讲,同态加密技术就是一种在不接触原始数据的情况下,实现对数据的应用。
同态科技自研的国产新型同态加密算法——“同态构型”算法有效解决了计算效率问题,大幅提升了密文计算性能。
CCA-2安全:自适应性选择密文安全,参考:https://www.cnblogs.com/pam-sh/p/15244862.html
在同一批数据相同运行环境下,与当下主流的同态加密算法库(微软SEAL)相比,实现了算法层面的速度提升1800倍以上,并在密文扩张、兼容性、细粒度、以及应用场景等方面均实现了较大提升,有效解决在当下数据融合过程中的隐私保护问题。
SIMD技术通过对一组数据向量中的每个元素同时执行相同的操作,实现空间上的并行性。
在算法优化的基础上,大整数运算是“同态构型”算法中,性能提升的一大环节。同态科技联合英特尔,以AVX-512指令集为切入点,通过中国剩余定理压缩数据,再利用并行计算提升大整数的运算效率,形成大整体运算优化方案。
见论文:Fully homomorphic SIMD operations
英特尔® AVX-512作为SIMD技术的典型代表,利用32个512位长的向量寄存器,不但提升了并行计算的数据存量,还在算力部分进行了优化,更适配高性能计算场景下的效率需求,对于科学模拟、金融分析、人工智能、图像处理、数据压缩等,对工作负载和用例的性能较高的业务均提供了有力支撑。
最终实验结果表明,该方案和主流大整数库(GMP库)项目,加法效率提升了70倍,乘法效率提升了100倍,有望基于此进一步实现同态构型算法的性能提升。
同态构型密码算法设计不依赖传统的公钥全同态加密技术,基于离线状态下常数次(最优时一次)单向陷门J置换,在线状态下仅包含加法、乘法的对称全同态映射,实现密文域上高效的隐私计算。