大模型的构建非常依赖算料、算力,对高校而言,从模型合规性、隐私保护的角度去做研究是很好的切入点。依托浙大科研团队,金智塔科技在大模型的研究中发现绝大多数的数据都分布在客户手中,比如金融机构场景建设需要用到政务数据,在运营商无法聚集这部分数据、金融数据也无法给予对方的现实情况下,如何训练金融大模型?传统的联邦学习(FL)和多方安全计算(MPC)如何融入大模型?这两点在性能和通讯上面临巨大的挑战,而用可信执行环境(TEE)的方式也会碰到芯片的限制,郑教授表示这些问题一旦解决,金融大模型落地便未来可期。
隐私计算可用在大模型的数据的预训练,数据收集
针对金融大模型在落地实施中的挑战,郑教授表示最大的挑战依然是安全与合规。他提出了三个思考角度:
1、用户角度。在金融机构做模型训练的时候,如何确保用户数据的安全性,金融数据和用户数据分别如何保存,模型是否可以在机构内部私有化部署,外部数据又如何融入进来,这些是需要去思考的;
用户数据安全问题
2、平台拥有方角度。平台拥有方需要评估模型安全。模型本身是否会被攻击,模型训练的语料在交互的时候是否被恶意输入与事实不相符的内容;另一方面,模型代表了知识产权,如何去开放,在底层模型越来越趋同的情况下,不同的行业训练出来的特征去做开放是否会被窃取;
模型安全问题和知识产权问题
3、应用角度。金融大模型与普通模型不同之处在于,金融业务各环节的决策是不允许存在偏差的,一旦模型结果有偏差,就意味着用户的资金可能亏损,这里我们需要思考,基于金融大模型训练过程中的很多非线性运算,是否会产生大量误差,而误差是否会被累积,从而变成巨大的金融安全问题。
误差问题
所以不管从个人、平台方还是监管方,都要关注金融大模型落地实施过程中的数据安全问题。
郑教授指出,传统AI分为三个阶段,从计算到感知再到认知,认知智能是最高阶段。也许当GPT迭代到第10代就可以覆盖全人类的智慧,这意味着人类的学习方式和知识获取方式也将做出相应改变,当AI达到顶峰,人类将来的发展空间会在哪里?知识和智能的涌现从历史来看都是瞬间发生,郑教授认为,人类和AI很大的区别在于,人类一直在学习“学习的能力”,并且拥有这项能力。未来,人类和AI并不是必须互相被替代,而是基于AI来强化人类自身的能力,最终达到人机协同,但又以人为本的共生状态。