基于人工智能的大数据安全技术平台构建

2022-11-25孙书青

电子元器件与信息技术 2022年7期

孙书青

厦门兴才职业技术学院，福建厦门，361024

0 引言

人工智能和大数据技术有非常密切的关系，利用大数据技术可以更好地进行机器算法分布式工作，并且延伸到人工智能方向，而通过数据集中成为大数据平台，可以更好地构建大数据与人工智能基础公共能力，进而通过对现行大数据平台技术手段与人工智能的创新形态进行融合来搭建新的技术管控框架系统。大数据平台本身在数据运行当中存有的安全隐私问题，可藉由人工智能技术来使管控机制升级，最终保障数据安全[1]。在控制数据采集的过程中，可以选择其特征，并且分离认证身份和授权身份，从而更好地控制数据的安全问题，保证隐私不被外泄，维护用户信息的安全。

1 基于人工智能的大数据安全技术平台构建的背景及意义

伴随着技术的升级发展，人工智能、云计算以及大数据作为代表性技术及创新手段，在经济市场中产生了巨大影响，为大量的行业发展拓宽了边界，实现了更具优势的数据化市场服务新生态。企业管理在数据运行中，除了借助技术手段来提高自身控制水平和构建核心竞争力外，也需要讨论新技术应用创新在当前时代背景下如何成为企业核心价值、带来更强的竞争力、完成资产变现。数据质量是数据相关应用的基石。如何在数据量呈现指数增长的大背景下，做好企业数据标准的统一、提升数据质量、加强安全合规用数、深挖数据价值，并系统化推进数据资产管理，避免数据沼泽，是当下券商数字化转型过程中面临的共同问题。在耗费人力物力积累了海量的数据，形成丰富的数据资产金矿后，有价值的数据和数据的价值之间还存在着最后一公里，而这最后一公里又恰恰是整个企业数字化转型中最重要的一个核心环节。所以如何构建一个安全高效的大数据服务体系，推动数据服务生态的建设，让企业可以切实地从大数据中获益，是企业数字化转型中的关键所在，也是本项目探索的重点[2]。

2 数据处理的历史发展和技术创新

现代信息技术在近十年来的快速发展呈现出多样化的新形态，其中移动互联技术的广泛应用，为各行各业带来了新的可能。其中运营商、金融及泛金融产业、国企甚至能源领域，在内部运营管理方面出现了数据量井喷态势，数据总量呈现指数级的快速增长。数据量的迅速膨胀，对当前企业自身数据运营管理带来了巨大压力，也对数据处理的技术水准和性能、手段形式等提出了全新的诉求。其中新系统的搭建和数据处理调试的不断完善，除了在一定程度上解决了行业数据管理的困境之外，也在一定程度上造成了数据孤岛问题，使得企业在实际的数据运营管理和系统维护当中带来了技术危机，也使得数据管理的整体成本不断增高。伴随数据处理技术的时代发展，技术层面的数据转型经历了多个历史阶段，不同阶段的数据技术形态有着十分鲜明的时代烙印[3]。最早期的数据处理技术与大数据技术的发展相同步，其目的在于打破数据信息孤岛问题，实现更为快速的信息共享和平台化的汇集。技术领域开始出现了“数据湖”这一新概念。数据湖主要功能在于对各类、各向数据进行平台化的汇集，形成多源且异构的数据形态。在这一阶段，数据标准化的建立需要完成多端对接，最终形成以企业、管理者为核心的数据中心。为了能够实现技术目标，数据存储主要以结构化的存储检索机制为主，在部分数据运营当中，会采用API和少量的SQL的技术支持。不过由于SQL的海量数据难以实现大数据平台的动态流动性迁移，导致数据运营处理中新业务面临更高的开发技术门槛，大数据的技术创新受到严重的推广阻碍；进入第二阶段后，为了能够更高效地完成结构化的数据处理，技术层面通过分布式架构形式来对IT架构进行更新，典型技术如SQL on Hadoop等，使得上一阶段所面临的分布式数据难题得到了解决。更多企业客户开始利用Hadoop来进行独立数据仓库搭建，技术手段的应用场景也更为广泛。同样的技术门槛逐渐降低，分布式计算在数据处理中能够胜任更为海量的信息数据，数据处理技术得到了空前发展。当前，技术发展进入了新的阶段，部分企业在数据处理方面已经开始应用关系型数据库作为数据处理核心，通过大数据来实现处理体系的转变。部分企业客户在数据处理应用中，不再满足SQL的统计数据处理和信息挖掘，逐渐推进了计算机学习算法等智能处理的数据分布技术创新，形成了针对结构化数据的人工智能学习挖掘。伴随深度学习技术以及分布式技术的彼此碰撞，逐渐形成了新一代的数据处理计算框架，典型技术手段如TensorFlow。随着计算机算例的不断提升，配合深度学习的海量数据训练，人工智能技术手段能够实现结构化与非结构化的同步数据处理。其中非结构化数据如人脸识别、车辆识别、无人驾驶等，成为当前数据处理技术创新的关键。与此同时，相比于传统机器学习，人工智能技术的数据处理创新，极大减少了数据处理对于特征工程以及业务领域知识的依赖，使得机器学习在实际应用中有更低门槛更高的普及率。与此同时，技术优势下的可视化拖拽页面，形态、内容丰富的行业模板和交互体验等形式，对于从业人员的要求也进一步放宽，使得人工智能在数据处理方面的应用更为顺畅[4]。

3 大智移云技术等整合创新

现代数据资源的实际使用在企业环境中，逐渐从单纯的IT部门扩散到整个管理框架。更多内部项目组以及分支机构也成为数据平台应用主体。伴随不断的数据处理技术更新，不同部门之间如何解决资源隔离和管理分配问题、避免出现调度失衡等壁垒、提高基础服务能力、降低环境搭建成本和开发部署周期、全面提高支撑效能成为当前亟待解决的技术性问题。大智移云的整合式技术发展，重点关注公共管理当中大数据与人工智能、移动互联网平台和云计算等的实际应用，针对大数据技术在mapreduce框架中的作业调度算法进行全面革新。当前应用yarn单独组建来实现分布式计算框架下的资源管理，但是其主要劣势体现在资源管理调度的范围更受局限，同时管理的资源粒度更为粗放。实际管理当中，难以实现有效的资源隔离，很难满足企业客户对于数据处理的现实需要。云计算技术在数据处理当中的重点应用，在于通过虚拟化的形式来实现资源封装，完成资源隔离，长久以来是技术关注的重点，但是docker容器技术在出现和广泛使用前，云计算虚拟化手段所进行的资源封装，存在加载操作系统资源利用率整体过低问题，导致部分厂商云平台建构方案中资源利用不够稳定最终影响管理效果。公有云技术主要通过基础硬件和运维能力，来构建非核心业务的开发和尝试。现代化docker容器等技术发展，实现了微服务技术升级，打造了人工智能平台的容器云实现底层的平台调度。其中容器云所形成的分布式操作系统，能够有效实现集群化的资源封装和管理控制，通过重新进行容器编排，提供大数据的人工智能基础服务。其中HDFS、NoSQL等数据库为典型的分布式文件系统，这些数据库在提供基础服务中，可以利用容器云编排来搭建公共服务层，实现数据仓库、数据集市或者数据图库等识别服务项目，为企业提供核心数据系统的管理服务。容器云的应用借助资源隔离，实现了更为精准的类型资源分配、有效的高精度资源管理，满足了不同业务部门的平台化数据应用要求，极大地避免了数据漏洞和数据泄露问题[5]。

4 网络安全环境数采机制

依托安全技术平台的有效管控，提出全新安全漏洞控制的数据管理诉求，应当不断加强数采工作过程中的漏洞管理，实现全方位立体化的漏洞控制，提高数采环境的安全和精度。采集漏洞数据一般都是在多个网站出现了一些漏洞数据。采集数据的过程中，需要结合不同网站的不同特征，利用网络代码、用户、浏览器等技术，可以更好地避免出现爬虫行为。结合平台中漏洞数据安全标准，可以更好地优化数据采集关键程序，并且定时定期去重启模块工作任务，保证平台数据库可以保持更新状态。利用爬虫程序可以给平台提供JSONAPY方式。在漏洞网页数据的爬取上，可以利用队列式的爬取方式，从而重新定义初始种子，再结合网站漏洞数据的不同构造设计队列算法，再通过爬虫引擎的下载功能，完成网页数据的下载进库。在整个操作中，可以更好地对比网页数据和定制关键字，从而更好地收集关键字搜索数据，保证漏洞数据的准确率[6]。

5 数据特征提取与脱敏

在人工智能大数据安全技术平台构建过程中，若出现数据维度过高现象，则会增加计算步骤或者出现叠加计算实践，最终导致维度特征不关联或者精度下降。有效解决维度难题的主要思路就是实现技术降维，通过高维特征的冗余分析排除不关联数据，实现数据降维降噪目的，进而获得原始数据关键特征。计算机逻辑降维处理在数据认定中，会通过相关矩阵来实现数据绘制，再对绘制矩阵进行显著性验证，结合主题分析、现行识别和因子分阶来完成对于数据特征的校验和有效评价，从中完成互联性更强的特征数据，整个过程被称为数据脱敏。脱敏处理常用随机处理、匿名处理、隐藏处理等处理机制，根据不同场景需要保护隐私和数据安全。本文结合人工智能的大数据平台安全和企业数据隐私需求，选择关联规则结合匿名法来建构脱敏机制，来提高数据敏感度，降低网络风险和非法网络攻击等常见问题。如在进行数据K匿名规则和关联规则中，就可以在匿名K的完成中，利用关联规则来完成隐藏，最终实现数据脱敏。

6 精细化访问的身份认证优化

针对网络环境的安全防护，采用身份加密和有效认证是常见方式。其中身份认证作为准入机制，是通过访问用户识别筛查来最终实现的加密，在计算机Jamie当中，通过加密技术后所形成的数据需要利用指定IP或者白名单身份来对其进行解密，达到获取数据的需求。大数据平台中，可以借助网址路径来对不同身份访问需求进行识别，因此所有访问身份会在网址当中形成临时身份，但是在实际的识别过程中，临时身份的识别和处理无法对用户的使用权限进行清晰认定和分析，难以对是否为非法攻击做出精确判断。为了解决这一问题，本文在平台化设计方面，就采用身份识别认证和数据库授权相分离的原则，从而保证平台访问获得授权用户均为合法用户，通过设定访问合法权限的方式来进行有效的身份认证。大数据在数据信息处理运行中需要遵循国家相关法律法规的具体要求，同时还应当满足各项隐私策略协议，因此对于数据平台的访问控制提出了更高要求。针对这一问题，本文建议采用属性加密手段，针对加密数据借助灵敏度共享机制，来降低密钥管理的时间成本。现代大数据在平台化运行中保持数据安全，更多以来计算环境本身的复杂性，因此用户在实际的数据访问中，常常也面临安全类型方面的多样性。因此在平台化的安全控制中，对于数据访问特征，可以应用访问控制体系下的大数据安全应用和灵敏共享方式，实现细粒度增强层面主客体属性同步控制授权，为访问用户提供增加灵活度的数据共享机制设定，最终保证在数据访问和数据调用层面的细粒度上的安全。此外，针对平台访问还可以应用参数指标等方面的灵活配置，针对涉密数据进行实时访问的内容记录，以日志的形式对事件顺序、资源修改等进行精确记录，从而实现更为完整的数据安全分析链条，做好对各类非法访问的行为特征的有效控制。