公告内容
序号 | 软件名称 | 功能模块 | 子功能模块 | 三级功能模块 | 功能描述 | |
1 | 数据工坊 | 可视化建模 | 种子工厂 | 种子仓库 | 种子批量注册 | 支持将平台表批量注册为种子。 |
2 | 种子仓库展现 | 模型分类过滤、模糊搜索、列表展现。 | ||||
3 | 种子分类展现 | 支持按资源库、标签库、原始库、专题库等目录展现。 | ||||
4 | 种子编辑 | 支持种子编辑,例如:表名、项目名、名称等基本信息。 | ||||
5 | 种子删除 | 支持种子删除。 | ||||
6 | 种子详情 | 对种子基本信息进行展现,例如:表名、项目名、名称,以及表抽样、表结构、表信息等基本信息。 | ||||
7 | 种子回收箱 | 种子彻底删除 | 暂存已删除的种子,支持单条彻底删除。 | |||
8 | 种子恢复 | 暂存已删除的种子,支持单条恢复。 | ||||
9 | 已删除种子列表展现 | 模糊搜索、分类搜索等功能,按主题、表名等列表展现。 | ||||
10 | 种子批量恢复 | 支持批量删除的种子恢复。 | ||||
11 | 种子批量销毁 | 支持批量删除的种子彻底删除。 | ||||
13 | 模型工厂 | 模型仓库 | 模型仓库 | 模型简况、缩略图、列表展现。 | ||
14 | 模型导入 | 支持将另外一个建模平台的模型批量导入到本建模平台。 | ||||
15 | 模型导出 | 支持将本平台的优秀模型批量导出。提供便捷的扩建模平台模型复用。 | ||||
16 | 模型搜索、过滤、状态统计 | 支持对模型仓库内的模型进行多条件搜索功能。 | ||||
17 | 模型下次运行信息 | 支持对已经发布调度的模型,查看下次运行时间,以方便模型运维。 | ||||
18 | 补录数据 | 支持对指定的模型进行数据的补录功能,方便系统故障时,对失败的模型进行重新运行,以维护数据的完整性。 | ||||
19 | 取消发布 | 支持对已经发布的模型进行取消发布设置。 | ||||
20 | 开启调度 | 支持对已经发布并且暂停调度的模型,进行调度开启设置。 | ||||
21 | 停止调度 | 支持对已经发布并且开启调度的模型,进行调度停止设置。 | ||||
22 | 注销模型 | 支持对指定模型进行注销,注销后的模型会进入到模型回收箱暂存。 | ||||
23 | 模型分享 | 当一个模型有多人轮流开发时,支持对指定模型分享给其他用户,其他用户可以在此基础上进行开发。 | ||||
24 | 模型克隆 | 当对一个模型的思路进行重新迭代,而又想留存现有模型的情况下,支持模型克隆操作,对克隆出来的模型进行迭代修改验证。 | ||||
25 | 模型详情 | 支持对模型维度进行全景展示,包括模型的基本信息、开发视图、结果信息、依赖模型等功能。 | ||||
26 | 模型生产 | 开发模型展现 | 支持我的模型、他人分享的模型分类树状图展现。 | |||
27 | 模型搜索 | 支持模型模糊搜索。 | ||||
28 | 模型可视化画布 | 模型画布、可视化建模。 | ||||
29 | 模型快捷操作 | 模型运行、停止、撤销、重做、删除、框选、横向对齐、纵向对齐、放大、缩小、适应画布、实际尺寸、保存为图片、刷新、快捷键帮助、保存、发布。 | ||||
30 | 可视化模型预览 | 节点结果缩略图预览。 | ||||
31 | 基本信息 | 模型基本信息查看,包括:版本、名称、最近更新时间、创建时间、更新人、生效日期、失效日期。 | ||||
32 | 调度参数信息 | 显示模型的调度参数,包括:设置调度参数,引用参数算子。 | ||||
33 | 版本信息 | 显示模型的版本信息,包括编辑人、编辑时间、编辑版本、发布状态、操作。 | ||||
34 | 模型多tab展示 | 支持画布同时显示多个tab页,每个tab页一个模型。 | ||||
35 | 新建模型 | 支持模型或分析任务新增,包括:模型名称、目录、描述信息。 | ||||
36 | 模型回收箱 | 模型彻底删除 | 对暂存的已删除的模型,支持彻底删除,彻底删除后,系统不再存储任何关于此模型的信息,删除后不可恢复。 | |||
37 | 模型恢复 | 暂存已删除的模型,支持对指定模型进行恢复,恢复后,模型在模型仓库展示,可以对模型进行操作修改、发布等动作。 | ||||
38 | 已删除模型列表展现 | 对存放在模型回收箱里的暂时删除的模型,支持模糊搜索、分类搜索等功能。 | ||||
39 | 模型批量恢复 | 对存放在模型回收箱里的暂时删除的模型,进行批量恢复,恢复后的模型在模型仓库可见。 | ||||
40 | 模型批量销毁 | 对存放在模型回收箱里的暂时删除的模型,进行批量彻底删除,删除后的模型不可恢复。 | ||||
41 | 调度系统 | 手动运行 | 基于人工触发的方式,对指定模型进行手动全量调度运行、对指定节点运行;指定某条业务流,从头运行;指定某条业务流,运行至尾部等。 | |||
42 | 定时调度 | 模型发布时,可以开启自动调度开关,并填写相关参数,对此类的模型可以进行定时调度运行。 | ||||
44 | 固化算子开发 | 新建固化模型 | 新建固化模型 | 支持新建固化模型,通过固化模型将模型思路就行抽象形成复用率较高的固化算子,丰富系统的算子库。 | ||
45 | 可视化固化开发 | 可视化固化开发 | 提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。 | |||
46 | 固化树状显示 | 固化树状显示 | 支持固化算子开发树状展现。 | |||
47 | 固化模糊搜索 | 固化模糊搜索 | 支持固化算子开发的模糊搜索。 | |||
48 | 固化配置 | 固化配置 | 支持多样化配置,包括:基本信息配置、设置输入参数、设置输出字段。 | |||
49 | 片段模型固化 | 片段模型固化 | 支持将选定的特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子。 | |||
50 | 算子库 | 搜索 | 算子名称模糊搜索 | 支持根据算子的名称、属性关键字进行模糊搜索。 | ||
51 | 算子基本属性 | 上游算子详情 | 显示上游算子的详情,包括:表信息、表结构、运行结果。 | |||
52 | 运行结果 | 算子正常运行完成后,支持可以以表格的形式抽样展现当前节点的运行结果。 | ||||
53 | 参数说明 | 对算子相关参数进行详细的解析说明。 | ||||
54 | 文件输入 | 本地文件输入 | 上传本地的excel、txt等文件作为数据资源。 | |||
55 | 本地历史文件快捷选择 | 显示历史上传的文件列表,方面用户快捷选择。 | ||||
56 | SFTP数据输入 | 支持远程SFTP文件输入成本地数据资源。 | ||||
57 | 同名文件输入 | 支持远程某目录下的同名文件自动输入为本地数据资源。 | ||||
58 | 最新文件输入 | 支持远程某目录下的最新文件自动输入为本地数据资源。 | ||||
59 | 文件信息预览 | 支持对输入的文件按文件名名称、文件大小、文件路径、上传人、上传时间进行展现。 | ||||
60 | 文件结构呈现 | 支持对上传的文件的文件格式进行解析,展现文件结构。 | ||||
61 | 文件内容展现 | 支持对文件内容进行格式解析展现。 | ||||
62 | 数据库输入算子 | 外库数据源接入 | 支持将外库的数据表作为数据源接入到本系统,形成本系统的数据源。 | |||
63 | 数据源表选择 | 支持按数据源和数据表选择,数据表支持模糊搜索。 | ||||
64 | 过滤 | 支持常规过滤和高级过滤对数据库表进行业务过滤。 | ||||
65 | 字段选择 | 支持对关注的字段进行选择。 | ||||
66 | 结果输出 | 数据源基本信息 | 支持数据源基本信息展现,包括:数据源、表名、分区信息。 | |||
67 | 数据源详情 | 支持展现数据源的详情信息、样例数据信息的展现。 | ||||
68 | 数据输出到本地库 | 支持将加工后的数据输出到本库。 | ||||
69 | 数据输出到外库 | 支持将加工后的数据输出到外库。 | ||||
70 | 数据输出到本地文件 | 支持将加工后的数据输出到本地文件。 | ||||
71 | 数据输出到SFTP | 支持将加工后的数据输出到远程SFTP文件。 | ||||
72 | 字段映射 | 确定字段映射,提供同名映射、同行映射、取消映射。 | ||||
73 | 注册为种子 | 注册种子 | 支持将数据可视化的分析结果注册成为数据种子资源,丰富数据种子库。 | |||
74 | 分区、调度增量更新 | 支持注册为种子的数据分区存储、定时调度、增量更新。 | ||||
75 | 创建表 | 创建新表 | 支持本库创建新表。 | |||
76 | 数据源 | 支持按数据源的项目模块创建表。 | ||||
77 | 表名 | 支持自定义表名。 | ||||
78 | 生命周期 | 支持表的生命周期设置。 | ||||
79 | 分区信息 | 支持表的分区管理。 | ||||
80 | 表结构定义 | 支持表结构自定义。 | ||||
81 | 样例算子 | 自定义数据样例 | 提供可视化方法支持构造业务场景的样例数据,包括:字段类型、字段描述、字段名称。 | |||
82 | 数据过滤 | 数据常规过滤 | 支持对某个字段进行单值或多值过滤。 | |||
83 | 数据高级过滤 | 支持对多个字段分别进行多种运算的组合过滤。 | ||||
84 | 过滤值的输入 | 支持多种过滤值的输入方式,包括:自定义、字段、常量。 | ||||
85 | 高级过滤算法 | 支持多种数据过滤算法,包括:等于、不等于、大于、大于等于、小于等于、包含、不包含、模糊匹配、前模糊、后模糊、非前模糊、非后模糊、非空、空。 | ||||
86 | 字段处理 | 字段合并 | 支持对前置节点的结果表进行按字段和分隔符合并,输出成新字段。 | |||
87 | 位置字段拆分 | 支持对某个字段按位置进行字段分割,并新增字段存储。 | ||||
88 | 分隔符字段拆分 | 支持对某个字段按分隔符进行字段分割,并新增字段存储。 | ||||
89 | 字符插入字段处理 | 支持对单字段进行基于插入位置的字符插入操作,并新增字段存储。 | ||||
90 | 字符替换字段处理 | 支持对单字段进行基于某个字符的字符替换操作,并新增字段存储。 | ||||
91 | 字符正则替换字段处理 | 支持对单字段进行基于正则表达式的字符替换操作,并新增字段存储。 | ||||
92 | 字段转换 | 支持对指定字段进行格式转换,包括:整形、绝对值、日期、时间戳。 | ||||
93 | 字段运算 | 支持对单字段或两字段进行字段运算,包括:加减乘除。 | ||||
94 | 字段翻译 | 支持对指定字段进行多样化运算条件的翻译,支持单字段、多字段等。 | ||||
95 | 字段长度 | 支持对特定字段进行字段长度计算。 | ||||
96 | 字段转换大小写 | 支持对特定字段进行大小写转换操作。 | ||||
97 | 字段重命名 | 支持对输出个字段进行重命名输出。 | ||||
98 | 数据去重 | 数据去重 | 支持按单字段、多字段对数据进行去重。 | |||
99 | 数据统计 | 数据分组统计 | 支持对表数据进行分组统计。 | |||
100 | 数据个数统计 | 支持对表数据相应字段进行个数统计。 | ||||
101 | 数据次数统计 | 支持对表数据相应字段进行次数统计。 | ||||
102 | 数据最大值统计 | 支持对表数据相应字段进行最大值统计。 | ||||
103 | 数据最小值统计 | 支持对表数据相应字段进行最小值统计。 | ||||
104 | 数据平均值统计 | 支持对表数据相应字段进行平均值统计。 | ||||
105 | 数据求和 | 支持对表数据相应字段进行求和值统计。 | ||||
106 | 数据开窗统计 | 支持对表数据相应字段进行开窗统计。 | ||||
107 | 关键词提取 | 手机号提取 | 支持对指定数据列的内容,提取内容中的手机号。 | |||
108 | 邮箱提取 | 支持对指定数据列的内容,提取内容中的电子邮箱。 | ||||
109 | 身份证提取 | 支持对指定数据列的内容,提取内容中的身份证号。 | ||||
110 | 自定义提取 | 支持对指定数据列的内容,按自定义的规则进行提取。 | ||||
111 | 数据排序(TOPN) | 基本功能 | 支持对前置组件结果各字段进行排序。 | |||
112 | 升序降序 | 支持升序和降序。 | ||||
113 | 分组 | 支持对字段进行分组排序。 | ||||
114 | topN | 支持结果取topN获取。 | ||||
115 | 字段聚合拼接 | 聚合拼接 | 支持对单表指定聚合字段,对单个指定字段按分隔符进行拼接形成新的字段。 | |||
116 | 排序去重 | 支持去重、排序功能。 | ||||
118 | 列转行 | 多列转多行 | 支持对表中的指定列转成多行。 | |||
119 | 列值分割转多行 | 支持对指定列,按指定的分隔符对列值进行拆分转多行。 | ||||
120 | 风险输出 | 风险描述 | 支持对自定义风险描述和个业务字段结果,编辑生成基于表数据的业务描述。 | |||
121 | 风险项设置 | 支持自定义设置多级的风险项。 | ||||
122 | 风险级别 | 支持根据个字段的值,定义基于业务的风险项报告。 | ||||
123 | 内连接 | 基本功能 | 支持2~5个前置节点,基于字段选择的内连接操作。 | |||
124 | 输出字段选择 | 支持基于预期结果的输出字段的选择。 | ||||
125 | 左连接 | 左连接 | 支持基于主表的字段扩展功能,包括:主字段选择、扩展字段选择、结果字段选择等。 | |||
126 | 逻辑差 | 逻辑差 | 支持两表基于主字段的集合减法运算,包括:被减表数据选择、减表数据选择、结果输出字段选择等。 | |||
127 | 逻辑并 | 逻辑并 | 支持两个表做集合合并运算,包括:选择主表、确定两表的一个或多个运算参数、是否输出字段等功能。 | |||
128 | 逻辑交统计 | 逻辑交统计 | 支持2~5个前置节点,基于字段选择的逻辑交统计操作,包括:关联度填写、逻辑交个关联字段选择。 | |||
129 | 结果统计 | 支持结果清单统计,包括:关联度、总次数、在各个表中出现的次数。 | ||||
130 | 内连接(维表碰撞) | 文本关键词分析 | 支持文本关键词分析。 | |||
131 | 关键词维表分析 | 支持对表中的某列文本字段以及关键词表中相应一个或多个关键词字段进行关键词多运算条件的匹配分析。 | ||||
132 | 号证合规算子 | 国内号码合规 | 支持根据输入的表字段,对国内号码进行合规检查,并支持异常数据是否过滤、选择输出字段功能。 | |||
133 | 国外号码合规 | 支持根据输入的表字段,对国外号码进行合规检查,并支持异常数据是否过滤、选择输出字段功能。 | ||||
134 | 国内固话合规 | 支持根据输入的表字段,对国内固话进行合规检查,并支持异常数据是否过滤、选择输出字段功能。 | ||||
135 | 身份证合规 | 支持根据输入的表字段,对国内身份证进行合规检查,并支持异常数据是否过滤、选择输出字段功能。 | ||||
136 | 车牌合规 | 支持根据输入的表字段,对国内车牌进行合规检查,并支持异常数据是否过滤、选择输出字段功能。 | ||||
139 | 透视表 | 透视表分析 | 支持基于单列的,列行透视分析,包括:行选择、列选择、排序、列表签上限选择。 | |||
140 | 九宫格算子 | S2九宫格算子 | 支持对输入的表字段,将S2字段扩展。 | |||
141 | geohash九宫格算子 | 支持对输入的表字段,将geohash字段扩展,包括:9宫格扩展、25宫格扩展、字段选择。 | ||||
142 | 空间算子 | 经纬度转geohash | 支持对前置算子结果的经纬度字段,转换成geohash字段。 | |||
143 | geohash转经纬度 | 支持对前置算子结果的geohash字段,转换成经纬度字段。 | ||||
144 | 经纬度转S2 | 支持对前置算子结果的经纬度字段,转换成S2字段。 | ||||
145 | S2转经纬度 | 支持对前置算子结果的S2字段,转换成经纬度字段。 | ||||
146 | 距离算子 | 距离计算 | 支持对两个前置算子结果的经纬度字段,遍历计算目标与目标之间的距离,包括:主表选择、经纬度字段选择、输出字段选择。 | |||
162 | 自定义SQL算子 | 运行sql | 运行单条sql。 | |||
163 | 终止sql | 终止运行sql。 | ||||
164 | 撤销sql | 对编辑的sql进行撤销编辑。 | ||||
165 | 恢复sql | 对sql进行恢复编辑。 | ||||
166 | 查找替换sql | 支持对sql代码进行查找。 | ||||
167 | 格式化sql | 对sql代码进行统一格式处理。 | ||||
168 | 快捷生成sql | 支持快捷输入sql操作,包括:selectfrom、inner join、left join、right join、group by、order by、distict、map join、union、union all。 | ||||
169 | sql日志详情 | 支持查看sql执行的日志信息。 | ||||
170 | sql样例数据 | 支持查看sql执行结果的样例数据。 | ||||
171 | 积分配置 | sigmoid积分 | 支持sigmoid算法积分,包括:运算规则、参数字段X、分值最大限制。 | |||
172 | 对数多项积分 | 支持对数多项算法积分,包括:参数字段X、初始字段α、基数参数β、分值最大限制。 | ||||
173 | 组合条件积分 | 支持组合条件算法积分,包括:各字段的字段运算,多条件的输入。 | ||||
174 | 单位阶跃积分 | 支持单位阶跃算法积分,包括:参数字段X、初始字段α、基数参数β、分值最大限制。 | ||||
175 | MR算子 | MR编辑 | 支持命令行界面,快捷编辑MR代码。 | |||
176 | MR运行 | 支持发起一个MR的运行。 | ||||
177 | MR终止 | 支持终止一个MR的运行。 | ||||
178 | MR撤销 | 支持撤销一次MR的的编辑。 | ||||
179 | MR恢复 | 支持恢复一次MR的的编辑。 | ||||
180 | MR查找替换 | 支持模糊查找一个MR。 | ||||
181 | 日志详情 | 支持查看MR的运行日志。 | ||||
182 | 样例数据显示 | 支持查看MR运行结果样例数据。 | ||||
183 | 数据源 | 支持选择MR运行的数据源。 | ||||
184 | 表名 | 支持选择MR运行需要的表资源。 | ||||
185 | 函数算子 | 基本功能 | 支持系统注册的函数,能够以可视化的方式提供给用户使用,不写代码的情况下使用自定义函数。 | |||
186 | 函数参数选择 | 支持对自定义函数的参数进行自主配置。 | ||||
187 | 输出结果自定义选择 | 支持对函数执行结果,进行字段选配。 | ||||
188 | 种子库 | 分类 | 按用户分类 | 根据用户权限,展示有权限和无权限的的数据资源。 | ||
189 | 按资源分类 | 按多种分类形式,对数据资源进行分类展示。 | ||||
190 | 按关注分类 | 对用户已经标注关注的数据资源,按关注汇总分类。 | ||||
191 | 搜索 | 模糊搜索 | 支持按种子数据模糊搜索。 | |||
192 | 筛选 | 支持按多种类别筛选。 | ||||
193 | 种子注册 | 种子注册 | 提供可视化界面支持单个种子注册功能,注册支持种子基本信息填写、语义标注等功能。 | |||
194 | 种子资源属性 | 表信息 | 支持表名、项目名称、生命周期、物理存储量、是否分区、最新分区、表创建时间。 | |||
195 | 表结构 | 能够对表结构进行预览。 | ||||
196 | 表数据 | 对表数据进行抽样展现。 | ||||
197 | 过滤 | 提供常规过滤、高级过滤。 | ||||
198 | 输出字段选择 | 提供对关注字段进行选择。 | ||||
199 | 任务调度策略 | 提供是否依赖于种子变更的调度选择。 | ||||
200 | 时间快捷过滤 | 对时间属性进行丰富的相对时间、单点时间、时间段进行过滤。 | ||||
201 | API库 | 基本信息 | http类型选择 | 支持的http类型为get和post。 | ||
202 | url填写 | 填写http协议的URL。 | ||||
203 | header | 支持key、value、describtion的填写。 | ||||
204 | body | 支持填写http请求的包体。 | ||||
205 | 测试 | 基本测试 | 测试基本的接口调用是否畅通 | |||
206 | 结果展现 | 响应结果解析展现 | 支持应答结果的解析,字段包括:字段属性、字段名属性、字段描述属性、数据集属性。 | |||
207 | 快捷功能 | 文件库搜索 | 模糊搜索 | 支持按文件名名模糊搜索。 | ||
208 | 文件上传 | 文件上传 | 支持本地excel文件上传。 | |||
209 | 刷新 | 文件库刷新 | 支持文件库刷新。 | |||
210 | 基本功能 | 共享资源使用 | 支持共享资源如同本地种子、算子一样可视化使用。 | |||
213 | 共享资源 | 分类管理 | 协同分类管理。 | |||
214 | 模糊搜索 | 支持按共享资源模糊搜索。 | ||||
215 | 共享资源刷新 | 支持共享资源刷新。 | ||||
216 | 最近使用 | 最近使用 | 显示最近使用的种子信息,方面查找。 | |||
217 | 协同计算 | 数据协同 | 基本功能 | 以共享结果的方式实现跨数据中心的协同计算,支持对端以类似于本地种子的操作方式使用协同资源。 | ||
218 | 基本信息 | 支持基本信息填写,包括资源名称、资源说明等配置项。 | ||||
219 | 共享平台选择 | 支持将结果共享给哪些平台,通过平台选择,支持将工坊联盟里面注册的成员作为协同目标。 | ||||
220 | 输出字段 | 支持输出字段的自定义,通过输出字段选择,支持客户自由选择可以开放给协同对端的字段个数。 | ||||
221 | 生命周期 | 支持生命周期的自定义,通过修改生命周期,改变数据结果的存储时间。 | ||||
222 | 结果跨集群协同 | 通过数据协同功能,提供一种在数据层面跨数据中心的协同计算能力,在数据资产拥有方来看,既能保护数据的安全性,又能满足数据使用方的需求,实现数据按需最小化使用,改变了原来全量数据交换的方式,减少了各数据中心的全量数据交换,节省了大数据平台的资源,同时各数据中心能够更安全的运维自己的数据资产。 | ||||
223 | 模型协同 | 基本功能 | 以共享模型的方式实现跨数据中心的协同计算。 | |||
224 | 基本信息 | 支持基本信息填写,包括资源名称、资源说明。 | ||||
225 | 共享平台选择 | 支持将结果共享给哪些平台的自定义。 | ||||
226 | 输入参数 | 支持数据参数的选择和确定。 | ||||
227 | 输出字段 | 支持输出字段的自定义。 | ||||
228 | 模型跨集群协同 | 通过模型协同功能,提供一种在大数据建模层面的跨数据中心模型和算力的协同计算,服务方能够通过本系统跨数据中心,向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享,从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方,可以灵活的以无参或有参的方式,基于事件触发随时调用其服务方的协同模型。 | ||||
229 | API协同 | 基本功能 | 以API的方式实现跨数据中心的协同计算。 | |||
230 | 基本信息 | 支持基本信息填写,包括资源名称、资源说明、协同服务模式、协同控制参数等。 | ||||
231 | 共享平台选择 | 支持将结果共享给哪些平台的自定义。 | ||||
232 | 输入参数 | 支持数据参数的选择和确定。 | ||||
233 | 输出字段 | 支持输出字段的自定义。 | ||||
234 | 模型跨集群协同 | 通过API协同功能,提供一种以接口形式跨数据中心协同查询能力,服务方通过API协同技术,可以将本地的模型服务、数据服务封装成API接口,以协同算子的形式服务于另一个数据中心的查询或分析应用。 | ||||
235 | 统一资源访问引擎 | 离线数据库对接 | 离线数据库对接 | 支持对接离线平台的查询分析接口,将可视化的分析视图转换成为查询、分析任务以大数据平台租户的形式提交到大数据平台,将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。 | ||
238 | 系统管理 | 平台管理 | 常量信息查看 | 支持系统新增的常量信息显示。 | ||
239 | 新增常量 | 支持新增常量信息,包括名称、标识、排序、描述。 | ||||
240 | 编辑常量 | 支持编辑常量信息,包括名称、标识、父标识、排序、描述。 | ||||
241 | 常量名称模糊搜索 | 支持对已经增加的常量进行按名称模糊搜搜。 | ||||
242 | 删除常量 | 支持对已经增加的常量进行删除。 | ||||
243 | 常量树状浏览 | 支持对已经增加的常量,进行树状浏览。 | ||||
244 | 资源管理 | 新增数据源 | 支持数据源新增。 | |||
245 | 编辑数据源 | 支持对已经增加的数据源进行编辑修改,包括:名称、用户名、密码、端口等。 | ||||
246 | 删除数据源 | 支持对已经添加的数据源进行删除。 | ||||
247 | 数据源名称、标识模糊搜索 | 支持对已经添加的数据源进行名称、标识模糊搜索。 | ||||
248 | 数据源类别搜索 | 支持对已经添加的数据源进行类别搜索。 | ||||
249 | 数据源状态搜索 | 支持对已经添加的数据源进行状态搜索。 | ||||
250 | 数据源回收箱信息 | 支持对已经删除的数据源进行展现。 | ||||
251 | 按名称、表名、描述模糊搜索 | 支持对已经删除的数据源进行按名称、表名、描述模糊搜索。 | ||||
252 | 按数据源类型过滤 | 支持对已经删除的数据源进行按数据源类型过滤。 | ||||
253 | 按数据源状态过滤 | 支持对已经删除的数据源进行按数据源状态过滤。 | ||||
254 | 平台信息 | 系统已经注册平台的列表展现,包括:平台名称、平台代码、平台地址、共享资源、最近访问时间、操作。 | ||||
255 | 新增平台 | 支持新增平台,包括:平台名称、平台代码、平台地址等。 | ||||
256 | 编辑平台 | 支持对已经增加的平台进行参数编辑。 | ||||
257 | 删除平台 | 支持对已经增加的平台进行删除。 | ||||
258 | 平台名称模糊搜索 | 支持平台名称进行平台模糊搜索。 | ||||
259 | 算子信息 | 支持系统算子信息列表展现,包括:名称、目录、上游输入、下游适配、应用范围、状态、操作。 | ||||
260 | 算子上下游配置 | 支持对算子进行编辑,包括:名称、目录、上游最大个数、排序、应用范围、下游适配范围。 | ||||
261 | 算子查询功能 | 支持按算子名称模糊查询。 | ||||
262 | 算子删除功能 | 支持对算子进行删除。 | ||||
263 | sftp远程管理信息 | 支持系统SFTP信息列表展现,包括:名称、主机、端口、用户名、密码、路径、状态、编码、操作。 | ||||
264 | 新增sftp远程管理 | 支持系统SFTP信息新增,包括:名称、主机、端口、用户名、密码、路径。 | ||||
265 | 编辑sftp远程管理 | 支持系统SFTP信息编辑,包括:名称、主机、端口、用户名、密码、路径。 | ||||
266 | 删除sftp远程管理 | 支持对已经新建的sftp远程管理进行删除。 | ||||
267 | sftp远程管理名称模糊搜索 | 支持对已经新建的sftp远程管理名称模糊搜索。 | ||||
268 | sftp连通测试 | 支持对已经新建的sftp远程管理进行连通测试。 | ||||
269 | 用户管理 | 用户信息展现 | 支持用户信息列表展现,包括:姓名、单位、注册时间、最近登录时间、状态、操作。 | |||
270 | 新增用户 | 支持新增用户信息,包括:姓名、密码、身份证号码、单位、角色。 | ||||
271 | 编辑用户 | 支持对已经增加的用户进行编辑,包括:姓名、密码、身份证号码、单位、角色。 | ||||
272 | 删除用户 | 支持对已经增加的用户进行删除。 | ||||
273 | 姓名模糊搜索 | 支持对已经增加的用户进行姓名模糊搜索。 | ||||
274 | 类别搜索 | 支持对已经增加的用户进行类别搜索。 | ||||
275 | 状态搜索 | 支持对已经增加的用户进行状态搜索。 | ||||
276 | 新增单位 | 新增单位目录。 | ||||
277 | 编辑单位 | 对已经增加单位进行编辑。 | ||||
278 | 查询单位 | 按单位名称查询。 | ||||
279 | 删除单位 | 对已经增加单位进行删除。 | ||||
280 | 单位树状展现浏览 | 支持单位展现浏览。 | ||||
281 | 角色信息 | 支持角色信息列表展现,包括:角色名、角色组、描述、最近修改时间、操作。 | ||||
282 | 新增角色 | 支持角色新增,包括:角色名、角色组、描述。 | ||||
283 | 编辑角色 | 支持角色编辑,包括:角色名、角色组、描述。 | ||||
284 | 查询角色 | 支持角色名称模糊搜索。 | ||||
285 | 删除角色 | 支持已经增加的角色删除。 | ||||
286 | 角色功能授权 | 支持对角色进行按功能菜单授权。 | ||||
287 | 角色数据资源授权 | 支持对角色进行数据资源授权。 | ||||
288 | 角色数据资源查看 | 支持对角色已经授权的数据源进行列表展现。 | ||||
289 | 角色数据资源搜索 | 支持对角色已经授权的数据源按数据源、表名进行查找。 | ||||
290 | 菜单信息 | 支持列表显示菜单信息,包括:资源名称、资源标识、描述、资源组、创建时间、操作。 | ||||
291 | 新增菜单 | 支持对系统菜单信息进行新增,包括:资源名称、资源标识、描述、资源组。 | ||||
292 | 编辑菜单 | 支持对系统菜单信息进行修改,包括:资源名称、资源标识、描述、资源组。 | ||||
293 | 删除菜单 | 支持对系统菜单信息进行删除。 | ||||
294 | 菜单树状展现浏览 | 支持菜单树状展现浏览。 | ||||
295 | 菜单资源名称搜索 | 支持菜单按名称模糊搜索。 | ||||
296 | 功能信息 | 支持展现系统的可分配的功能列表。 | ||||
297 | 新增功能 | 支持对可分配功能进行增加,包括:资源名称、资源标识、描述、资源组。 | ||||
298 | 编辑功能 | 支持对系统可分配功能信息进行修改,包括:资源名称、资源标识、描述、资源组。 | ||||
299 | 删除功能 | 支持对系统可分配功能信息进行删除。 | ||||
300 | 功能树状展现浏览 | 支持可分配功能树状展现浏览。 | ||||
301 | 功能资源名称搜索 | 支持可分配功能按名称模糊搜索。 | ||||
302 | 开发管理 | 函数信息展现 | 支持对函数进行浏览,包括:按平台、系统函数等进行分类浏览。 | |||
303 | 新增函数 | 支持为系统新增函数,包括:数据源类型、目录、名称、命令格式、参数说明、应用实例、用途、返回值。 | ||||
304 | 编辑函数 | 支持对已经增加的函数进行各种参数编辑,包括:数据源类型、命令格式、参数说明等。 | ||||
305 | 查询函数 | 支持函数名称、用途模糊查询。 | ||||
306 | 删除函数 | 支持对已经增加的函数进行删除。 | ||||
307 | MR信息 | 支持已经上传MR包信息列表展现,包括:报名、包路径。 | ||||
308 | 新增MR | 支持新增MR包信息,包括:包名、包路径、应用实例。 | ||||
309 | 编辑MR | 支持编辑MR包信息,包括:包名、包路径、应用实例。 | ||||
310 | 删除MR | 支持对已经添加的MR包信息进行删除。 | ||||
311 | MR树状展现浏览 | 支持对已经上传的MR包信息进行树状浏览查询。 | ||||
312 | MR名称、包路径模糊搜索 | 支持按名称、包路径等进行模糊查询。 | ||||
313 | 运维管理 | 任务调度平台 | 支持系统调度可视化管理,包括以下功能模块: | |||
314 | 公告管理 | 支持系统进行公告广播,例如:系统运维提前通知、建模比赛通知等。 | ||||
315 | 日志管理 | 日志信息 | 系统日志信息列表展现,包括:操作人,操作时间,IP地址,应用模块,操作内容。 | |||
316 | 查询日志 | 支持按名称模糊搜索,按应用模块、时间段进行过滤。 | ||||
317 | 名称模糊搜索 | 支持按名称模糊搜索。 | ||||
318 | 应用模块搜索 | 支持按应用模块搜索。 | ||||
319 | 应用类型搜索 | 支持按应用类型搜索。 | ||||
320 | 时间段搜索 | 支持按日志时间段搜索。 | ||||
321 | 一台单向隔离光闸 |
4.1.1可视化数据分析、建模型需求
实现低代码、可视化数据分析、建模,建立种子工厂、模型工厂、固化算子开发、算子库、种子库、API库等几大应用模块。支持五大类算子:数据输入/输出、数据处理、数据碰撞、业务算子、自定义算子。通过本平台进行业务算子的自我定制、扩充、丰富算子库,实现算子库的自我迭代。同时通过在本系统内进行种子的定制、扩充,实现种子库的自我迭代,从而使能系统自我完善、健全。
4.1.2协同计算需求
产品实现跨网络、跨异构数据中心协同计算能力,为同警种同平台、异构平台,跨警种数据中心建设提供全新的技术方案。具体上需要支持同网同构、跨网同构、同网异构、跨网异构几种模式的协同计算。
4.1.3统一资源访问引擎
统一资源访问引擎向下支持与大数据平台组件实现技术对接,整合大数据平台的计算和数据能力,向上将大数据平台能力进行封装,接收可视化建模和协同计算引擎的分析任务。
4.1.4系统管理
为了使整个平台形成整体的管理控制能力,系统需要支持平台管理、资源管理、用户管理、开发管理、运维管理、日志管理几大管理模块,支持系统稳定、安全运行。
4.1.5系统对接
为了融合到现有或即将建设的数据中心项目,需要按数据中心规划内容,实现与已经建设或规划建设的系统实现无缝对接,需要支持门户系统对接。
4.1.6性能需求
在满足本项目部署所需要的软硬件配置要求的前提下,性能指标如下:
1、系统支持静态用户数:100+。
2、系统支持并发用户数:50+。
3、单画布支撑的节点数:200+。
4、系统支持最大模型数:200+。
4.1.7安全需求
从系统安全角度,除按要求对接现有基础设施之外,系统还需支持以下安全控制点:
1、系统用户进行系统管理、安全审计、安全保密的分角色授权管理。
2、对注册的数据源进行授权管理。
3、对系统功能项进行授权管理。
4、对登记的数据中心进行授权管理。
5、对系统内协同资源进行授权。
6、系统操作日志留痕。
4.2产品总体设计4.2.1总体架构设计
数据工坊平台属于SAAS层服务,向下,对接大数据平台接口,以租户的身份向大数据平台提交任务;向上,以可视化建模、协同能力服务于特色应用。平台内包含统一资源访问引擎模块、种子工厂模块、模型工厂模块、协同计算模块、系统管理模块。
图 1系统架构图
统一资源访问引擎
数据工坊对外通过“统一资源访问引擎”来对接各种大数据平台,当前支持引擎包括:离线引擎、在线引擎以及协同计算引擎。
种子工厂
系统通过种子工厂进行数据管理,将数据以种子的形态向系统提供服务。
模型工厂
在模型工厂,通过建立模型画布,将算子、种子利用有向箭头连接,形成业务视图,构建可视化建模能力,支撑上层业务应用和微应用。系统提供丰富的算子库,具体有五大类算子:数据输入/输出、数据处理、数据碰撞、业务算子、自定义算子。
协同计算
通过平台的协同计算能力助力全警种进行跨数据中心数据分析和建模。
系统管理
为使系统安全高效运行,系统提供平台管理、资源管理、用户管理、开发管理、运维管理、日志管理功能。
4.2.2总体网络设计
数据工坊服务器与大数据平台集群网络互通,大数据平台须向数据工坊开放租户,单个网络内数据工坊以租户的身份向本网络大数据平台提交任务。用户终端通过网络设备与数据工坊服务互联。
协同方案部署时,需要根据协同方的数量,部署相应的数据工坊,工坊之间需要通过标准边界设备套件进行“互联”。
图 2网络设计图
4.3.1总体功能设计
本系统是一个支持零代码、可视化数据分析、建模工具,同时支持基于模型级别的协同计算能力。系统包括可视化建模、协同计算、统一资源访问引擎、系统管理、系统对接几大模块。其中可视化建模通过种子工厂、模型工厂、算子库、种子库、API库等实现可视化建模的能力;协同计算模块通过数据协同、模型协同、API协同实现跨网络、跨数据中心的协同计算能力;统一资源访问引擎实现平台与大数据平台对接,面向上层屏蔽大数据平台技术差异;系统管理从整个平台的安全、管理、维护的角度实现整体管理能力;系统与现有门户的对接服务。
图 3功能全景图
4.3.2可视化建模
可视化建模模块包括种子工厂、模型工厂、固化算子开发、算子库、种子库、API库、快捷功能等子模块。
4.3.2.1种子工厂
种子工厂用于对注册到数据工坊的大数据平台表资源进行管理,包含种子仓库和种子回收箱。
1、种子仓库
种子仓库是对可用种子进行管理的系统模块,包括如下内容:
(1)种子注册、展现。
(2)对种子分类过滤、模糊搜索。
(3)对种子编辑、删除。
(4)查看种子基本信息、表信息。
2、种子回收箱
暂存已删除的种子,支持删除、恢复、模糊搜索、分类搜索等功能。
4.3.2.2模型工厂
模型工厂是建模和数据分析的主操作平台,提供整套的可视化建模、分析操作界面,主要分为:模型仓库、模型生产、模型回收箱、模型任务调度几大模块。
1、模型仓库
模型仓库提供了已发布模型的展示和操作能力,对已经发布的模型在此提供全景展现,并提供搜索和人工运维干预功能。
(1)模型导入
支持将另外一个建模平台的模型批量导入到本建模平台。
(2)模型导出
支持将本平台的优秀模型批量导出。提供便捷的扩建模平台模型复用。
(3)模型搜索、过滤、状态统计
支持对模型仓库内的模型进行多条件搜索功能。
(4)模型下次运行信息
支持对已经发布调度的模型,查看下次运行时间,以方便模型运维。
(5)补录数据
支持对指定的模型进行数据的补录功能,方便系统故障时,对失败的模型进行重新运行,以维护数据的完整性。
(6)取消发布
支持对已经发布的模型进行取消发布设置。
(7)开启调度
支持对已经发布并且暂停调度的模型,进行调度开启设置。
(8)停止调度
支持对已经发布并且开启调度的模型,进行调度停止设置。
(9)注销模型
支持对指定模型进行注销,注销后的模型会进入到模型回收箱暂存。
(10)模型分享
当一个模型有多人轮流开发时,支持对指定模型分享给其他用户,其他用户可以在此基础上进行开发。
(11)模型克隆
当对一个模型的思路进行重新迭代,而又想留存现有模型的情况下,支持模型克隆操作,对克隆出来的模型进行迭代修改验证。
(12)模型详情
支持对模型维度进行全景展示,包括模型的基本信息、开发视图、结果信息、依赖模型等功能。
2、模型生产
在种子工厂对数据按业务进行高价值提取基础上,模型工厂提供给用户一个可视化建模的研发环境,降低建模门槛。
(1)我的模型、模型模糊搜索。
(2)模型画布、可视化建模。
(3)模型保存、发布、排列、运行、暂停、停止、删除。
(4)节点结果预览。
3、模型回收箱
暂存已删除的模型,支持删除、恢复、模糊搜索、分类搜索等功能。
(1)模型彻底删除
对暂存的已删除的模型,支持彻底删除,彻底删除后,系统不再存储任何关于此模型的信息,删除后不可恢复。
(2)模型恢复
暂存已删除的模型,支持对指定模型进行恢复,恢复后,模型在模型仓库展示,可以对模型进行操作修改、发布等动作。
(3)已删除模型列表展现
对存放在模型回收箱里的暂时删除的模型,支持模糊搜索、分类搜索等功能。
(4)模型批量恢复
对存放在模型回收箱里的暂时删除的模型,进行批量恢复,恢复后的模型在模型仓库可见。
(5)模型批量销毁
对存放在模型回收箱里的暂时删除的模型,进行批量彻底删除,删除后的模型不可恢复。
4、模型任务调度
(1)手动运行
基于人工触发的方式,对指定模型进行手动全量调度运行、对指定节点运行;指定某条业务流,从头运行;指定某条业务流,运行至尾部等。
(2)定时调度
模型发布时,可以开启自动调度开关,并填写相关参数,对此类的模型可以进行定时调度运行。
4.3.2.3固化算子开发
提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。具体功能包括新建固化模型、可视化固化开发、固化模型展现、固化配置等几大功能模块。
(1)新建固化模型
支持新建固化模型,通过固化模型将模型思路就行抽象形成复用率较高的固化算子,丰富系统的算子库。
(2)可视化固化开发
提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。
(3)固化树状显示
支持固化算子开发树状展现。
(4)固化模糊搜索
支持固化算子开发的模糊搜索。
(5)固化配置
支持多样化配置,包括:基本信息配置、设置输入参数、设置输出字段。
(6)片段模型固化
支持将选定的特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子。
4.3.2.4算子库
系统支持搜索、算子基本属性查看以及几类算子,例如:数据输入/输出、数据处理、数据碰撞、业务算子、自定义算子。通过模型算子化进行算子的自我定制、扩充、丰富算子库;通过模型结果种子化,在系统内进行种子的定制、扩充,使能系统自我完善健全。
4.3.2.4.1搜索
支持根据算子的名称、属性关键字进行模糊搜索。
4.3.2.4.2算子基本属性
(1)上游算子详情
显示上游算子的详情,包括:表信息、表结构、运行结果。
(2)运行结果
算子正常运行完成后,支持可以以表格的形式抽样展现当前节点的运行结果。
(3)参数说明
对算子相关参数进行详细的解析说明。
4.3.2.4.3数据输入/输出类
通过数据输入类算子,可以将大数据平台以外的数据,通过输入类算子上传到大数据平台参与数据分析建模。例如,文件输入、数据库输入。通过数据输出类算子,将数据分析、模型运行的结果输出到大数据平台。例如,通过结果输出算子将结果输出到业务库或下载到客户端本地。
4.3.2.4.3.1文件输入
文件输入算子,用于将系统外部的依赖数据导入到数据平台参与运算,一般是业务库,例如:特定目标、特定区域等。
1、文件上传,已上传文件搜索。
2、文件基本信息、文件结构、文件内容预览。
4.3.2.4.3.2数据库输入算子
支持将外库的数据表作为数据源接入到本系统,形成本系统的数据源。
4.3.2.4.3.3结果输出
对模型结果数据输出到本地或其他数据库。
1、数据去向配置
本地:指与数据来源同库。
外部:指与数据来源不同库,选择数据源,新建或者选择现有的表,选择导入模式、导入规则,填写错误记录条数。
2、选择字段配置
数据去向配置完后,在字段映射配置中,可以选择字段映射方式或者手动连线方式进行字段映射。
4.3.2.4.3.4注册为种子算子
将数据分析、建模的结果数据,注册成种子,方便数据共享和业务库积累。
4.3.2.4.3.5创建表算子
通过算子的可视化配置,在本平台系统内创建一个物理表。
4.3.2.4.3.6样例算子
提供可视化方法支持构造业务场景的样例数据,包括:字段类型、字段描述、字段名称。
4.3.2.4.4数据处理类
通过数据处理类算子,支持对数据表中数据按照字段进行分析,例如,对某个字段按规则进行多种过滤运算;对字段进行合并、拆分、转换、值运算、时间运算、翻译等运算。
4.3.2.4.4.1数据过滤
数据过滤算子,用于对前置算子结果进行按字段进行过滤,分为常规过滤、高级过滤。
1、常规过滤:对前置算子按字段进行单值或多值进行过滤。
2、高级过滤:对前置算子按字段进行14种运算条件、3种值输入方式、2种逻辑运算条件进行过滤。
4.3.2.4.4.2字段处理
字段处理算子,用于将前置算子的结果按字段进行自由组合、拆分处理,例如:字段合并、字段拆分、字段处理、字段转换、字段运算、字段翻译。
1、字段合并,对前置算子进行多字段合并。
2、2种字段拆分方式。
3、3种字符处理方式。
4、4种字段类型转换。
5、4种字段算数运算。
6、10种以上的字段翻译方式。
7、字段值长度运算。
4.3.2.4.4.3数据去重
对前置算子结果按多个字段进行去重。
4.3.2.4.4.4数据统计
对前置算子结果各个字段进行个数、次数、最大值、最小值、平均值、求和等维度的统计。
4.3.2.4.4.5关键词提取
对一张表中的文本内容字段,支持按手机号码、身份证等规则进行内容提取。
4.3.2.4.4.6数据排序(TOPN)
对前置算子结果各个字段进行排序,topN展现。
4.3.2.4.4.7字段聚合拼接
对某个前置算子的几个字段进行聚合,针对聚合结果,对单个字段进行合并操作。
4.3.2.4.4.8列转行算子
支持对特定种子进行的行和列进行转换,方便进行特定场景的数据分析。
4.3.2.4.4.9风险输出算子
风险输出算子,将可视化分析的结果用用户自定义的格式输出出来。典型的场景,例如:将分析结果编辑成文本,方便通过app或短信发通知。
4.3.2.4.5数据碰撞
对表数据进行多表的数据碰撞分析。例如,对多表数据按某个关键字段进行共性的提取;对多张表按关键字段进行表合并;对多张表进行字段扩充。
4.3.2.4.5.1内连接
通过将多个前置算子集合,按照各自的指定字段进行交运算,并对运算结果后的集合进行字段关联扩展。
4.3.2.4.5.2左连接
通过将两个前置算子进行关联,对其中一个前置算子的字段进行关联扩展。
4.3.2.4.5.3逻辑差
对两个前置算子按某几个列进行逻辑差运算。
4.3.2.4.5.4逻辑并
通过将两个前置算子按某几个列进行逻辑并运算。
4.3.2.4.5.5逻辑交统计
在多个目标集合内,根据各集合的关联字段,按关联度进行逻辑交运算,并按关联度和次数进行统计。
4.3.2.4.5.6关键词维表分析
支持对表中的某列文本字段以及关键词表中相应关键词字段进行关键词多运算条件的匹配分析。
4.3.2.4.6业务算子类
将业务建模、数据分析的成果进行封装,形成通用的满足某一业务场景的算子。
4.3.2.4.6.1号证合规
对数据种子的特定字段进行合规验证,包括:国外号码、国内手机、身份证等,并能对异常数据进行过滤提取。
4.3.2.4.6.2透视表
对已知表数据进行指定行列的统计分析。
4.3.2.4.6.3九宫格算子
将前置算子结果集中的geohash字段和S2字段进行范围扩大处理,外扩层级1层、2层。
4.3.2.4.6.4空间算子
通过将经纬度与geohash(5、6、7)、S2(11、12、13、14)进行互转。
4.3.2.4.6.5距离算子
通过两个前置算子的经纬度字段进行运算,计算目标之间的距离。
4.3.2.4.7自定义类算子
自定义算子是面向高技能用户提供的,以一种友好的代码开发界面开放给用户,用户可以通过“自定义sql算子”编辑sql代码,也可以通过“python算子”编辑python代码,类似的也可以支持shell、MR类的代码编辑功能。同时,提供通用类的“IF判断”、“FOR循环”等常用的判断类开发算子。
4.3.2.4.7.1自定义sql算子
基础算子的丰富性很重要,但算子很难满足一切业务场景。另外,虽然基于算子建模降低了建模的门槛,但对技术人员来讲,灵活性受限。建模平台提供自定义SQL算子,支持用户可以通过SQL算子编写SQL脚本,扩展了系统的建模能力。提供运行sql、终止sql、撤销sql、恢复sql、查找替换sql、格式化sql、快捷生成sql、sql日志详情、sql样例数据。
4.3.2.4.7.2积分配置
提供基于特征的打分算子。支持将是和否的特征刻画提升为对特征量化打分,提供特征量化指标。提供sigmoid积分对数多项积分、组合条件积分、单位阶跃积分算子。
sigmoid积分算子。算子提供对积分值进行sigmoid函数转换,得到转换后的特征积分打分,增加特征积分的平滑性,减少原始积分值偏差。
对数多项积分算子。算子提供对建模过程中的多项积分值进行对数转换,增加特征积分的平滑性,减少原始积分值偏差。
组合条件积分算子。算子提供对建模过程中的积分值进行条件组合,最终得到组合运算的积分值。
单位阶跃积分算子。算子提供对积分值进行单位阶跃函数转换,得到转换后的特征积分打分,增加特征积分的平滑性,减少原始积分值偏差。
4.3.2.4.7.3MR算子
MR算子即MapReduce算子。对于复杂的大规模并行运算,通过基础算子的组合很难实现,系统提供脚本编写MapReduce程序并注册到大数据平台,生成MR算子,以MR算子的形式向用户提供大规模数据并行分析能力。MR算子提供MR编辑、MR运行、MR终止、MR撤销、MR恢复、MR查找替换、日志运行详情、样例数据显示等功能。
4.3.2.4.7.4函数算子
函数算子是将大数据平台层面提供的基本函数包装成算子能力,在建模平台上注册成为函数算子,建模平台以基本函数算子的形式提供给用户进行数据加工。提供基本功能、函数参数选择、输出结果自定义选择等功能。
4.3.2.5种子库
按用户、资源、关注情况,对种子进行分类展现,支持模糊搜索。支持种子注册功能。支持表名、项目名称、生命周期、物理存储量、是否分区、最新分区、表创建时间的种子资源信息查看。支持表结构的查看,表抽样数据展现。
(1)按用户分类
根据用户权限,展示有权限和无权限的的数据资源。
(2)按资源分类
按多种分类形式,对数据资源进行分类展示。
(3)按关注分类
对用户已经标注关注的数据资源,按关注汇总分类。
(4)模糊搜索
支持按种子数据模糊搜索。
(5)筛选
支持按多种类别筛选。
(6)种子注册
提供可视化界面支持单个种子注册功能,注册支持种子基本信息填写、语义标注等功能。
(7)种子资源属性
支持表信息、表结构、表数据、过滤、输出字段选择、任务调度策略、时间快捷过滤功能。
4.3.2.6API库
支持将本网络内的开放接口,注册到API库中,在建模平台维护一个可用的接口查询列表。向离线和在线分析平台提供基于http接口的查询能力。主要包含两部分功能:一个是API的注册功能;另一个是面向建模、分析场景的API可视化应用。
1、API注册
支持将外部系统的http接口注册到本系统,包括get、post等。
2、API算子化应用
支持将注册的API算子,以可视化拖拽的形式参与建模或数据分析。
【注】:客户现场必须有需要注册使用的http接口。
4.3.2.7快捷功能
1、文件库
支持本地excel、txt文件上传,文件名名模糊搜索、刷新功能。
2、共享资源
支持共享资源如同本地种子、算子一样可视化使用,并进行分类管理,支持资源的模糊搜索。
3、最近使用
支持最近使用种子的便捷查找、便捷使用。
4.3.3协同计算
根据公安单位当前的实际业务需要和业务协作趋势,通过协同计算引擎的能力,实现省市协同、多警种协同体系,在横向上实现跨域跨平台资源、数据的协同共享及应用,在纵向上实现同警种省市两级的数据共享、资源调用和模型协作服务,形成合作共赢的协同体系。通过可视化搭建协同模型的形式共享数据服务、模型服务和API服务的方式,提供一种在大数据建模层面跨数据中心的协同计算的能力。
图 4跨警种协同架构图
4.3.3.1技术形态
从技术形态上,分为数据协同、模型协同、API协同。
4.3.3.1.1数据协同
通过数据协同功能,提供一种在数据层面跨数据中心的协同计算能力,在数据资产拥有方来看,既能保护数据的安全性,又能满足数据使用方的需求,实现数据按需最小化使用,改变了原来全量数据交换的方式,减少了各数据中心的全量数据交换,节省了大数据平台的资源,同时各数据中心能够更安全的运维自己的数据资产。
4.3.3.1.2模型协同
通过模型协同功能,提供一种在大数据建模层面的跨数据中心模型和算力的协同计算,服务方能够通过本系统跨数据中心,向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享,从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方,可以灵活的以无参或有参的方式,基于事件触发随时调用其服务方的协同模型。
4.3.3.1.3API协同
通过API协同功能,提供一种以接口形式跨数据中心协同查询能力,服务方通过API协同技术,可以将本地的模型服务、数据服务封装成API接口,以协同算子的形式服务于另一个数据中心的查询或分析应用。
4.3.3.2业务场景
根据客户建设的大数据平台的类型,以及不同的网络情况,协同场景分为如下四种:
4.3.3.2.1同网同构
数据中心A和数据中心B处于同一类型的网络,两个数据中心之间物理和逻辑都是连通的,两个协同系统之间可以以接口的形式相互提供服务,两个数据中心属于同一类型的大数据平台,两个系统的执行代码可不加修改在两个数据中心无差别运行。
图 5跨网同构图
4.3.3.2.2跨网同构
数据中心A和数据中心B处于不同类型的网络,两个数据中心之间由于数据安全等原因相互不能互联,物理上是隔离的,两个数据中心属于同一类型的大数据平台,两个协同系统的执行代码可不加修改在两个数据中心无差别运行。
跨网方面,从解决方案上,引入两网单向传输设备,以及围绕设备形成了文件接口映射服务套件,从逻辑上“打通”了两个数据中心网络,将两个数据中心的系统结合成整体的跨网协同计算解决方案。
图 6跨网同构图
4.3.3.2.3同网异构
数据中心A和数据中心B处于同一类型的网络,两个数据中心之间物理和逻辑都是连通的,两个协同系统之间可以以接口的形式相互提供服务,两个数据中心属于不同技术类型的大数据平台,两个系统的执行代码由于数据中心的差异需要代码的解析、翻译后,重新适配新的大数据平台。
跨平台方面,技术上,系统在各大数据平台上做了技术、平台抽象,形成平台服务层,以SAAS的方式屏蔽了大数据平台差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。
图 7同网异构图
4.3.3.2.4跨网异构
数据中心A和数据中心B处于不同类型的网络,两个数据中心之间由于数据安全等原因相互不能互联,物理上是隔离的,两个数据中心属于不同技术类型的大数据平台,两个协同系统的执行代码由于数据中心的差异需要代码的解析、翻译后,重新适配新的大数据平台。
跨网方面,从解决方案上,引入两网单向传输设备,以及围绕设备形成了文件接口映射服务套件,从逻辑上“打通”了两个数据中心网络,将两个数据中心的系统结合成整体的跨网协同计算解决方案。
跨平台方面,技术上,系统在各大数据平台上做了技术、平台抽象,形成平台服务层,以SAAS的方式屏蔽了大数据平台差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。
图 8跨网异构图
4.3.3.3协同能力,开放共赢
为了避免重复建设,充分发挥历史建设项目的使用价值,同时本着拥抱开放、合作共赢的思想,数据工坊从架构设计层面已经充分预留了异构平台对接的框架和能力,并且已经有了多个友商的对接案例。
4.3.3.3.1系统设计图
图 9跨网同构图
4.3.3.3.2注册/更新协同资源
服务方调用此接口,注册/更新服务方的协同资源服务
4.3.3.3.3删除协同资源
服务方调用此接口,删除服务方的协同资源服务
4.3.3.3.4获取有权限访问的协同资源
消费方调用此接口,获取有权限访问的协同资源清单
4.3.3.3.5调用协同资源
消费方调用此接口,发起协同资源调用请求
4.3.3.3.6中断协同资源
消费方调用此接口,中断消费方的协同资源调用
4.3.3.3.7获取协同资源运行状态
消费方调用此接口,获取服务方的协同资源运行状态
4.3.3.3.8获取协同资源结果数据
消费方调用此接口,获取服务方的协同资源结果数据
4.3.4统一资源访问引擎
统一资源访问引擎向下支持与大数据平台组件实现技术对接,整合大数据平台的计算和数据能力,向上将大数据平台能力进行封装,接收可视化建模和协同计算引擎的分析任务。本系统支持与以下大数据组件对接:
1、离线数据库对接服务
支持对接离线平台的查询分析接口,将可视化的分析视图转换成为查询、分析任务以大数据平台租户的形式提交到大数据平台,将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。
4.3.5系统管理
系统管理在本系统中提供整体的管理能力,其中包括:面向对接平台的管理、对接的数据源的管理、对用户权限的管理、面向系统技术参数的开发管理以及日志管理。
1、平台管理
对数据工坊依赖的常量进行增删改查,以及常量的树状浏览展现、模糊搜索。
支持工坊联盟的管理,系统已经注册平台的列表展现、编辑、查询,展现信息包括:平台名称、平台类型、平台代码、平台种类、平台地址、共享/协同资源、最近访问时间、操作。
2、资源管理
支持对数据工坊使用的数据源进行管理,例如:ODPS、hive、sck、oracle、mysql数据源的增删改查,以及销毁、恢复、数据源的过滤、模糊搜索。
支持对数据中心进行管理,支持新增、修改配置、删除数据中心资源。
支持对系统依赖的FTP/SFTP进行新建、编辑、删除,以及测试连接情况等。
3、用户管理
对系统用户、角色、菜单功能进行管理,包括:用户基本信息增加、角色的建立和赋权、菜单功能的新增、数据源授权。
4、开发管理
支持对资源包进行管理,对研发的资源包进行上传、下载、编辑等。
函数管理,支持对依赖函数进行注册管理,包括函数信息展现、编辑、查询、删除。
MR管理,支持MR算子相关的配置管理,包括:支持已经上传MR包信息列表展现,包括:包名、包路径等,MR新增,编辑,删除,树状展现,模糊搜索。
5、运维管理
1)任务调度平台
支持系统调度可视化管理,包括以下功能模块:
运行报表:对任务数量、调度次数、执行器数量进行统计,并对日期分布进行可视化展现,运行结果进行饼状图展现。
任务管理:对任务进行列表展现,包括任务描述、运行模式生效日期、失效日期、状态等。
调度日志:对调度日志进行列表展现,包括任务描述、调度时间、结果、执行时间等。
执行器管理:对执行器进行列表展现,包括AppName、名称等。
2)公告管理
支持系统进行公告广播,例如:系统运维提前通知、建模比赛通知等。
6、日志管理
系统日志信息列表展现,包括:操作人,操作时间,类型,IP地址,应用模块,操作内容,并支持多样化的搜索方式。
4.3.6系统对接
为了融合到现有或即将建设的数据中心项目,需要按数据中心规划内容,实现与已经建设或规划建设的系统实现无缝对接,支持门户系统对接。
4.4服务器部署及软硬件配置4.4.1服务器部署规划
本系统与大数据平台是弱耦合关系,数据工坊作为SAAS层工具,以大数据平台租户的形式向大数据平台提交分析任务。
在现有的大数据平台上直接部署使用,本次项目国产服务器利旧。
图 10单个节点部署规划图
4.4.2软硬件配置建议
建议使用物理机,支队级别内存128G以上,具体情况根据用户数量、模型调度频率、个数等做调整。
数据库按照要求,使用国产主流数据库。
4.5系统关键技术路线4.5.1数据不动,计算动
构建跨域跨平台安全可控、逻辑统一、全网贯通的多级数据中心,解决跨域、跨平台的技术难题,实现海量数据不可汇聚的场景下,多级数据中心的分析、专题建模等核心业务应用创新。
4.5.2全警资源统一调度
通过“统一资源访问引擎”的构建,适配主流大数据平台,形成统一调度、精准服务、安全可控的全网资源统一调度体系,为充分挖掘各地数据资源潜能,通过规范数据资源目录、打通调度渠道、统一服务接口,实现跨层级、跨地域、跨数据中心、跨数据源的协同管理和服务提供基础。
4.5.3数据分仓统管
为充分利用各警种已经建设的数据中心成果,实现数据分仓建设,协同能力统一管理,本系统通过集成“资源服务平台”实现数据分级分类管理、授权,实现数据资源精细化的合规管理,按需使用。同时,系统的协同能力通过发布至“算子资源”,实现算子的流程化、精细化的申请、审批管理机制。
4.5.4模型算子化、算子协同化
首先,以可视化建模技术,促进实战业务模型搭建;其次,将实战模型通用化改造,实现模型算子化;再次,从提高跨警种的协作能力角度,以业务导向实现算子按需、依规协同。最终实现源数据不出云,能力受限出云的技术路径。
五、项目说明1.付款人:长沙市公安局
2.付款方式:通过国库集中支付
3、服务时间:2025年1月31日完成
4.服务地点:采购人指定地点
5.验收方式:采购人自行组织验收
6.支付方式:合同签订后支付总价金额的30%,验收合格后付65%,服务期满一年后无问题支付余下的5%,实际付款金额以审计结算为准。
注:在协商过程中,采购文件可能发生实质性变动的技术、服务要求以及合同草案条款,请在可能变动的条款旁予以文字注明,并将采购文件可能变动的内容在协商须知前附表中明确。
二、相关标准:详见功能及要求
三、技术规格:详见功能及要求
四、交付时间和地点:详见功能及要求
五、服务标准:详见功能及要求
详见功能及要求
详见功能及要求