长沙市公安局：数据工坊建模工具采购项目采购需求公开

招标公告湖南省

公告内容

一、功能及要求：一、采购项目名称：数据工坊建模工具采购项目二、项目预算：144万元三、采购内容

序号	软件名称	功能模块		子功能模块	三级功能模块	功能描述
1	数据工坊	可视化建模	种子工厂	种子仓库	种子批量注册	支持将平台表批量注册为种子。
2					种子仓库展现	模型分类过滤、模糊搜索、列表展现。
3					种子分类展现	支持按资源库、标签库、原始库、专题库等目录展现。
4					种子编辑	支持种子编辑，例如：表名、项目名、名称等基本信息。
5					种子删除	支持种子删除。
6					种子详情	对种子基本信息进行展现，例如：表名、项目名、名称，以及表抽样、表结构、表信息等基本信息。
7				种子回收箱	种子彻底删除	暂存已删除的种子，支持单条彻底删除。
8					种子恢复	暂存已删除的种子，支持单条恢复。
9					已删除种子列表展现	模糊搜索、分类搜索等功能，按主题、表名等列表展现。
10					种子批量恢复	支持批量删除的种子恢复。
11					种子批量销毁	支持批量删除的种子彻底删除。
13			模型工厂	模型仓库	模型仓库	模型简况、缩略图、列表展现。
14					模型导入	支持将另外一个建模平台的模型批量导入到本建模平台。
15					模型导出	支持将本平台的优秀模型批量导出。提供便捷的扩建模平台模型复用。
16					模型搜索、过滤、状态统计	支持对模型仓库内的模型进行多条件搜索功能。
17					模型下次运行信息	支持对已经发布调度的模型，查看下次运行时间，以方便模型运维。
18					补录数据	支持对指定的模型进行数据的补录功能，方便系统故障时，对失败的模型进行重新运行，以维护数据的完整性。
19					取消发布	支持对已经发布的模型进行取消发布设置。
20					开启调度	支持对已经发布并且暂停调度的模型，进行调度开启设置。
21					停止调度	支持对已经发布并且开启调度的模型，进行调度停止设置。
22					注销模型	支持对指定模型进行注销，注销后的模型会进入到模型回收箱暂存。
23					模型分享	当一个模型有多人轮流开发时，支持对指定模型分享给其他用户，其他用户可以在此基础上进行开发。
24					模型克隆	当对一个模型的思路进行重新迭代，而又想留存现有模型的情况下，支持模型克隆操作，对克隆出来的模型进行迭代修改验证。
25					模型详情	支持对模型维度进行全景展示，包括模型的基本信息、开发视图、结果信息、依赖模型等功能。
26				模型生产	开发模型展现	支持我的模型、他人分享的模型分类树状图展现。
27					模型搜索	支持模型模糊搜索。
28					模型可视化画布	模型画布、可视化建模。
29					模型快捷操作	模型运行、停止、撤销、重做、删除、框选、横向对齐、纵向对齐、放大、缩小、适应画布、实际尺寸、保存为图片、刷新、快捷键帮助、保存、发布。
30					可视化模型预览	节点结果缩略图预览。
31					基本信息	模型基本信息查看，包括：版本、名称、最近更新时间、创建时间、更新人、生效日期、失效日期。
32					调度参数信息	显示模型的调度参数，包括：设置调度参数，引用参数算子。
33					版本信息	显示模型的版本信息，包括编辑人、编辑时间、编辑版本、发布状态、操作。
34					模型多tab展示	支持画布同时显示多个tab页，每个tab页一个模型。
35					新建模型	支持模型或分析任务新增，包括：模型名称、目录、描述信息。
36				模型回收箱	模型彻底删除	对暂存的已删除的模型，支持彻底删除，彻底删除后，系统不再存储任何关于此模型的信息，删除后不可恢复。
37					模型恢复	暂存已删除的模型，支持对指定模型进行恢复，恢复后，模型在模型仓库展示，可以对模型进行操作修改、发布等动作。
38					已删除模型列表展现	对存放在模型回收箱里的暂时删除的模型，支持模糊搜索、分类搜索等功能。
39					模型批量恢复	对存放在模型回收箱里的暂时删除的模型，进行批量恢复，恢复后的模型在模型仓库可见。
40					模型批量销毁	对存放在模型回收箱里的暂时删除的模型，进行批量彻底删除，删除后的模型不可恢复。
41				调度系统	手动运行	基于人工触发的方式，对指定模型进行手动全量调度运行、对指定节点运行；指定某条业务流，从头运行；指定某条业务流，运行至尾部等。
42				调度系统	定时调度	模型发布时，可以开启自动调度开关，并填写相关参数，对此类的模型可以进行定时调度运行。
44			固化算子开发	新建固化模型	新建固化模型	支持新建固化模型，通过固化模型将模型思路就行抽象形成复用率较高的固化算子，丰富系统的算子库。
45				可视化固化开发	可视化固化开发	提供可视化开发界面，支持固化算子开发。是一个在系统内支持算子开发的工厂，用于将特定的数据分析逻辑，通过可视化操作固化成支持特定场景的实战应用算子，用于将常用的分析业务场景固化，易于进行算子库积累，支撑模型快捷搭建。
46				固化树状显示	固化树状显示	支持固化算子开发树状展现。
47				固化模糊搜索	固化模糊搜索	支持固化算子开发的模糊搜索。
48				固化配置	固化配置	支持多样化配置，包括：基本信息配置、设置输入参数、设置输出字段。
49				片段模型固化	片段模型固化	支持将选定的特定的数据分析逻辑，通过可视化操作固化成支持特定场景的实战应用算子。
50			算子库	搜索	算子名称模糊搜索	支持根据算子的名称、属性关键字进行模糊搜索。
51				算子基本属性	上游算子详情	显示上游算子的详情，包括：表信息、表结构、运行结果。
52					运行结果	算子正常运行完成后，支持可以以表格的形式抽样展现当前节点的运行结果。
53					参数说明	对算子相关参数进行详细的解析说明。
54				文件输入	本地文件输入	上传本地的excel、txt等文件作为数据资源。
55					本地历史文件快捷选择	显示历史上传的文件列表，方面用户快捷选择。
56					SFTP数据输入	支持远程SFTP文件输入成本地数据资源。
57					同名文件输入	支持远程某目录下的同名文件自动输入为本地数据资源。
58					最新文件输入	支持远程某目录下的最新文件自动输入为本地数据资源。
59					文件信息预览	支持对输入的文件按文件名名称、文件大小、文件路径、上传人、上传时间进行展现。
60					文件结构呈现	支持对上传的文件的文件格式进行解析，展现文件结构。
61					文件内容展现	支持对文件内容进行格式解析展现。
62				数据库输入算子	外库数据源接入	支持将外库的数据表作为数据源接入到本系统，形成本系统的数据源。
63					数据源表选择	支持按数据源和数据表选择，数据表支持模糊搜索。
64					过滤	支持常规过滤和高级过滤对数据库表进行业务过滤。
65					字段选择	支持对关注的字段进行选择。
66				结果输出	数据源基本信息	支持数据源基本信息展现，包括：数据源、表名、分区信息。
67	数据源详情	支持展现数据源的详情信息、样例数据信息的展现。
68	数据输出到本地库	支持将加工后的数据输出到本库。
69	数据输出到外库	支持将加工后的数据输出到外库。
70	数据输出到本地文件	支持将加工后的数据输出到本地文件。
71	数据输出到SFTP	支持将加工后的数据输出到远程SFTP文件。
72	字段映射	确定字段映射，提供同名映射、同行映射、取消映射。
73	注册为种子	注册种子		支持将数据可视化的分析结果注册成为数据种子资源，丰富数据种子库。
74	注册为种子	分区、调度增量更新		支持注册为种子的数据分区存储、定时调度、增量更新。
75	创建表	创建新表		支持本库创建新表。
76		数据源		支持按数据源的项目模块创建表。
77		表名		支持自定义表名。
78		生命周期		支持表的生命周期设置。
79		分区信息		支持表的分区管理。
80		表结构定义		支持表结构自定义。
81	样例算子	自定义数据样例		提供可视化方法支持构造业务场景的样例数据，包括：字段类型、字段描述、字段名称。
82	数据过滤	数据常规过滤		支持对某个字段进行单值或多值过滤。
83		数据高级过滤		支持对多个字段分别进行多种运算的组合过滤。
84		过滤值的输入		支持多种过滤值的输入方式，包括：自定义、字段、常量。
85		高级过滤算法		支持多种数据过滤算法，包括：等于、不等于、大于、大于等于、小于等于、包含、不包含、模糊匹配、前模糊、后模糊、非前模糊、非后模糊、非空、空。
86	字段处理	字段合并		支持对前置节点的结果表进行按字段和分隔符合并，输出成新字段。
87		位置字段拆分		支持对某个字段按位置进行字段分割，并新增字段存储。
88		分隔符字段拆分		支持对某个字段按分隔符进行字段分割，并新增字段存储。
89		字符插入字段处理		支持对单字段进行基于插入位置的字符插入操作，并新增字段存储。
90		字符替换字段处理		支持对单字段进行基于某个字符的字符替换操作，并新增字段存储。
91		字符正则替换字段处理		支持对单字段进行基于正则表达式的字符替换操作，并新增字段存储。
92		字段转换		支持对指定字段进行格式转换，包括：整形、绝对值、日期、时间戳。
93		字段运算		支持对单字段或两字段进行字段运算，包括：加减乘除。
94		字段翻译		支持对指定字段进行多样化运算条件的翻译，支持单字段、多字段等。
95		字段长度		支持对特定字段进行字段长度计算。
96		字段转换大小写		支持对特定字段进行大小写转换操作。
97		字段重命名		支持对输出个字段进行重命名输出。
98	数据去重	数据去重		支持按单字段、多字段对数据进行去重。
99	数据统计	数据分组统计		支持对表数据进行分组统计。
100		数据个数统计		支持对表数据相应字段进行个数统计。
101		数据次数统计		支持对表数据相应字段进行次数统计。
102		数据最大值统计		支持对表数据相应字段进行最大值统计。
103		数据最小值统计		支持对表数据相应字段进行最小值统计。
104		数据平均值统计		支持对表数据相应字段进行平均值统计。
105		数据求和		支持对表数据相应字段进行求和值统计。
106		数据开窗统计		支持对表数据相应字段进行开窗统计。
107	关键词提取	手机号提取		支持对指定数据列的内容，提取内容中的手机号。
108		邮箱提取		支持对指定数据列的内容，提取内容中的电子邮箱。
109		身份证提取		支持对指定数据列的内容，提取内容中的身份证号。
110		自定义提取		支持对指定数据列的内容，按自定义的规则进行提取。
111	数据排序（TOPN）	基本功能		支持对前置组件结果各字段进行排序。
112		升序降序		支持升序和降序。
113		分组		支持对字段进行分组排序。
114		topN	支持结果取topN获取。
115	字段聚合拼接	聚合拼接	支持对单表指定聚合字段，对单个指定字段按分隔符进行拼接形成新的字段。
116	字段聚合拼接	排序去重	支持去重、排序功能。
118	列转行	多列转多行	支持对表中的指定列转成多行。
119	列转行	列值分割转多行	支持对指定列，按指定的分隔符对列值进行拆分转多行。
120	风险输出	风险描述	支持对自定义风险描述和个业务字段结果，编辑生成基于表数据的业务描述。
121		风险项设置	支持自定义设置多级的风险项。
122		风险级别	支持根据个字段的值，定义基于业务的风险项报告。
123	内连接	基本功能	支持2~5个前置节点，基于字段选择的内连接操作。
124	内连接	输出字段选择	支持基于预期结果的输出字段的选择。
125	左连接	左连接	支持基于主表的字段扩展功能，包括：主字段选择、扩展字段选择、结果字段选择等。
126	逻辑差	逻辑差	支持两表基于主字段的集合减法运算，包括：被减表数据选择、减表数据选择、结果输出字段选择等。
127	逻辑并	逻辑并	支持两个表做集合合并运算，包括：选择主表、确定两表的一个或多个运算参数、是否输出字段等功能。
128	逻辑交统计	逻辑交统计	支持2~5个前置节点，基于字段选择的逻辑交统计操作，包括：关联度填写、逻辑交个关联字段选择。
129	逻辑交统计	结果统计	支持结果清单统计，包括：关联度、总次数、在各个表中出现的次数。
130	内连接（维表碰撞）	文本关键词分析	支持文本关键词分析。
131	内连接（维表碰撞）	关键词维表分析	支持对表中的某列文本字段以及关键词表中相应一个或多个关键词字段进行关键词多运算条件的匹配分析。
132	号证合规算子	国内号码合规	支持根据输入的表字段，对国内号码进行合规检查，并支持异常数据是否过滤、选择输出字段功能。
133		国外号码合规	支持根据输入的表字段，对国外号码进行合规检查，并支持异常数据是否过滤、选择输出字段功能。
134		国内固话合规	支持根据输入的表字段，对国内固话进行合规检查，并支持异常数据是否过滤、选择输出字段功能。
135		身份证合规	支持根据输入的表字段，对国内身份证进行合规检查，并支持异常数据是否过滤、选择输出字段功能。
136		车牌合规	支持根据输入的表字段，对国内车牌进行合规检查，并支持异常数据是否过滤、选择输出字段功能。
139	透视表	透视表分析	支持基于单列的，列行透视分析，包括：行选择、列选择、排序、列表签上限选择。
140	九宫格算子	S2九宫格算子	支持对输入的表字段，将S2字段扩展。
141	九宫格算子	geohash九宫格算子	支持对输入的表字段，将geohash字段扩展，包括：9宫格扩展、25宫格扩展、字段选择。
142	空间算子	经纬度转geohash	支持对前置算子结果的经纬度字段，转换成geohash字段。
143		geohash转经纬度	支持对前置算子结果的geohash字段，转换成经纬度字段。
144		经纬度转S2	支持对前置算子结果的经纬度字段，转换成S2字段。
145		S2转经纬度	支持对前置算子结果的S2字段，转换成经纬度字段。
146	距离算子	距离计算	支持对两个前置算子结果的经纬度字段，遍历计算目标与目标之间的距离，包括：主表选择、经纬度字段选择、输出字段选择。
162	自定义SQL算子	运行sql	运行单条sql。
163		终止sql	终止运行sql。
164		撤销sql	对编辑的sql进行撤销编辑。
165		恢复sql	对sql进行恢复编辑。
166		查找替换sql	支持对sql代码进行查找。
167		格式化sql	对sql代码进行统一格式处理。
168		快捷生成sql	支持快捷输入sql操作，包括：selectfrom、inner join、left join、right join、group by、order by、distict、map join、union、union all。
169		sql日志详情	支持查看sql执行的日志信息。
170		sql样例数据	支持查看sql执行结果的样例数据。
171	积分配置	sigmoid积分	支持sigmoid算法积分，包括：运算规则、参数字段X、分值最大限制。
172		对数多项积分	支持对数多项算法积分，包括：参数字段X、初始字段α、基数参数β、分值最大限制。
173		组合条件积分	支持组合条件算法积分，包括：各字段的字段运算，多条件的输入。
174		单位阶跃积分	支持单位阶跃算法积分，包括：参数字段X、初始字段α、基数参数β、分值最大限制。
175	MR算子	MR编辑	支持命令行界面，快捷编辑MR代码。
176		MR运行	支持发起一个MR的运行。
177		MR终止	支持终止一个MR的运行。
178		MR撤销	支持撤销一次MR的的编辑。
179		MR恢复	支持恢复一次MR的的编辑。
180		MR查找替换	支持模糊查找一个MR。
181		日志详情	支持查看MR的运行日志。
182		样例数据显示	支持查看MR运行结果样例数据。
183		数据源	支持选择MR运行的数据源。
184		表名	支持选择MR运行需要的表资源。
185	函数算子	基本功能	支持系统注册的函数，能够以可视化的方式提供给用户使用，不写代码的情况下使用自定义函数。
186		函数参数选择	支持对自定义函数的参数进行自主配置。
187		输出结果自定义选择	支持对函数执行结果，进行字段选配。
188	种子库	分类	按用户分类	根据用户权限，展示有权限和无权限的的数据资源。
189			按资源分类	按多种分类形式，对数据资源进行分类展示。
190			按关注分类	对用户已经标注关注的数据资源，按关注汇总分类。
191		搜索	模糊搜索	支持按种子数据模糊搜索。
192		搜索	筛选	支持按多种类别筛选。
193		种子注册	种子注册	提供可视化界面支持单个种子注册功能，注册支持种子基本信息填写、语义标注等功能。
194		种子资源属性	表信息	支持表名、项目名称、生命周期、物理存储量、是否分区、最新分区、表创建时间。
195			表结构	能够对表结构进行预览。
196			表数据	对表数据进行抽样展现。
197			过滤	提供常规过滤、高级过滤。
198			输出字段选择	提供对关注字段进行选择。
199			任务调度策略	提供是否依赖于种子变更的调度选择。
200			时间快捷过滤	对时间属性进行丰富的相对时间、单点时间、时间段进行过滤。
201	API库	基本信息	http类型选择	支持的http类型为get和post。
202			url填写	填写http协议的URL。
203			header	支持key、value、describtion的填写。
204			body	支持填写http请求的包体。
205		测试	基本测试	测试基本的接口调用是否畅通
206		结果展现	响应结果解析展现	支持应答结果的解析，字段包括：字段属性、字段名属性、字段描述属性、数据集属性。
207	快捷功能	文件库搜索	模糊搜索	支持按文件名名模糊搜索。
208		文件上传	文件上传	支持本地excel文件上传。
209		刷新	文件库刷新	支持文件库刷新。
210		基本功能	共享资源使用	支持共享资源如同本地种子、算子一样可视化使用。
213		共享资源	分类管理	协同分类管理。
214			模糊搜索	支持按共享资源模糊搜索。
215			共享资源刷新	支持共享资源刷新。
216		最近使用	最近使用	显示最近使用的种子信息，方面查找。
217	协同计算	数据协同		基本功能	以共享结果的方式实现跨数据中心的协同计算，支持对端以类似于本地种子的操作方式使用协同资源。
218				基本信息	支持基本信息填写，包括资源名称、资源说明等配置项。
219				共享平台选择	支持将结果共享给哪些平台，通过平台选择，支持将工坊联盟里面注册的成员作为协同目标。
220				输出字段	支持输出字段的自定义，通过输出字段选择，支持客户自由选择可以开放给协同对端的字段个数。
221				生命周期	支持生命周期的自定义，通过修改生命周期，改变数据结果的存储时间。
222				结果跨集群协同	通过数据协同功能，提供一种在数据层面跨数据中心的协同计算能力，在数据资产拥有方来看，既能保护数据的安全性，又能满足数据使用方的需求，实现数据按需最小化使用，改变了原来全量数据交换的方式，减少了各数据中心的全量数据交换，节省了大数据平台的资源，同时各数据中心能够更安全的运维自己的数据资产。
223		模型协同		基本功能	以共享模型的方式实现跨数据中心的协同计算。
224				基本信息	支持基本信息填写，包括资源名称、资源说明。
225				共享平台选择	支持将结果共享给哪些平台的自定义。
226				输入参数	支持数据参数的选择和确定。
227				输出字段	支持输出字段的自定义。
228				模型跨集群协同	通过模型协同功能，提供一种在大数据建模层面的跨数据中心模型和算力的协同计算，服务方能够通过本系统跨数据中心，向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享，从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方，可以灵活的以无参或有参的方式，基于事件触发随时调用其服务方的协同模型。
229		API协同		基本功能	以API的方式实现跨数据中心的协同计算。
230				基本信息	支持基本信息填写，包括资源名称、资源说明、协同服务模式、协同控制参数等。
231				共享平台选择	支持将结果共享给哪些平台的自定义。
232				输入参数	支持数据参数的选择和确定。
233				输出字段	支持输出字段的自定义。
234				模型跨集群协同	通过API协同功能，提供一种以接口形式跨数据中心协同查询能力，服务方通过API协同技术，可以将本地的模型服务、数据服务封装成API接口，以协同算子的形式服务于另一个数据中心的查询或分析应用。
235	统一资源访问引擎	离线数据库对接		离线数据库对接	支持对接离线平台的查询分析接口，将可视化的分析视图转换成为查询、分析任务以大数据平台租户的形式提交到大数据平台，将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。以下二选一： 1) ODPS对接服务，与ODPS大数据平台对接服务。 2) Hive对接服务，支持对hive数据库对接。
238	系统管理	平台管理		常量信息查看	支持系统新增的常量信息显示。
239				新增常量	支持新增常量信息，包括名称、标识、排序、描述。
240				编辑常量	支持编辑常量信息，包括名称、标识、父标识、排序、描述。
241				常量名称模糊搜索	支持对已经增加的常量进行按名称模糊搜搜。
242				删除常量	支持对已经增加的常量进行删除。
243				常量树状浏览	支持对已经增加的常量，进行树状浏览。
244		资源管理		新增数据源	支持数据源新增。
245				编辑数据源	支持对已经增加的数据源进行编辑修改，包括：名称、用户名、密码、端口等。
246				删除数据源	支持对已经添加的数据源进行删除。
247				数据源名称、标识模糊搜索	支持对已经添加的数据源进行名称、标识模糊搜索。
248				数据源类别搜索	支持对已经添加的数据源进行类别搜索。
249				数据源状态搜索	支持对已经添加的数据源进行状态搜索。
250				数据源回收箱信息	支持对已经删除的数据源进行展现。
251				按名称、表名、描述模糊搜索	支持对已经删除的数据源进行按名称、表名、描述模糊搜索。
252				按数据源类型过滤	支持对已经删除的数据源进行按数据源类型过滤。
253				按数据源状态过滤	支持对已经删除的数据源进行按数据源状态过滤。
254				平台信息	系统已经注册平台的列表展现，包括：平台名称、平台代码、平台地址、共享资源、最近访问时间、操作。
255				新增平台	支持新增平台，包括：平台名称、平台代码、平台地址等。
256				编辑平台	支持对已经增加的平台进行参数编辑。
257				删除平台	支持对已经增加的平台进行删除。
258				平台名称模糊搜索	支持平台名称进行平台模糊搜索。
259				算子信息	支持系统算子信息列表展现，包括：名称、目录、上游输入、下游适配、应用范围、状态、操作。
260				算子上下游配置	支持对算子进行编辑，包括：名称、目录、上游最大个数、排序、应用范围、下游适配范围。
261				算子查询功能	支持按算子名称模糊查询。
262				算子删除功能	支持对算子进行删除。
263				sftp远程管理信息	支持系统SFTP信息列表展现，包括：名称、主机、端口、用户名、密码、路径、状态、编码、操作。
264				新增sftp远程管理	支持系统SFTP信息新增，包括：名称、主机、端口、用户名、密码、路径。
265				编辑sftp远程管理	支持系统SFTP信息编辑，包括：名称、主机、端口、用户名、密码、路径。
266				删除sftp远程管理	支持对已经新建的sftp远程管理进行删除。
267				sftp远程管理名称模糊搜索	支持对已经新建的sftp远程管理名称模糊搜索。
268				sftp连通测试	支持对已经新建的sftp远程管理进行连通测试。
269		用户管理		用户信息展现	支持用户信息列表展现，包括：姓名、单位、注册时间、最近登录时间、状态、操作。
270				新增用户	支持新增用户信息，包括：姓名、密码、身份证号码、单位、角色。
271				编辑用户	支持对已经增加的用户进行编辑，包括：姓名、密码、身份证号码、单位、角色。
272				删除用户	支持对已经增加的用户进行删除。
273				姓名模糊搜索	支持对已经增加的用户进行姓名模糊搜索。
274				类别搜索	支持对已经增加的用户进行类别搜索。
275				状态搜索	支持对已经增加的用户进行状态搜索。
276				新增单位	新增单位目录。
277				编辑单位	对已经增加单位进行编辑。
278				查询单位	按单位名称查询。
279				删除单位	对已经增加单位进行删除。
280				单位树状展现浏览	支持单位展现浏览。
281				角色信息	支持角色信息列表展现，包括：角色名、角色组、描述、最近修改时间、操作。
282				新增角色	支持角色新增，包括：角色名、角色组、描述。
283				编辑角色	支持角色编辑，包括：角色名、角色组、描述。
284				查询角色	支持角色名称模糊搜索。
285				删除角色	支持已经增加的角色删除。
286				角色功能授权	支持对角色进行按功能菜单授权。
287				角色数据资源授权	支持对角色进行数据资源授权。
288				角色数据资源查看	支持对角色已经授权的数据源进行列表展现。
289				角色数据资源搜索	支持对角色已经授权的数据源按数据源、表名进行查找。
290				菜单信息	支持列表显示菜单信息，包括：资源名称、资源标识、描述、资源组、创建时间、操作。
291				新增菜单	支持对系统菜单信息进行新增，包括：资源名称、资源标识、描述、资源组。
292				编辑菜单	支持对系统菜单信息进行修改，包括：资源名称、资源标识、描述、资源组。
293				删除菜单	支持对系统菜单信息进行删除。
294				菜单树状展现浏览	支持菜单树状展现浏览。
295				菜单资源名称搜索	支持菜单按名称模糊搜索。
296				功能信息	支持展现系统的可分配的功能列表。
297				新增功能	支持对可分配功能进行增加，包括：资源名称、资源标识、描述、资源组。
298				编辑功能	支持对系统可分配功能信息进行修改，包括：资源名称、资源标识、描述、资源组。
299				删除功能	支持对系统可分配功能信息进行删除。
300				功能树状展现浏览	支持可分配功能树状展现浏览。
301				功能资源名称搜索	支持可分配功能按名称模糊搜索。
302	开发管理		函数信息展现	支持对函数进行浏览，包括：按平台、系统函数等进行分类浏览。
303			新增函数	支持为系统新增函数，包括：数据源类型、目录、名称、命令格式、参数说明、应用实例、用途、返回值。
304			编辑函数	支持对已经增加的函数进行各种参数编辑，包括：数据源类型、命令格式、参数说明等。
305			查询函数	支持函数名称、用途模糊查询。
306			删除函数	支持对已经增加的函数进行删除。
307			MR信息	支持已经上传MR包信息列表展现，包括：报名、包路径。
308			新增MR	支持新增MR包信息，包括：包名、包路径、应用实例。
309			编辑MR	支持编辑MR包信息，包括：包名、包路径、应用实例。
310			删除MR	支持对已经添加的MR包信息进行删除。
311			MR树状展现浏览	支持对已经上传的MR包信息进行树状浏览查询。
312			MR名称、包路径模糊搜索	支持按名称、包路径等进行模糊查询。
313	运维管理		任务调度平台	支持系统调度可视化管理，包括以下功能模块：运行报表：对任务数量、调度次数、执行器数量进行统计，并对日期分布进行可视化展现，运行结果进行饼状图展现。任务管理：对任务进行列表展现，包括任务描述、运行模式生效日期、失效日期、状态等。调度日志：对调度日志进行列表展现，包括任务描述、调度时间、结果、执行时间等。执行器管理：对执行器进行列表展现，包括AppName、名称等。
314	运维管理		公告管理	支持系统进行公告广播，例如：系统运维提前通知、建模比赛通知等。
315	日志管理		日志信息	系统日志信息列表展现，包括：操作人，操作时间，IP地址，应用模块，操作内容。
316			查询日志	支持按名称模糊搜索，按应用模块、时间段进行过滤。
317			名称模糊搜索	支持按名称模糊搜索。
318			应用模块搜索	支持按应用模块搜索。
319			应用类型搜索	支持按应用类型搜索。
320			时间段搜索	支持按日志时间段搜索。
321	一台单向隔离光闸

四、技术参数及要求4.1需求分析

4.1.1可视化数据分析、建模型需求

实现低代码、可视化数据分析、建模，建立种子工厂、模型工厂、固化算子开发、算子库、种子库、API库等几大应用模块。支持五大类算子：数据输入/输出、数据处理、数据碰撞、业务算子、自定义算子。通过本平台进行业务算子的自我定制、扩充、丰富算子库，实现算子库的自我迭代。同时通过在本系统内进行种子的定制、扩充，实现种子库的自我迭代，从而使能系统自我完善、健全。

4.1.2协同计算需求

产品实现跨网络、跨异构数据中心协同计算能力，为同警种同平台、异构平台，跨警种数据中心建设提供全新的技术方案。具体上需要支持同网同构、跨网同构、同网异构、跨网异构几种模式的协同计算。

4.1.3统一资源访问引擎

统一资源访问引擎向下支持与大数据平台组件实现技术对接，整合大数据平台的计算和数据能力，向上将大数据平台能力进行封装，接收可视化建模和协同计算引擎的分析任务。

4.1.4系统管理

为了使整个平台形成整体的管理控制能力，系统需要支持平台管理、资源管理、用户管理、开发管理、运维管理、日志管理几大管理模块，支持系统稳定、安全运行。

4.1.5系统对接

为了融合到现有或即将建设的数据中心项目，需要按数据中心规划内容，实现与已经建设或规划建设的系统实现无缝对接，需要支持门户系统对接。

4.1.6性能需求

在满足本项目部署所需要的软硬件配置要求的前提下，性能指标如下：

1、系统支持静态用户数：100+。

2、系统支持并发用户数：50+。

3、单画布支撑的节点数：200+。

4、系统支持最大模型数：200+。

4.1.7安全需求

从系统安全角度，除按要求对接现有基础设施之外，系统还需支持以下安全控制点：

1、系统用户进行系统管理、安全审计、安全保密的分角色授权管理。

2、对注册的数据源进行授权管理。

3、对系统功能项进行授权管理。

4、对登记的数据中心进行授权管理。

5、对系统内协同资源进行授权。

6、系统操作日志留痕。

4.2产品总体设计

4.2.1总体架构设计

数据工坊平台属于SAAS层服务，向下，对接大数据平台接口，以租户的身份向大数据平台提交任务；向上，以可视化建模、协同能力服务于特色应用。平台内包含统一资源访问引擎模块、种子工厂模块、模型工厂模块、协同计算模块、系统管理模块。

图 1系统架构图

统一资源访问引擎

数据工坊对外通过“统一资源访问引擎”来对接各种大数据平台，当前支持引擎包括：离线引擎、在线引擎以及协同计算引擎。

种子工厂

系统通过种子工厂进行数据管理，将数据以种子的形态向系统提供服务。

模型工厂

在模型工厂，通过建立模型画布，将算子、种子利用有向箭头连接，形成业务视图，构建可视化建模能力，支撑上层业务应用和微应用。系统提供丰富的算子库，具体有五大类算子：数据输入/输出、数据处理、数据碰撞、业务算子、自定义算子。

协同计算

通过平台的协同计算能力助力全警种进行跨数据中心数据分析和建模。

系统管理

为使系统安全高效运行，系统提供平台管理、资源管理、用户管理、开发管理、运维管理、日志管理功能。

4.2.2总体网络设计

数据工坊服务器与大数据平台集群网络互通，大数据平台须向数据工坊开放租户，单个网络内数据工坊以租户的身份向本网络大数据平台提交任务。用户终端通过网络设备与数据工坊服务互联。

协同方案部署时，需要根据协同方的数量，部署相应的数据工坊，工坊之间需要通过标准边界设备套件进行“互联”。

图 2网络设计图

4.3系统功能/功能设计

4.3.1总体功能设计

本系统是一个支持零代码、可视化数据分析、建模工具，同时支持基于模型级别的协同计算能力。系统包括可视化建模、协同计算、统一资源访问引擎、系统管理、系统对接几大模块。其中可视化建模通过种子工厂、模型工厂、算子库、种子库、API库等实现可视化建模的能力；协同计算模块通过数据协同、模型协同、API协同实现跨网络、跨数据中心的协同计算能力；统一资源访问引擎实现平台与大数据平台对接，面向上层屏蔽大数据平台技术差异；系统管理从整个平台的安全、管理、维护的角度实现整体管理能力；系统与现有门户的对接服务。

图 3功能全景图

4.3.2可视化建模

可视化建模模块包括种子工厂、模型工厂、固化算子开发、算子库、种子库、API库、快捷功能等子模块。

4.3.2.1种子工厂

种子工厂用于对注册到数据工坊的大数据平台表资源进行管理，包含种子仓库和种子回收箱。

1、种子仓库

种子仓库是对可用种子进行管理的系统模块，包括如下内容：

（1）种子注册、展现。

（2）对种子分类过滤、模糊搜索。

（3）对种子编辑、删除。

（4）查看种子基本信息、表信息。

2、种子回收箱

暂存已删除的种子，支持删除、恢复、模糊搜索、分类搜索等功能。

4.3.2.2模型工厂

模型工厂是建模和数据分析的主操作平台，提供整套的可视化建模、分析操作界面，主要分为：模型仓库、模型生产、模型回收箱、模型任务调度几大模块。

1、模型仓库

模型仓库提供了已发布模型的展示和操作能力，对已经发布的模型在此提供全景展现，并提供搜索和人工运维干预功能。

（1）模型导入

支持将另外一个建模平台的模型批量导入到本建模平台。

（2）模型导出

支持将本平台的优秀模型批量导出。提供便捷的扩建模平台模型复用。

（3）模型搜索、过滤、状态统计

支持对模型仓库内的模型进行多条件搜索功能。

（4）模型下次运行信息

支持对已经发布调度的模型，查看下次运行时间，以方便模型运维。

（5）补录数据

支持对指定的模型进行数据的补录功能，方便系统故障时，对失败的模型进行重新运行，以维护数据的完整性。

（6）取消发布

支持对已经发布的模型进行取消发布设置。

（7）开启调度

支持对已经发布并且暂停调度的模型，进行调度开启设置。

（8）停止调度

支持对已经发布并且开启调度的模型，进行调度停止设置。

（9）注销模型

支持对指定模型进行注销，注销后的模型会进入到模型回收箱暂存。

（10）模型分享

当一个模型有多人轮流开发时，支持对指定模型分享给其他用户，其他用户可以在此基础上进行开发。

（11）模型克隆

当对一个模型的思路进行重新迭代，而又想留存现有模型的情况下，支持模型克隆操作，对克隆出来的模型进行迭代修改验证。

（12）模型详情

支持对模型维度进行全景展示，包括模型的基本信息、开发视图、结果信息、依赖模型等功能。

2、模型生产

在种子工厂对数据按业务进行高价值提取基础上，模型工厂提供给用户一个可视化建模的研发环境，降低建模门槛。

（1）我的模型、模型模糊搜索。

（2）模型画布、可视化建模。

（3）模型保存、发布、排列、运行、暂停、停止、删除。

（4）节点结果预览。

3、模型回收箱

暂存已删除的模型，支持删除、恢复、模糊搜索、分类搜索等功能。

（1）模型彻底删除

对暂存的已删除的模型，支持彻底删除，彻底删除后，系统不再存储任何关于此模型的信息，删除后不可恢复。

（2）模型恢复

暂存已删除的模型，支持对指定模型进行恢复，恢复后，模型在模型仓库展示，可以对模型进行操作修改、发布等动作。

（3）已删除模型列表展现

对存放在模型回收箱里的暂时删除的模型，支持模糊搜索、分类搜索等功能。

（4）模型批量恢复

对存放在模型回收箱里的暂时删除的模型，进行批量恢复，恢复后的模型在模型仓库可见。

（5）模型批量销毁

对存放在模型回收箱里的暂时删除的模型，进行批量彻底删除，删除后的模型不可恢复。

4、模型任务调度

（1）手动运行

基于人工触发的方式，对指定模型进行手动全量调度运行、对指定节点运行；指定某条业务流，从头运行；指定某条业务流，运行至尾部等。

（2）定时调度

模型发布时，可以开启自动调度开关，并填写相关参数，对此类的模型可以进行定时调度运行。

4.3.2.3固化算子开发

提供可视化开发界面，支持固化算子开发。是一个在系统内支持算子开发的工厂，用于将特定的数据分析逻辑，通过可视化操作固化成支持特定场景的实战应用算子，用于将常用的分析业务场景固化，易于进行算子库积累，支撑模型快捷搭建。具体功能包括新建固化模型、可视化固化开发、固化模型展现、固化配置等几大功能模块。

（1）新建固化模型

支持新建固化模型，通过固化模型将模型思路就行抽象形成复用率较高的固化算子，丰富系统的算子库。

（2）可视化固化开发

提供可视化开发界面，支持固化算子开发。是一个在系统内支持算子开发的工厂，用于将特定的数据分析逻辑，通过可视化操作固化成支持特定场景的实战应用算子，用于将常用的分析业务场景固化，易于进行算子库积累，支撑模型快捷搭建。

（3）固化树状显示

支持固化算子开发树状展现。

（4）固化模糊搜索

支持固化算子开发的模糊搜索。

（5）固化配置

支持多样化配置，包括：基本信息配置、设置输入参数、设置输出字段。

（6）片段模型固化

支持将选定的特定的数据分析逻辑，通过可视化操作固化成支持特定场景的实战应用算子。

4.3.2.4算子库

系统支持搜索、算子基本属性查看以及几类算子，例如：数据输入/输出、数据处理、数据碰撞、业务算子、自定义算子。通过模型算子化进行算子的自我定制、扩充、丰富算子库；通过模型结果种子化，在系统内进行种子的定制、扩充，使能系统自我完善健全。

4.3.2.4.1搜索

支持根据算子的名称、属性关键字进行模糊搜索。

4.3.2.4.2算子基本属性

（1）上游算子详情

显示上游算子的详情，包括：表信息、表结构、运行结果。

（2）运行结果

算子正常运行完成后，支持可以以表格的形式抽样展现当前节点的运行结果。

（3）参数说明

对算子相关参数进行详细的解析说明。

4.3.2.4.3数据输入/输出类

通过数据输入类算子，可以将大数据平台以外的数据，通过输入类算子上传到大数据平台参与数据分析建模。例如，文件输入、数据库输入。通过数据输出类算子，将数据分析、模型运行的结果输出到大数据平台。例如，通过结果输出算子将结果输出到业务库或下载到客户端本地。

4.3.2.4.3.1文件输入

文件输入算子，用于将系统外部的依赖数据导入到数据平台参与运算，一般是业务库，例如：特定目标、特定区域等。

1、文件上传，已上传文件搜索。

2、文件基本信息、文件结构、文件内容预览。

4.3.2.4.3.2数据库输入算子

支持将外库的数据表作为数据源接入到本系统，形成本系统的数据源。

4.3.2.4.3.3结果输出

对模型结果数据输出到本地或其他数据库。

1、数据去向配置

本地：指与数据来源同库。

外部：指与数据来源不同库，选择数据源，新建或者选择现有的表，选择导入模式、导入规则，填写错误记录条数。

2、选择字段配置

数据去向配置完后，在字段映射配置中，可以选择字段映射方式或者手动连线方式进行字段映射。

4.3.2.4.3.4注册为种子算子

将数据分析、建模的结果数据，注册成种子，方便数据共享和业务库积累。

4.3.2.4.3.5创建表算子

通过算子的可视化配置，在本平台系统内创建一个物理表。

4.3.2.4.3.6样例算子

提供可视化方法支持构造业务场景的样例数据，包括：字段类型、字段描述、字段名称。

4.3.2.4.4数据处理类

通过数据处理类算子，支持对数据表中数据按照字段进行分析，例如，对某个字段按规则进行多种过滤运算；对字段进行合并、拆分、转换、值运算、时间运算、翻译等运算。

4.3.2.4.4.1数据过滤

数据过滤算子，用于对前置算子结果进行按字段进行过滤，分为常规过滤、高级过滤。

1、常规过滤：对前置算子按字段进行单值或多值进行过滤。

2、高级过滤：对前置算子按字段进行14种运算条件、3种值输入方式、2种逻辑运算条件进行过滤。

4.3.2.4.4.2字段处理

字段处理算子，用于将前置算子的结果按字段进行自由组合、拆分处理，例如：字段合并、字段拆分、字段处理、字段转换、字段运算、字段翻译。

1、字段合并，对前置算子进行多字段合并。

2、2种字段拆分方式。

3、3种字符处理方式。

4、4种字段类型转换。

5、4种字段算数运算。

6、10种以上的字段翻译方式。

7、字段值长度运算。

4.3.2.4.4.3数据去重

对前置算子结果按多个字段进行去重。

4.3.2.4.4.4数据统计

对前置算子结果各个字段进行个数、次数、最大值、最小值、平均值、求和等维度的统计。

4.3.2.4.4.5关键词提取

对一张表中的文本内容字段，支持按手机号码、身份证等规则进行内容提取。

4.3.2.4.4.6数据排序（TOPN）

对前置算子结果各个字段进行排序，topN展现。

4.3.2.4.4.7字段聚合拼接

对某个前置算子的几个字段进行聚合，针对聚合结果，对单个字段进行合并操作。

4.3.2.4.4.8列转行算子

支持对特定种子进行的行和列进行转换，方便进行特定场景的数据分析。

4.3.2.4.4.9风险输出算子

风险输出算子，将可视化分析的结果用用户自定义的格式输出出来。典型的场景，例如：将分析结果编辑成文本，方便通过app或短信发通知。

4.3.2.4.5数据碰撞

对表数据进行多表的数据碰撞分析。例如，对多表数据按某个关键字段进行共性的提取；对多张表按关键字段进行表合并；对多张表进行字段扩充。

4.3.2.4.5.1内连接

通过将多个前置算子集合，按照各自的指定字段进行交运算，并对运算结果后的集合进行字段关联扩展。

4.3.2.4.5.2左连接

通过将两个前置算子进行关联，对其中一个前置算子的字段进行关联扩展。

4.3.2.4.5.3逻辑差

对两个前置算子按某几个列进行逻辑差运算。

4.3.2.4.5.4逻辑并

通过将两个前置算子按某几个列进行逻辑并运算。

4.3.2.4.5.5逻辑交统计

在多个目标集合内，根据各集合的关联字段，按关联度进行逻辑交运算，并按关联度和次数进行统计。

4.3.2.4.5.6关键词维表分析

支持对表中的某列文本字段以及关键词表中相应关键词字段进行关键词多运算条件的匹配分析。

4.3.2.4.6业务算子类

将业务建模、数据分析的成果进行封装，形成通用的满足某一业务场景的算子。

4.3.2.4.6.1号证合规

对数据种子的特定字段进行合规验证，包括：国外号码、国内手机、身份证等，并能对异常数据进行过滤提取。

4.3.2.4.6.2透视表

对已知表数据进行指定行列的统计分析。

4.3.2.4.6.3九宫格算子

将前置算子结果集中的geohash字段和S2字段进行范围扩大处理，外扩层级1层、2层。

4.3.2.4.6.4空间算子

通过将经纬度与geohash（5、6、7）、S2（11、12、13、14）进行互转。

4.3.2.4.6.5距离算子

通过两个前置算子的经纬度字段进行运算，计算目标之间的距离。

4.3.2.4.7自定义类算子

自定义算子是面向高技能用户提供的，以一种友好的代码开发界面开放给用户，用户可以通过“自定义sql算子”编辑sql代码，也可以通过“python算子”编辑python代码，类似的也可以支持shell、MR类的代码编辑功能。同时，提供通用类的“IF判断”、“FOR循环”等常用的判断类开发算子。

4.3.2.4.7.1自定义sql算子

基础算子的丰富性很重要，但算子很难满足一切业务场景。另外，虽然基于算子建模降低了建模的门槛，但对技术人员来讲，灵活性受限。建模平台提供自定义SQL算子，支持用户可以通过SQL算子编写SQL脚本，扩展了系统的建模能力。提供运行sql、终止sql、撤销sql、恢复sql、查找替换sql、格式化sql、快捷生成sql、sql日志详情、sql样例数据。

4.3.2.4.7.2积分配置

提供基于特征的打分算子。支持将是和否的特征刻画提升为对特征量化打分，提供特征量化指标。提供sigmoid积分对数多项积分、组合条件积分、单位阶跃积分算子。

sigmoid积分算子。算子提供对积分值进行sigmoid函数转换，得到转换后的特征积分打分，增加特征积分的平滑性，减少原始积分值偏差。

对数多项积分算子。算子提供对建模过程中的多项积分值进行对数转换，增加特征积分的平滑性，减少原始积分值偏差。

组合条件积分算子。算子提供对建模过程中的积分值进行条件组合，最终得到组合运算的积分值。

单位阶跃积分算子。算子提供对积分值进行单位阶跃函数转换，得到转换后的特征积分打分，增加特征积分的平滑性，减少原始积分值偏差。

4.3.2.4.7.3MR算子

MR算子即MapReduce算子。对于复杂的大规模并行运算，通过基础算子的组合很难实现，系统提供脚本编写MapReduce程序并注册到大数据平台，生成MR算子，以MR算子的形式向用户提供大规模数据并行分析能力。MR算子提供MR编辑、MR运行、MR终止、MR撤销、MR恢复、MR查找替换、日志运行详情、样例数据显示等功能。

4.3.2.4.7.4函数算子

函数算子是将大数据平台层面提供的基本函数包装成算子能力，在建模平台上注册成为函数算子，建模平台以基本函数算子的形式提供给用户进行数据加工。提供基本功能、函数参数选择、输出结果自定义选择等功能。

4.3.2.5种子库

按用户、资源、关注情况，对种子进行分类展现，支持模糊搜索。支持种子注册功能。支持表名、项目名称、生命周期、物理存储量、是否分区、最新分区、表创建时间的种子资源信息查看。支持表结构的查看，表抽样数据展现。

（1）按用户分类

根据用户权限，展示有权限和无权限的的数据资源。

（2）按资源分类

按多种分类形式，对数据资源进行分类展示。

（3）按关注分类

对用户已经标注关注的数据资源，按关注汇总分类。

（4）模糊搜索

支持按种子数据模糊搜索。

（5）筛选

支持按多种类别筛选。

（6）种子注册

提供可视化界面支持单个种子注册功能，注册支持种子基本信息填写、语义标注等功能。

（7）种子资源属性

支持表信息、表结构、表数据、过滤、输出字段选择、任务调度策略、时间快捷过滤功能。

4.3.2.6API库

支持将本网络内的开放接口，注册到API库中，在建模平台维护一个可用的接口查询列表。向离线和在线分析平台提供基于http接口的查询能力。主要包含两部分功能：一个是API的注册功能；另一个是面向建模、分析场景的API可视化应用。

1、API注册

支持将外部系统的http接口注册到本系统，包括get、post等。

2、API算子化应用

支持将注册的API算子，以可视化拖拽的形式参与建模或数据分析。

【注】：客户现场必须有需要注册使用的http接口。

4.3.2.7快捷功能

1、文件库

支持本地excel、txt文件上传，文件名名模糊搜索、刷新功能。

2、共享资源

支持共享资源如同本地种子、算子一样可视化使用，并进行分类管理，支持资源的模糊搜索。

3、最近使用

支持最近使用种子的便捷查找、便捷使用。

4.3.3协同计算

根据公安单位当前的实际业务需要和业务协作趋势，通过协同计算引擎的能力，实现省市协同、多警种协同体系，在横向上实现跨域跨平台资源、数据的协同共享及应用，在纵向上实现同警种省市两级的数据共享、资源调用和模型协作服务，形成合作共赢的协同体系。通过可视化搭建协同模型的形式共享数据服务、模型服务和API服务的方式，提供一种在大数据建模层面跨数据中心的协同计算的能力。

图 4跨警种协同架构图

4.3.3.1技术形态

从技术形态上，分为数据协同、模型协同、API协同。

4.3.3.1.1数据协同

通过数据协同功能，提供一种在数据层面跨数据中心的协同计算能力，在数据资产拥有方来看，既能保护数据的安全性，又能满足数据使用方的需求，实现数据按需最小化使用，改变了原来全量数据交换的方式，减少了各数据中心的全量数据交换，节省了大数据平台的资源，同时各数据中心能够更安全的运维自己的数据资产。

4.3.3.1.2模型协同

通过模型协同功能，提供一种在大数据建模层面的跨数据中心模型和算力的协同计算，服务方能够通过本系统跨数据中心，向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享，从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方，可以灵活的以无参或有参的方式，基于事件触发随时调用其服务方的协同模型。

4.3.3.1.3API协同

通过API协同功能，提供一种以接口形式跨数据中心协同查询能力，服务方通过API协同技术，可以将本地的模型服务、数据服务封装成API接口，以协同算子的形式服务于另一个数据中心的查询或分析应用。

4.3.3.2业务场景

根据客户建设的大数据平台的类型，以及不同的网络情况，协同场景分为如下四种：

4.3.3.2.1同网同构

数据中心A和数据中心B处于同一类型的网络，两个数据中心之间物理和逻辑都是连通的，两个协同系统之间可以以接口的形式相互提供服务，两个数据中心属于同一类型的大数据平台，两个系统的执行代码可不加修改在两个数据中心无差别运行。

图 5跨网同构图

4.3.3.2.2跨网同构

数据中心A和数据中心B处于不同类型的网络，两个数据中心之间由于数据安全等原因相互不能互联，物理上是隔离的，两个数据中心属于同一类型的大数据平台，两个协同系统的执行代码可不加修改在两个数据中心无差别运行。

跨网方面，从解决方案上，引入两网单向传输设备，以及围绕设备形成了文件接口映射服务套件，从逻辑上“打通”了两个数据中心网络，将两个数据中心的系统结合成整体的跨网协同计算解决方案。

图 6跨网同构图

4.3.3.2.3同网异构

数据中心A和数据中心B处于同一类型的网络，两个数据中心之间物理和逻辑都是连通的，两个协同系统之间可以以接口的形式相互提供服务，两个数据中心属于不同技术类型的大数据平台，两个系统的执行代码由于数据中心的差异需要代码的解析、翻译后，重新适配新的大数据平台。

跨平台方面，技术上，系统在各大数据平台上做了技术、平台抽象，形成平台服务层，以SAAS的方式屏蔽了大数据平台差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。

图 7同网异构图

4.3.3.2.4跨网异构

数据中心A和数据中心B处于不同类型的网络，两个数据中心之间由于数据安全等原因相互不能互联，物理上是隔离的，两个数据中心属于不同技术类型的大数据平台，两个协同系统的执行代码由于数据中心的差异需要代码的解析、翻译后，重新适配新的大数据平台。

图 8跨网异构图

4.3.3.3协同能力，开放共赢

为了避免重复建设，充分发挥历史建设项目的使用价值，同时本着拥抱开放、合作共赢的思想，数据工坊从架构设计层面已经充分预留了异构平台对接的框架和能力，并且已经有了多个友商的对接案例。

4.3.3.3.1系统设计图

图 9跨网同构图

4.3.3.3.2注册/更新协同资源

服务方调用此接口，注册/更新服务方的协同资源服务

4.3.3.3.3删除协同资源

服务方调用此接口，删除服务方的协同资源服务

4.3.3.3.4获取有权限访问的协同资源

消费方调用此接口，获取有权限访问的协同资源清单

4.3.3.3.5调用协同资源

消费方调用此接口，发起协同资源调用请求

4.3.3.3.6中断协同资源

消费方调用此接口，中断消费方的协同资源调用

4.3.3.3.7获取协同资源运行状态

消费方调用此接口，获取服务方的协同资源运行状态

4.3.3.3.8获取协同资源结果数据

消费方调用此接口，获取服务方的协同资源结果数据

4.3.4统一资源访问引擎

统一资源访问引擎向下支持与大数据平台组件实现技术对接，整合大数据平台的计算和数据能力，向上将大数据平台能力进行封装，接收可视化建模和协同计算引擎的分析任务。本系统支持与以下大数据组件对接：

1、离线数据库对接服务

支持对接离线平台的查询分析接口，将可视化的分析视图转换成为查询、分析任务以大数据平台租户的形式提交到大数据平台，将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。

4.3.5系统管理

系统管理在本系统中提供整体的管理能力，其中包括：面向对接平台的管理、对接的数据源的管理、对用户权限的管理、面向系统技术参数的开发管理以及日志管理。

1、平台管理

对数据工坊依赖的常量进行增删改查，以及常量的树状浏览展现、模糊搜索。

支持工坊联盟的管理，系统已经注册平台的列表展现、编辑、查询，展现信息包括：平台名称、平台类型、平台代码、平台种类、平台地址、共享/协同资源、最近访问时间、操作。

2、资源管理

支持对数据工坊使用的数据源进行管理，例如：ODPS、hive、sck、oracle、mysql数据源的增删改查，以及销毁、恢复、数据源的过滤、模糊搜索。

支持对数据中心进行管理，支持新增、修改配置、删除数据中心资源。

支持对系统依赖的FTP/SFTP进行新建、编辑、删除，以及测试连接情况等。

3、用户管理

对系统用户、角色、菜单功能进行管理，包括：用户基本信息增加、角色的建立和赋权、菜单功能的新增、数据源授权。

4、开发管理

支持对资源包进行管理，对研发的资源包进行上传、下载、编辑等。

函数管理，支持对依赖函数进行注册管理，包括函数信息展现、编辑、查询、删除。

MR管理，支持MR算子相关的配置管理，包括：支持已经上传MR包信息列表展现，包括：包名、包路径等，MR新增，编辑，删除，树状展现，模糊搜索。

5、运维管理

1)任务调度平台

支持系统调度可视化管理，包括以下功能模块：

运行报表：对任务数量、调度次数、执行器数量进行统计，并对日期分布进行可视化展现，运行结果进行饼状图展现。

任务管理：对任务进行列表展现，包括任务描述、运行模式生效日期、失效日期、状态等。

调度日志：对调度日志进行列表展现，包括任务描述、调度时间、结果、执行时间等。

执行器管理：对执行器进行列表展现，包括AppName、名称等。

2)公告管理

支持系统进行公告广播，例如：系统运维提前通知、建模比赛通知等。

6、日志管理

系统日志信息列表展现，包括：操作人，操作时间，类型，IP地址，应用模块，操作内容，并支持多样化的搜索方式。

4.3.6系统对接

为了融合到现有或即将建设的数据中心项目，需要按数据中心规划内容，实现与已经建设或规划建设的系统实现无缝对接，支持门户系统对接。

4.4服务器部署及软硬件配置

4.4.1服务器部署规划

本系统与大数据平台是弱耦合关系，数据工坊作为SAAS层工具，以大数据平台租户的形式向大数据平台提交分析任务。

在现有的大数据平台上直接部署使用，本次项目国产服务器利旧。

图 10单个节点部署规划图

4.4.2软硬件配置建议

建议使用物理机，支队级别内存128G以上，具体情况根据用户数量、模型调度频率、个数等做调整。

数据库按照要求，使用国产主流数据库。

4.5系统关键技术路线

4.5.1数据不动，计算动

构建跨域跨平台安全可控、逻辑统一、全网贯通的多级数据中心，解决跨域、跨平台的技术难题，实现海量数据不可汇聚的场景下，多级数据中心的分析、专题建模等核心业务应用创新。

4.5.2全警资源统一调度

通过“统一资源访问引擎”的构建，适配主流大数据平台，形成统一调度、精准服务、安全可控的全网资源统一调度体系，为充分挖掘各地数据资源潜能，通过规范数据资源目录、打通调度渠道、统一服务接口，实现跨层级、跨地域、跨数据中心、跨数据源的协同管理和服务提供基础。

4.5.3数据分仓统管

为充分利用各警种已经建设的数据中心成果，实现数据分仓建设，协同能力统一管理，本系统通过集成“资源服务平台”实现数据分级分类管理、授权，实现数据资源精细化的合规管理，按需使用。同时，系统的协同能力通过发布至“算子资源”，实现算子的流程化、精细化的申请、审批管理机制。

4.5.4模型算子化、算子协同化

首先，以可视化建模技术，促进实战业务模型搭建；其次，将实战模型通用化改造，实现模型算子化；再次，从提高跨警种的协作能力角度，以业务导向实现算子按需、依规协同。最终实现源数据不出云，能力受限出云的技术路径。

五、项目说明

1.付款人：长沙市公安局

2.付款方式：通过国库集中支付

3、服务时间：2025年1月31日完成

4.服务地点：采购人指定地点

5.验收方式：采购人自行组织验收

6.支付方式：合同签订后支付总价金额的30%，验收合格后付65%，服务期满一年后无问题支付余下的5%，实际付款金额以审计结算为准。

注：在协商过程中，采购文件可能发生实质性变动的技术、服务要求以及合同草案条款，请在可能变动的条款旁予以文字注明，并将采购文件可能变动的内容在协商须知前附表中明确。

二、相关标准：

详见功能及要求

三、技术规格：

详见功能及要求

四、交付时间和地点：

详见功能及要求

五、服务标准：

详见功能及要求

六、验收标准：

详见功能及要求

七、其他要求：

详见功能及要求

采购需求仅供参考，相关内容以采购文件为准。

长沙市公安局：数据工坊建模工具采购项目采购需求公开

项目进度跟踪

公告内容

4.1.1可视化数据分析、建模型需求

4.1.2协同计算需求

4.1.3统一资源访问引擎

4.1.4系统管理

4.1.5系统对接

4.1.6性能需求

4.1.7安全需求

4.2.1总体架构设计

4.2.2总体网络设计

4.3.1总体功能设计

4.3.2可视化建模

4.3.2.1种子工厂

4.3.2.2模型工厂

4.3.2.3固化算子开发

4.3.2.4算子库

4.3.2.4.1搜索

4.3.2.4.2算子基本属性

4.3.2.4.3数据输入/输出类

4.3.2.4.3.1文件输入

4.3.2.4.3.2数据库输入算子

4.3.2.4.3.3结果输出

4.3.2.4.3.4注册为种子算子

4.3.2.4.3.5创建表算子

4.3.2.4.3.6样例算子

4.3.2.4.4数据处理类

4.3.2.4.4.1数据过滤

4.3.2.4.4.2字段处理

4.3.2.4.4.3数据去重

4.3.2.4.4.4数据统计

4.3.2.4.4.5关键词提取

4.3.2.4.4.6数据排序（TOPN）

4.3.2.4.4.7字段聚合拼接

4.3.2.4.4.8列转行算子

4.3.2.4.4.9风险输出算子

4.3.2.4.5数据碰撞

4.3.2.4.5.1内连接

4.3.2.4.5.2左连接

4.3.2.4.5.3逻辑差

4.3.2.4.5.4逻辑并

4.3.2.4.5.5逻辑交统计

4.3.2.4.5.6关键词维表分析

4.3.2.4.6业务算子类

4.3.2.4.6.1号证合规

4.3.2.4.6.2透视表

4.3.2.4.6.3九宫格算子

4.3.2.4.6.4空间算子

4.3.2.4.6.5距离算子

4.3.2.4.7自定义类算子

4.3.2.4.7.1自定义sql算子

4.3.2.4.7.2积分配置

4.3.2.4.7.3MR算子

4.3.2.4.7.4函数算子

4.3.2.5种子库

4.3.2.6API库

4.3.2.7快捷功能

4.3.3协同计算

4.3.3.1技术形态

4.3.3.1.1数据协同

4.3.3.1.2模型协同

4.3.3.1.3API协同

4.3.3.2业务场景

4.3.3.2.1同网同构

4.3.3.2.2跨网同构

4.3.3.2.3同网异构

4.3.3.2.4跨网异构

4.3.3.3协同能力，开放共赢

4.3.3.3.1系统设计图

4.3.3.3.2注册/更新协同资源

4.3.3.3.3删除协同资源

4.3.3.3.4获取有权限访问的协同资源

4.3.3.3.5调用协同资源

4.3.3.3.6中断协同资源

4.3.3.3.7获取协同资源运行状态

4.3.3.3.8获取协同资源结果数据

4.3.4统一资源访问引擎

4.3.5系统管理

4.3.6系统对接

温馨提示：您当前是
免费会员，没有使用此功能权限！

非常抱歉，使用该功能需要高级会员以上权限！