书签 分享 收藏 举报 版权申诉 / 50
上传文档赚钱

类型XXX省税务大数据解决方案汇报课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4104951
  • 上传时间:2022-11-11
  • 格式:PPTX
  • 页数:50
  • 大小:2.78MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《XXX省税务大数据解决方案汇报课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    XXX 税务 数据 解决方案 汇报 课件
    资源描述:

    1、XX省税务大数据解决方案交流X X 省税务大数据解决方案交流目录*公司介绍 成熟大数据平台要素 XX大数据解决方案 XX大数据产品详解 方案实践目录*公司介绍目录*公司介绍 成熟大数据平台要素1.源于实践源于实践2.数据生态数据生态3.安全可控安全可控 XX大数据解决方案 XX大数据产品详解 方案实践目录*公司介绍数据数据生生态态存、通存、通、用、用数数据据上云上云 数据地图数据集中存储 数据管理大规模计算能力 资产计量统一元数据存存用用通通12数据资产化数据资产化 数据整合*3数据开放数据开放 前店后厂 Enable开发者 共享/交换/售卖机制 安全管控能力4数据生态数据生态 Enable业

    2、务创新 闭环 多物种 运营数据数据生态存、通、用数据上云 数据地图 数据集中存储 数据数据数据生生态态清清晰晰角角色色平台平台提供者平台运营者数据消费者数据提供者数据开发者应用开发者*数据生态清晰角色平台平台提供者平台运营者数据消费者数据提数据安全体系安全可安全可控控体系化体系化闭环闭环服务可靠性:99.9%数据可用性:99.99999999%数据开发可用不可见1、数据密级灵活定义2、机密信息自动脱敏3、生产环境与开发环境隔离数据运营多租户隔离1、无超级管理员设计2、多租户间数据隔离3、数据管理者与系统管理者分离数据交换严格授权交换1、基于角色、表、字段的精细化授 权2、非机密数据的共享交换授

    3、权3、机密数据在第三方仲裁下严格授 权4、数据血缘管理,防止二次交易*数据安全体系安全可控体系化闭环服务可靠性:9 9.9%数据目录*公司介绍 成熟大数据平台要素 XX大数据解决方案 XX大数据产品详解 方案实践目录*公司介绍XX大数大数据据平台架平台架构构业界主流的 数据库引擎业务业务业务 应用1应用2应用N数据交换 CDPMySql Sql Server Oracle DB2应用 SaaS服务 PaaS计算存储数据库ETL大数据分布式数多租户云 据库数据库DBaaS数据库服务 运维服务开发平台开发平台超大规模的离线计算超大规模的离线计算离线计算引擎 ODPS海量数据的实时计算海量数据的实时

    4、计算实时OLAP引擎 ADS流式计算引擎流式计算引擎流式计算引擎 OSPS咨询渠道分析办税渠道分析纳税人特征 分析风险控制数数据据服务服务开发套件算法平台数据地图结构化数据半结构化数据非结构化数据文 本 文 件 网 站 日 志 多媒体文件数据质量监控告警运维管理*X X 大数据平台架构业界主流的 数据库引擎业务业务业务XX大数据大数据的的系统能系统能力力基于ODPS的大数据开发,支持SQL、M/R等 编程框架,以及XLIB算法框架数据开发数据开发支持多种异构数据源的数据同步和整合,消除 数据孤岛数据集成数据集成可支持PB、EB级别的数据处理能力,存储规 模可线性扩展海量处理海量处理基于流式的数

    5、据同步和计算引擎,实现秒级、毫秒级的实时数据应用实时处理实时处理将数据封装成服务,可同时提供给离线和在 线系统使用,提供服务开发和运行框架开放服务开放服务基于统一的元数据服务来提供数据资源管理 视图数据管理数据管理数据服务能力计算&存储能力*X X 大数据的系统能力基于O D P S 的大数据开发,支持S Q L、M数据处理能数据处理能力力-超大规模的离线计超大规模的离线计算算WebSDKIDEConsoletunnelUMMCacheSLBWorker 1Worker 2Worker nScheduler.ExecutorExecutorExecutor.存储调度协作储存调度协作存储调度协作

    6、存储调度协作.Cluster1Cluster2Cluster3Cluster n客户端接入层调度 集群计算 集群开放数据处理服务ODPS (Open Data Processing Service)万亿级数据JOIN,百万级job并发,每天PB级I/O吞吐支持单集群10000+节点,同时具备跨集群(机房)数据共享能力*内置数据挖掘算法库,快速实现分布式并行计 算提供功能强大易用的SQL、MapReduce引擎,兼容大部分标准SQL语法数据处理能力-超大规模的离线计算We b S D K I D E C o n s o数据处理能数据处理能力力-千亿千亿级级规模实规模实时时OLAP分分析析负载均衡

    7、接入服务(MySQL/REST/)数据节点消息节点升级管理飞天安装部署日志管理资源管理 数据库管理数据管理 节点管理DBConsoleZookeeper账号 体系分析数据库服务ADS (Analytic Database Service)千亿级数据的毫秒级多维透视,毫秒级的多 个大表关联计算简单易用,通过SQL方式对数据进行多维分 析、数据透视及数据筛选支持多租户的使用场景,同时满足多用户协 同、数据共享、数据保密和安全需求支持ACL授权、policy授权、角色授权、跨 project app授权等多种权限管理方法,所有 操作记录审计日志*数据处理能力-千亿级规模实时O L A P 分析分析数

    8、据库服务A D S数据集成能数据集成能力力-跨平台的异构跨平台的异构数数据据整整合合ORACLEMysqlODPSCDPOthersSqlServerOSSOTSHBasePostgreSql半结构化 弹性伸缩 的传输通道四通达 的数据链路强劲迅速 的同步能力可靠健壮 的安全保障TXT*数据集成能力-跨平台的异构数据整合O R A C L E My s q l O D数据开发能数据开发能力力-集成数据开集成数据开发发环环境境数据开发工 作台数据分析工 作台数据挖掘工 作台OLAP工作台管理 工作台功能层功能层离线计算 ODPS实时计算 ADS流式计算 OSPS数据同步 CDP数据库 RDS/D

    9、BMSworkflow消息服务元数据服务权限服务调度服务业务无关,服务化、开放性服务层服务层执行层执行层*数据开发能力-集成数据开发环境数据开发工 作台数据分析工 作数据开发能数据开发能力力-集集成成的数据开发环的数据开发环境境提供Web IDE编程和调试环境,支持多种程序类型:ODPS SQL、PL、M/R、XLIB、数据同步、数据 脱敏、数据服务、状态检测等一键发布,快速将程序部署到生产调度系统。系统 可根据程序代码自动解析出任务节点间的依赖关系团队开发:代码版本管理,代码分类管理,多人协 同模式下的代码锁管理和冲突检测机制提供Eclipse 插件用于M/R和UDF编程,并且与 Web I

    10、DE 紧密集成提供ODPS表搜索、数据查询功能,用户可轻松touch 数据提供代码扫描规则引擎,支持用户编程实现各类扫 描规则*数据开发能力-集成的数据开发环境提供We b I D E 编程和调试数据开发能数据开发能力力-数据仓库建数据仓库建模模指指标标管管理系统理系统,对业务数据进行标准 化定义*物物 理理 模模 型型 设设 计计,类 似 PowerDesigner工具,用户可对ODPS表进 行可视化设计(同时也兼容DDL编辑模式)。设计稿与ODPS真实表可以 双向同步逻辑模型设计逻辑模型设计,支持数据流图、ER 图、字段mapping等功能数据开发能力-数据仓库建模指标管理系统,对业务数据

    11、进行标准 数据开发能数据开发能力力-百万级生产百万级生产作作业业调调度度执行引擎调度API平台DB调度引擎IDE部署服务客户端调度系统可支撑的job数量达到百万级执行框架采用分布式架构,并发作业数可线性扩展支持多种调度周期:分钟、小时、日、周、月、季 度、年。支持跨周期依赖支持节点空跑、暂停、一次性运行等特殊状态控制可视化展示调度任务DAG图,极大地方便用户对线 上任务进行运维管理支持任务运行状态监控告警,支持单任务重跑、多 任务重跑、kill、重置成功、暂停等操作支持线上冒烟测试支持补数据(串行执行多周期实例)*数据开发能力-百万级生产作业调度执行引擎调度A P I 平台D B 调数据管理能

    12、数据管理能力力-数据质数据质量量监控系监控系统统数据质量监控服务DQC(Data Quality Center)覆盖数据采集清洗监测、数据加工处理监测、数据 质量规则优化全过程,形成线上质量监控闭环预置30种以上的模板规则,覆盖波动率、一致性、离散值、业务逻辑、缺失值、约束检查等零延时的统计数据采集模块(数据落地,校验即完 成)、多级容错、缓存,系统更加稳健支持标准SQL形式的自定义规则,任意复杂度,可 任意扩展;智能阈值算法,给用户合理的建议阈值数据质量管理流程源数据源数据OEA D MCDDDL 数据加W工流水M线洗洗持续改进持续改进1 源表清源表清2 数据质量监控数据质量监控3在线处理监

    13、控报警在线处理监控报警54 监控效果分析监控效果分析优化清洗规则优化 监控规则线上质量监控闭环线上质量监控闭环*数据管理能力-数据质量监控系统数据质量监控服务D Q C 预置3 0数据管理能数据管理能力力-任务监控告任务监控告警警系系统统任务监控告警智能预测算法,提前预警,防患于未然。根据 余量和当前时间(是否工作时段)选择报警时机)智能告警系统,零人工干预,精准告警推送。可配置多种告警方式,电话、短信、邮件、IM可设置告警策略,包括告警时段、间隔、持续 时间支持标准SQL形式的自定义规则,任意复杂 度,可任意扩展;智能阈值算法,给用户合理 的建议阈值强保障模式弱保障模式任务A任务B任务C任务

    14、出错时 通知责任人任务B任务C1任务C2任务D1任务D2任务AAM 6:00前必须完成AM 5:00前必须完成智能预测 精准通知 持续告警 告警升级*数据管理能力-任务监控告警系统任务监控告警智能预测算法,提前TAE开放服务能开放服务能力力架构架构组件化、服务化设计理念,分为三层:核心层:称为BASE CORE,包含BASE的基础模块API层:BASE的基础模块提供服务 化API,以支撑客制化开发和对接 第三方系统插件层:UI和业务流程相关的功 能,可插拔,根据业务场景定制IaaS设备数据同步插件 UI插件代码管理插件Web APP开发&发布安全中间件发布中间件DMDCBI引擎接入开放平台租户

    15、管理数据开发应用开发安全产品计量计费数据管理安全控制运维管理RDSODPSADS数据总线消息&事件中心 服务化框架API核心层计算服务层云资源OTS*插件层TAET A E 开放服务能力架构组件化、服务化设计理念,分为三层:统一运维中心统一运维中心用户账户 体系成员管理员账户普通账户平台运营者项目所有者项目管理资源管理监控指定项目所有者被指定为项目所有者数据开发者 数据提供者数据授权数据交换加入项目的 普通账户加入项目开发人员被加入项目数据开发者数据开发*统一运维中心用户账户 体系成员管理员账户普通账户平台运目录*公司介绍 成熟大数据平台要素 XX大数据解决方案 XX大数据产品详解 方案实践目

    16、录*公司介绍数据处理能数据处理能力力-超大规模的离线计超大规模的离线计算算开放数据处理服务ODPS (Open Data Processing Service)万亿级数据JOIN,百万级job并发,每天PB级I/O吞吐支持单集群10000+节点,同时具备跨集群(机房)数据共享能力内置数据挖掘算法库,快速实现分布式并行计 算提供功能强大易用的SQL、MapReduce引擎,兼容大部分标准SQL语法Pangu:分布式文件系统DataTransferSQL QueryMapReduce结构化数据非结构化数 据流式数据数据 接口RDS/DRDSODPSOTS:大表数据查询数据接入:DataX/Time

    17、TunnelAPISQLAPISQL批量数据处理批量数据处理*自助式数据分析自助式数据分析海量数据实时查询海量数据实时查询流式数据实时处理流式数据实时处理非结构化数据分析非结构化数据分析数据处理能力-超大规模的离线计算开放数据处理服务O D P S ODPS的优势的优势*海量数据的存储存储只有大量的数据是不够的,还要将数据集中起 来才能更好的发挥作用海量数据的计算计算通过SQL,MR,Graph等方式,可以在一个任务 中轻松处理TB级别的数据,并且有专门的分布式 矩阵运算、数据挖掘算法流式处理引擎及实时数据分析多组织间的数据交换交换不仅能满足一个组织内部的数据管控,也能用 于多个组织间的数据隔

    18、离和交换开箱即用的服务服务用户不用关注基础设施管理而是关注自己业务 内容,ODPS本身提供各服务的一致性与连续性 O D P S 的优势*海量数据的存储海量数据的计算多组织间的ODPS核心抽象核心抽象*User/Role,用于管理用户对Project内实体的访问控制和授权Project 类似DataBase/Schema,用户隔离和访问控制的主要边界 Table/Partition,结构化数据 Volume,非结构化数据 UDF/Resource,文件,jar包,py脚本 Job/Instance,抽象可执行实体和运行实例 Tunnel upload/download会话 Event,表删除/

    19、修改等事件O D P S 核心抽象*U s e r/R o l e,用于管理用户对P r o j用户与权限用户与权限*添加用户 ADD USER ;罗列用户 LIST USERS;删除用户remove user ;用户与权限*添加用户 罗列用户 删除用户用户与权限用户与权限*授权命令示例:grant CreateTable on PROJECT$user_project_name to U S E R ;-向授予名为“$user_project_name”的project的 CreateTable(创建表)权限 grant Describe on Table$user_table_name t

    20、o USER ;-向授予名为“$user_table_name”的Table的Describe(获 取表信息)权限 grant Execute on Function$user_function_name to USER ;-向授予名为$user_function_name的Function的Execute(执行)权限用户与权限*授权命令示例:用户与权限用户与权限*创建角色 create role player;将角色授权给用户 grant player to ;收回用户的角色 revoke player from ;删除角色 drop role player;用户与权限*创建角色 将角色授权

    21、给用户 收回用户的角色 删ODPS SQL*语法兼容Hive,内置函数实现语义更多跟传统关系数据库兼容,对传统关系数据库使用者 更友好执行效率更高 采用C+高效实现 采用代码生成(code gen)的实现方式,比impala早近2年 基于飞天的DAG(有向无环图)编程模型,比MapReduce模型省IO,比Tez早4年 列式存储,压缩效果好,对选取部分列的SQL查询,更省IO 准实时SQL引擎,使用内存和网络加速,中间数据不写磁盘在阿里巴巴内部已经生产稳定使用了4年多,经过了大规模生产检验O D P S S Q L*语法兼容H i v e,内置函数实现语义更多跟传操作数据表操作数据表*创建表

    22、create table test1(key string);-创建非分区表 create table test2(key bigint)partitioned by(pt string,ds string);-创建分区表 create table test3(key boolean)partitioned by(pt string,ds string)lifecycle 100;-创建带有生命周期的表 create table test4 like test3;-除生命周期属性外,test3的其他属性(字段类型,分区类型等)均与test4完全一致 create table test5 as

    23、select*from test2;-这个操作会创建test5,但分区,生命周期信息不会被拷贝到目标表中。-此操作仅会将test2的数据复制到test5中 获取表信息 desc test3;删除表 drop table test2;操作数据表*创建表操作数据操作数据*SELECT语句SELECT ORDER_DATE,SUM(TOTAL_AMT)FROM EDW_ORDER GROUP BY ORDER_DATE;支持WHERE、ALL 和 DISTINCT 语句、GROUP BY、ORDER BY、DISTRIBUTE BY、SORT BY、LIMIT、子查询、JOIN、MAPJOIN把SQ

    24、L的结果存入另一张目标表中INSERT OVERWRITE TABLE tbl_name SELECT.INSERT OVERWRITE会覆盖目标表中的数据 INSERT INTO 会在原有数据基础上追加不支持UPDATE,DELETE操作操作数据*S E L E C T 语句操作数据操作数据*ODPS中的View是Virtual View,只保存定义,而不保存数据(没有Materialize)View可以作为单独授权的单位 创建ViewCREATE VIEW EDW_ORDER_V AS SELECT AUCTION_ID,TOTAL_AMT FROM EDW_ORDERWHERE AUCT

    25、ION_ID LIKE T%;可以把此View单独授权给某个用户,虽然他不可以直接访问EDW_ORDER,但是可以 访问EDW_ORDER_V。操作数据*O D P S 中的V i e w 是V i r t u a l V i e w,只操作数据操作数据*ODPS SQL中支持常见的窗口函数avg/count/max/min/median/stddev/lag/lead.支持滑动窗口一个SELECT语句中可以使用最多5个窗口函数Select user_id,avg(amt)over(partition by group_id)from xxx操作数据*O D P S S Q L 中支持常见的窗

    26、口函数 MapReduceMapReduce最早是由Google提出的分布式数据处理模型,随后受到了业内的广泛关注,并被大量应 用到各种商业场景中*Ma p R e d u c eMa p R e d u c e 最早是由G o o g l MR编程接口编程接口*主要接口描述MapperBase处理输入表的记录对象,加工处理成键值对集合输出到Reduce阶段,或者不经 过 Reduce阶段直接输出结果记录到结果表。ReducerBase对与一个键(Key)关联的一组数值集(Values)进行归约计算。TaskContext是MapperBase及ReducerBase多个成员函数的输入参数之一

    27、,含有任务运行 的上下文信息。JobClient用于提交和管理作业,提交方式包括阻塞(同步)方式及非阻塞(异步)方式。RunningJob作业运行时对象,用于跟踪运行中的MapReduce作业实例。JobConf描述一个MapReduce任务的配置,通过JobClient提交作业给ODPS服务。MR 编程接口*主要接口描述Ma p p e r B a s e 处理输入ODPS MR vs Hadoop MR*O D P S MR v s H a d o o p MR*操作资源操作资源*资源(Resource)是ODPS的特有概念。ODPS SQL UDF:用户在编写UDF后,需要将编译好的ja

    28、r包上传到ODPS。运行这个UDF时,ODPS会自动 下载这个jar包,获取用户代码,运行UDF,无需用户干预。上传jar包的过程就是在ODPS上创建资源的过 程,这个jar是ODPS资源的一种。ODPS MapReduce:用户编写MapReduce程序后,将编译好的jar包上作为一种资源传到ODPS。运行MapReduce作业时,MapReduce框架会自动下载这个jar资源,获取用户代码。用户同样可以将文本文件,ODPS表以及.zip/.tgz/.tar.gz/.tar/jar等压缩包作为不同类型的资源上传到ODPS。用户可以在UDF及MapReduce的运行过程中读取、使用这些资源。O

    29、DPS提供了读取、使用资源 的接口。ODPS资源的类型包括:File类型Archive类型:通过资源名称中的后缀识别压缩类型,支持的压缩文件类型包括:.zip/.tgz/.tar.gz/.tar/jarTable类型:ODPS中的表Jar类型:编译好的Java Jar包Py类型:Python脚本,供Python UDF使用操作资源*资源(R e s o u r c e)是O D P S 的特有概念。安全体系安全体系*支持多租多租户户的使用场景,同时满足多用户协同、数据共享、数据保密和安全的需要。用户访问需要认证,用户操作需要鉴权,所有操作记录审计日志。支持ACL授权、policy授权、角色授权

    30、、跨project授权多种权限管理方法,满足多种场景的需求。同时提供DAC和MAC的安全管理方案,满足对于部分敏感数据的管理需求,可以提供精确到列列级级别别的数据管理。对于安全等级较高的数据,提供项目保护模式,防止数据泄露。所有计算在受限的沙箱中运行,多层次的应用沙箱、系统沙箱配合请求鉴权管理机制,保证数据 的安全。安全体系*支持多租户的使用场景,同时满足多用户协同、数据共享数数据分析的两条线据分析的两条线数据挖掘多维分析通过深度学习、神经网络、规则 归纳等技术,用来发现数据之间 的关系,挖掘数据的价值通过从多角度(纬度)对数据进 行快速、交互地存取及比较,从 而获得对数据更深入了解目前OLA

    31、P产品主要是满足在多维环境下特定的查询和报表需求,因此OLAP常被理解为多维分析*数据分析的两条线数据挖掘多维分析通过深度学习、神经网络、规则ADS的技术架构的技术架构数据存储模型上,采用关系模型存储(类似于ROLAP),可以使用SQL进行自由 灵活的计算分析,无需预先建模。ADS是一套RT-OLAP(Realtime OLAP)架构,核心在于以下两点:数据处理方式上,是采用了搜索分布式计算技术(MPP架构),使得在处理百 亿条甚至更多量级的条件下达到甚至超越MOLAP类系统的性能*A D S 的技术架构数据存储模型上,采用关系模型存储(类似于R OADS产品定产品定位位应用应用场景场景ADS

    32、ODPSRDSRDS是OLTP数据库,主要用于承接业务中的事务处理(增删 改查等),处理的数据量通常不高ODPS适用于有极大的数据量(PB级,万亿条)或复杂的算法 模型计算,在不要求实时性的前提下进行离线计算,通常不直 接对接业务系统ADS是在接近RDS的处理速度(毫秒级)下能够处理较海量(100亿条,最大数十TB级别)的数据的,也可以直接对接分 析型的业务系统,但是不支持事务。*A D S 产品定位应用场景R D S 是O L T P 数据库,主要用于承接ADS功能总功能总括括1*极速的计算能力 支持千亿级数据、TB级单表的查询计算 支持千万级数据秒级导出 单表10w tps 数据插入能力,

    33、数据插入1分钟后可见自由的查询能力 支持标准SQL语法(createdrop database、createalterdropdesc table、select、dump)支持任意字段进行组合查询 支持equal、in、range、and、or等条件查询 支持大表Join、子查询、多列值、Union、Intersect、Contains 支持常规的统计分析函数(count、sum、avg、max、min、segment、sampling 等)支持LBI相关函数(矩形、圆形、距离计算等)支持distinct级系统UDFA D S 功能总括1*极速的计算能力ADS功能总功能总括括2*智能的CBO

    34、支持join表顺序自动选择、编码列groupby优化、count优化、索引选择、数据延迟 加载、数据预排序等优化策略 支持hint()动态调整智能全索引 数据底层高效索引实现,最大限度提高查询性能 全字段自动建立合适的索引类型(join索引除外)支持内存换入换出,不严格依赖内存大小丰富的数据类型 Boolean、byte、short、int、float、double、date、time、timestamp、varchar、multivalueA D S 功能总括2*智能的C B OADS功能总功能总括括3*多粒度的安全模型 支持DB、Table、Columm级别的授权方便的外部接口 内置支持O

    35、DPS数据元导入导出 通过CDP支持RDS、OSS数据元导入 支持MySQL 5.X协议进行数据查询及更新完善的运营管理工具 图形化控制台管理数据库 细粒度系统监控(访问量、QPS、RT、缓存命中率、零结果、慢查询、超时等)Debugset图形化explain分析anaylze等SQL调试及优化命令 完善的SYSDB系统元数据管理及运维命令A D S 功能总括3*多粒度的安全模型ADS实战实战DDL*1、创建数据库:create database d a t a b a s e _ n a m e;2、删除数据库:drop database d a t a b a s e _ n a m e;

    36、3、查看全部有权限的数据库列表:show databases d a t a b a s e _ n a m e;4、查看和管理每个数据库的访问信息(域名、端口等信息)5、创建表组:create tablegroup_nameoptions(minRedundancy=2executeTimeout=3000);6、修改表组属性:alter tablegroup t a b l e g r o u p _ n a m e k e y=v a l u e;7、删除表组:drop tablegroup t a b l e g r o u p _ n a m e;8、创建表:create dimen

    37、siontable d a t a b a s e _ n a m e;9、增加列:alter table table_nameadd column c o l _ n e w v a r c h a r;10、增加索引:alter table tbl_nameadd index i n d e x _ n a m e i n d e x _ t y pe (i n d e x _ c o l _ n a me);A D S 实战D D L*1、创建数据库:c r e a t e d a t a b*ADS实战实战DDL*A D S 实战D D LADS实战实战DML*1、查询数据:selec

    38、t2、插入数据:insert3、删除数据:deleteA D S 实战D ML*1、查询数据:s e l e c tADS实战实战DML*A D S 实战D ML*ADS实战数据导入实战数据导入导出导出*1、导入数据:load data2、查询数据导入状态:select state from information_schema.job_instances where job_id like 3、数据导出:dump dataA D S 实战数据导入导出*1、导入数据:l o a d d a t a总结:总结:面面向向数数据运据运营营的的XX大数据系统大数据系统编程框架,以及XLIB算法框架数据

    39、开发数据开发数据孤岛数据集成数据集成可支持PB、EB级别的数据处理能力,存储规 模可线性扩展海量处理海量处理基于流式的数据同步和计算引擎,实现秒级、毫秒级的实时数据应用实时处理实时处理将数据封装成服务,可同时提供给离线和在 线系统使用。BASE提供服务开发和运行框架基于统一的元数据服务来提供数据资源管理视图数据管理数据管理数据 PaaS 能力1、源自大规模运营实践开放服务开放服务支持多种异构数2据、源的数完据同整步和的整合,数消除据运营生态基于体ODP系S的大数据开发,支持SQL、M/R等计算&存储 DaaS 能力3、业界领先的数据安全可控*总结:面向数据运营的X X 大数据系统编程框架,以及X L I B 算法杭州XX工场科技有限公司谢谢

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:XXX省税务大数据解决方案汇报课件.pptx
    链接地址:https://www.163wenku.com/p-4104951.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库