🇨🇳
Site
  • 壹棵开花的树
  • 操作系统
    • Linux From Scratch
    • Linux
      • Linux内核
      • Untitled
      • Untitled
    • Winodws
      • 全家桶
  • 系统集成
    • Untitled
    • 系统集成
    • 机房建设
      • 服务器
      • Untitled
    • 弱电系统
    • 网络
      • 路由器
      • 交换机
      • 无线网络
      • 网络安全
      • TCP/IP
        • 1. 物理层
        • 2. 数据链路层
        • 3. 网络层
        • 4. 传输层
        • 5. 会话层
        • 6. 表示层
        • 7. 应用层
    • 数据中心
    • 信息安全
  • 网络
    • Untitled
    • Untitled
    • 协议
      • Untitled
      • Untitled
      • HTTP
  • DataBase
    • 关系型数据库
      • Access
      • MariaDB
      • MySQL
        • 数据库存储引擎
        • Untitled
        • MySQL Replication
        • 高可用架构
        • 数据库中间件
          • MyCAT
      • Oracle
      • PostgreSQL
      • SQL Server
    • NoSQL
      • Untitled
      • Untitled
      • Untitled
      • tu
      • lie
      • wendang
        • MongoDB
      • kv
        • Redis
    • 云数据库
  • 安全
    • Untitled
  • 消息队列
    • Untitled
    • ActiveMQ
      • Untitled
    • RabbitMQ
      • Untitled
    • RocketMQ
      • Untitled
    • Kafka
      • Untitled
  • 大数据
    • Untitled
      • 大数据概述
    • Hadoop 生态系统
      • Hadoop
        • HDFS常用Shell命令和基础开发
        • Untitled
        • Untitled
        • MapReduce
        • Yarn
        • Hadoop的优化与发展
      • ZooKeeper
        • Untitled
        • Untitled
        • Untitled
      • Hbase
        • HBase常用Shell命令和基础开发
      • Sqoop
      • Flume
      • Pig
      • Hive
      • Impala
      • Storm(流计算)
      • Pregel(图计算)
      • Loader
      • Flume
    • Spark生态系统
      • Untitled
    • Flink
    • BI
  • 云计算
    • 云计算
      • 技术栈
      • OpenStack
    • 虚拟化
      • 服务器虚拟化
        • Untitled
        • Proxmox VE
        • VMware
        • KVM
        • Hyper-V
        • H3C CAS
        • FusionCloud
        • FusionSphere
          • 安装
  • Cloud Native
    • DevOps
      • 版本控制
      • Untitled
      • Untitled
      • Untitled
      • CI/CD
        • Jenkins
    • Untitled
    • Microservices
      • Dubbo
      • Spring Cloud
        • 最佳实践
        • Untitled
    • Service Mesh
      • Istio
    • 容器
      • Untitled
      • Docker
        • Docker
        • Untitled
    • Kubernetes
  • 网站架构
    • Untitled
    • 集群
      • 负载均衡
      • HA
    • 关于
    • 一次完整的HTTP请求过程
    • 全文搜索引擎
      • Lucene
      • Solr
      • ElasticSearch
        • 安装配置
      • Untitled
    • HTTP Cache
    • 大型网站架构
    • 网站服务器
      • WEB服务器
        • Nginx
        • Apache
        • nginx
        • IIS
      • 应用服务器
        • Weblogic
        • Tomcat
        • Jboss
  • BlockChain
    • Untitled
  • 编程语言
    • 前端
    • Python
      • Tornado
      • Django
        • 最佳实践
        • Untitled
        • manage.py
    • Go
    • Java
      • Untitled
      • 关于Java
  • Test
    • 0. 测试
      • 软件测试
      • 测试分类
      • 测试模型
    • 1. 性能测试
      • 基础
    • 2. 接口测试
      • Untitled
      • 接口测试
      • Postman
    • 3. 自动化测试
      • Python测试驱动开发
      • Python测试框架
        • Unitest
          • 最佳实践
    • 4. 测试工具
      • Selenium
      • LoadRunner
      • JMeter
    • 5. 最佳实践
  • 开发与运维
    • 软件开发模式
    • 敏捷开发
  • 存储
    • Untitled
    • 分布式存储
      • Ceph
      • MinIO
      • FusionStorage
  • 关于
    • 认证
    • 知识管理
      • Hugo
      • Gitbook
    • 企业组织架构
    • 文本格式
      • JSON
      • YAML
      • XML
    • API
由 GitBook 提供支持
在本页
  • 大数据概述
  • 大数据产生的背景:
  • 大数据的前世今生:
  • 大数据定义:
  • 数据类型:
  • 大数据的价值:
  • 大数据的特征(4V):
  • 大数据带来的挑战:
  • 大数据与云计算之间的关系:
  • 如何面对大数据:
  • 电信大数据应用
  • 大数据带给电信行业的机会与挑战:
  • 电信行业大数据典型商业需求:
  • 电信大数据三大场景应用场景:
  • 中国电信兴业大数据应用方向:

这有帮助吗?

  1. 大数据
  2. Untitled

大数据概述

大数据概述

大数据产生的背景:

基于海量的存储与处理面临挑战:

  1. 数据量大,数据种类多。

  2. 海量数据的高存储成本,大数据两下数据处理性能不足,流式数据处理缺失。

  3. 优先的扩展能力,单一数据源。

  4. 数据资产对外增值。

行业技术标准的日益形成:

  1. 数据处理技术分布式演进趋势:Hadoop成为开放的事实标准。

  2. 各种技术特点:

    1. SMP:单机、Scale UP。性能存在瓶颈,扩展性差。

    2. SMP+MPP混合:集群、Share Everything。结构化、关系型。Flash cache+分布式块存储+IB。

    3. MPP:集群、Share Nothing,结构化,关系型,通用的硬件。

    4. Hadoop:集群,Share Nothing,开放、全球生态、结构化、半结构化、非结构化,高性能,实施。

大数据的前世今生:

  1. 大数据的提出:

    1996年,SGI首次提出大数据。

  2. 描述大数据:

    2001年,Gartner在评论中首先定义大数据的三个维度:数据容量、速度和种类。

  3. 大数据的实现:

    业界把3V扩展到了11V,但主要包括Volume、Velocity、Variety、Value等。

大数据定义:

大数据:指无法在可承受的时间内用软硬件进行捕捉、管理和处理的数据集合,需要新处理模式才能使数据集合称为具有更强的决策力、洞察力和流程优化等能力的海量、多样化的信息资产。

数据类型:

  1. 结构化数据:

    是指可以存储在数据库里,可以用二维表结果来逻辑表达实现的数据。

  2. 非结构化数据:

    不方便用二维表结果来逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频信息等等。

  3. 半结构化数据:

    介于结构化数据和非结构化数据之间的数据。HTML文档就属于半结构数据。

分析当代的数据集合,由25%的结构化数据和75%的非结构化和半结构数据构成。

大数据的价值:

  • 在卫星测绘领域:

    大数据具备海量数据存储服务能力,每天能存储1TB的数据,整个系统可以存储PB级别的数据。

  • 在金融领域:

    大数据可以帮助金融机构盘活客户少量数据资产,深挖存量数据价值。

  • 在能源勘测领域:

    大数据工具能有效降低能源公司的勘测成本,通过大数据分析,每口油井的勘探成本从800万美金降到300万美金。

  • 在媒体娱乐领域:也有很多重要应用。

  • 对应企业:在竞争能力、决策及时、成本控制有广泛的应用前景。

  • 对于事业组织:在科学探索、知识服务、社会安全领域有强烈需求。

大数据的特征(4V):

  1. 量大(Volume):存储大,计算量大;

  2. 样多(Variety):来源多,格式多;

  3. 快速(Velocity): 生成速度快,处理速度要求快。

  4. 价值(Value):价值密度低,和数据总量的大小成反比。

大数据带来的挑战:

  1. 传统网络架构不适用大数据时代。

    从垂直访问到水平访问。

    传统网络架构对南北向的网络流量需求支持良好,但不适应大数据映月宫对东西流量的需求。为了满足对东西流量的传输需求,要对传统网络架构进行重构。

  2. 数据中心将面临巨大挑战。

    同时访问子系统压力大。

    传统数据中心,计算、存储等各个子系统相对独立。用于大数据处理的数据中心,需要更高的资源利用率、自动化,需要使用虚拟化、云计算等技术对这些子系统进行整合和拉通。在重构过程中,增加了技术上的复杂性,给规划、建设、运维带来的压力和新的挑战。

  3. 数据仓库架构不适用高速反应的要求。

    非结构化数据无法处理。

    传统数据仓库对各类结构化关系型数据库支持良好,但不适应非结构化数据和半结构数据在数据处理上的需求。无法高效、迅速处理非结构化和半结构化的数据。同时,在存储非结构和半结构化数据的原始数据上,数据仓库也面临挑战。

大数据与云计算之间的关系:

  • 大数据是需求,云计算是解决之道。

  • 云计算是平台,大数据是应用。

云计算之于大数据,云计算是底层平台,大数据是应用。云计算作为底层平台整合计算、存储和网络等资源,同时提供基础脚骨资源弹性伸缩的能力。大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。

如何面对大数据:

从传统的被动应对业务,到主动挖掘价值。

新的需求:管理方法,技术工具,基础架构,思维方式等。

电信大数据应用

大数据带给电信行业的机会与挑战:

  1. 挑战一:

    电信行业生态圈的信息产业遇到了革命性的变化,运营商相关业务的发展更加依赖数据,如传统的语音、窄带、宽带数据以及超宽带,数据经济等相关业务的数据量越来越大。

  2. 挑战二:

    是OTT、虚拟运行商的介入,使得运行商竞争环境更加的复杂和激烈。

  3. 挑战三:

    是客户消费模式的改变,需要大数据分析深入洞察用户的需求,进行定制化的服务,改善客户体验。

  4. 挑战四:

    是提升精细化的管理水平,以数据为中心的运营支撑一体化,精细化成为必然趋势,而数据将成为企业的核心资产。

电信行业大数据典型商业需求:

大数据的总体目标是构建同一的数据采集与整合能力,大数据分析处理能力,计算及数据服务能力,大数据应用能力,和互联网化的数据开放能力,支撑业务创新与商业成功。

  1. 延长用户生命周期

    大数据建模支撑用户生命周期的营销和维系。

  2. 提升业务网使用量

    基于大数的营销体系有效运作,支撑多批次,小群体,高成功率,多用户触点的营销。

  3. 对外价值变现

    时间对外合作,MR数据轨迹形成商业价值,用户行为轨迹形成商业价值。

电信大数据三大场景应用场景:

  1. 场景一:潜在离网用户维挽场景。

    通过大数据的应用管理,对潜在的离网用户进行数据分析。通过大数据实现用户管理,营销策划,营销实施和闭环反馈的拉通。当海量的大数来临后,用大数平台对所有用户进行分类、识别和管理,如常见的后付费、预付费。用户识别之后,根据用户的大数据分析结构触发营销策略。比如,用户的余额不足,签约到期,体验不好投诉或者用户流量溢出时,对其进行分析。对用户在内部进行聚到选择,匹配响应的资源套餐。通过用户的选择进行效果的反馈,

  2. 场景二:综合网管分析平台-基站关联分析场景。

    根据离网用户的位置轨迹,用户的业务行为,基站地图以及基站网络质量KPI获得数据源。然后进行大数据的建模分析,判断离网用户是否与其常出没的基站存在管联,进而输出质差的基站列表,基站供需平衡度。经常出没已识别质差以及基站的未离网用户列表,最后,确定客服务的商用场景。如预付费,后付费维挽场景,网络优化以4G基站选址等。

  3. 场景三:数据变现场景:户外数字媒体/非数字媒体价值评估场景。

    例如:先阶段户外媒体行业缺乏受众测量的方法。行业交易混乱,如何去进行户外广告的价值评估?

    可以通过大数据平台去分析人流量,车流量、覆盖率等相关信息,根据所得的信息来进行统一的管理,获得相应的需求描述。得到目标人群的属性,MR,工参,用户行为,RNC信令,地图等相关数据,同时结合户外的LED广告屏,公交站的广告牌,进而整合所有的数据,得出最终的广告资源价值评估,广告投放效果监测。广告投放时段和内容规划以及精准的营销策划。

中国电信兴业大数据应用方向:

数字与数字化服务业务。

支撑自由业务提升,支撑非通信价值变现。进而实运行时的业务数字化。

上一页Untitled下一页Hadoop 生态系统

最后更新于5年前

这有帮助吗?