-
数据大佬教你简单容易的绘制Excel中的箱线图
所属栏目:[大数据] 日期:2021-06-05 热度:67
箱形图的适用场景 箱形图适用于展示顺序数据,通过它我们可以观察出顺序数据的集中趋势和离散程度。 箱形图是由5个统计量组合而成的图形,它们分别是:最大值、最小值、中位数、上四分位数和下四分位数。下面,我们用箱形图来展示如下各学生的学生成绩数据:[详细]
-
AutoML 2.0:数据科学家out了吗?
所属栏目:[大数据] 日期:2021-06-05 热度:61
AutoML 2.0必将令数据科学更加自动化 第一代AutoML平台的重点主要放在自动化数据科学过程中的机器学习部分。但在传统的数据科学工作流程里,最冗长和最具挑战性的部分则是被称之为是要素工程的部分,要素工程是高度手动的一步,主要涉及到连接数据源及构建宽[详细]
-
一场HBase2.x的写入性能优化过程
所属栏目:[大数据] 日期:2021-06-05 热度:105
正常写入性能结果 接着我们开始测试正常的单行Put(设置autoflush=true)延迟了。我们在100亿行数据集规模的基础上,用YCSB持续写入数据到HBase集群,将YCSB的性能数据制作成如下监控图: 首先,我们可以看到5个节点的总QPS在10w/s左右,单机QPS在2w+/s左右,a[详细]
-
Flink为什么比Spark快?大数据流处理的框架差异
所属栏目:[大数据] 日期:2021-06-05 热度:195
Spark和Flink计算引擎,在处理大规模数据上,数据模型和处理模型有很大的差别。 Spark的数据模型是弹性分布式数据集RDD(Resilient Distributed Datasets)。RDD可以实现为分布式共享内存或者完全虚拟化(即有的中间结果RDD当下游处理完全在本地时可以直接优化[详细]
-
大数据可视化技术面临的挑战及应对方法
所属栏目:[大数据] 日期:2021-06-05 热度:169
大数据可视化内涵 数据可视化就是将抽象的数据以可见的形式表现出来,帮助人理解数据。大数据可视化相对传统的数据可视化,处理的数据对象有了本质不同,在已有的小规模或适度规模的结构化数据基础上,大数据可视化需要有效处理大规模、多类型、快速更新类型[详细]
-
用Python画中国地图,达成各省份数据可视化
所属栏目:[大数据] 日期:2021-06-05 热度:147
第一步:安装pyecharts pyecharts是一款将python与echarts结合的强大的数据可视化工具,本文使用了0.1.9.4版本 pip install pyecharts==0.1.9.4 第二步:读取数据 我的数据是在Excel表格里,如下图: 用Python画中国地图,实现各省份数据可视化 Execel数据[详细]
-
大数据在企业中的4个重点竞争优势
所属栏目:[大数据] 日期:2021-06-05 热度:123
这就是使用这些数据的公司对于大数据需求如此之高的原因。控制企业拥有的数据不仅可以提高其内部信息可访问性,而且还可以提供一系列好处,这些好处可能是在其市场中获得竞争优势的驱动力。 但是大数据到底提供什么帮助呢? 以下将探讨大数据可以为企业业务提[详细]
-
一篇文章说明白如何提升大数据质量
所属栏目:[大数据] 日期:2021-06-05 热度:164
正如大家所知,大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而提高数据质量是为了巩固大数据建设成果,解决大数据建设成果不能满足业务要求的问题。并且,数据质量问题不仅仅是一个技术问题,它也可能出现在业[详细]
-
数据科学技能测试:快来看看你能全过吗?
所属栏目:[大数据] 日期:2021-06-05 热度:164
1. 如何区分机器学习、人工智能和数据科学?(主题:通识) 人工智能这一术语涵盖范围广泛,主要涉及机器人学和文本分析等应用,并服务于商业和技术领域。机器学习隶属于人工智能,但其涉及领域较狭窄,且只用于技术领域。数据科学并不完全隶属于机器学习,而是[详细]
-
大学里的大数据专业,一般都教什么?
所属栏目:[大数据] 日期:2021-06-05 热度:166
目前,国内许多高校都开设了大数据相关专业,甚至某些高校的经管学院、统计学院、会计学院也纷纷开设大数据专业,大数据与行业的融合日益密切,培养跨行业的大数据应用型人才迫在眉睫。对于本科、高职院校来说,人才培养的侧重点应当是不同的。 对于高职院校[详细]
-
这么多道数据科学技能测试题,你能做完几题?
所属栏目:[大数据] 日期:2021-06-05 热度:85
1.如何区分机器学习、人工智能和数据科学?(主题:通识) 人工智能这一术语涵盖范围广泛,主要涉及机器人学和文本分析等应用,并服务于商业和技术领域。机器学习隶属于人工智能,但其涉及领域较狭窄,且只用于技术领域。数据科学并不完全隶属于机器学习,而是[详细]
-
进阶需要!写给设计师的数据分析基础指南
所属栏目:[大数据] 日期:2021-06-05 热度:151
记得大学有一门课程叫《数据统计与分析》,难倒很多理科生。没想到毕业后,工作、生活处处都要用到,比如: 一个页面展现 100 次,页面中一个按钮展现 50 次,点击 10 次,这个按钮的转化率是 10% 还是 20% 呢? A 股票一股 100 元先跌了 5%,又涨了 5%,还是[详细]
-
Hive任务执行很慢,但是导入数据十分的快?
所属栏目:[大数据] 日期:2021-06-05 热度:67
读时模式和写时模式 Hive使用Hadoop来执行查询,其查询执行速度是很慢的,但是使用load data向Hive中导入数据却非常快,这是因为Hive采取的是读时模式(Schema On Read)。 读时模式:读取数据的时候,对数据的类型、格式做检查; 写时模式:写入数据的时候,对[详细]
-
于工业互联网的智慧物流建设研究
所属栏目:[大数据] 日期:2021-06-05 热度:60
随着中国人口红利的慢慢减退,依赖人力的物流行业,也正努力从劳动密集型向技术密集型转变,大数据和工业互联网技术的应用已经把物流业从肩扛手提的传统模式,带入了科技驱动的新物流时代。传统的物流管理模式正发生革命性的变革,它不再局限于库存水平的确[详细]
-
由浅到深研究Kafka:生产者消息分区机制原理
所属栏目:[大数据] 日期:2021-06-05 热度:158
在使用Apache Kafka生产和消费消息的时候,肯定是希望能够将数据均匀地分配到所有服务器上。 比如很多公司使用Kafka收集应用服务器的日志数据,这种数据都是很多的,特别是对于那种大批量机器组成的集群环境,每分钟产生的日志量都能以GB数,因此如何将这么[详细]
-
“大数据”该具有大信用
所属栏目:[大数据] 日期:2021-06-05 热度:75
如此轻描淡写的解释自然不能服众。实际上,自杀熟现象前些年被曝光以来,这种看人下菜碟,越熟越坑你的做法始终屡禁不止,有调查显示,超过半数网友被杀熟。 如今,在移动互联网时代,无论是购物、饮食,还是旅游、住宿,人们的日常生活已经离不开五花八门的[详细]
-
Python数据分析实战,容易快速制作餐饮行业商业化报告
所属栏目:[大数据] 日期:2021-06-05 热度:84
商家评价数据源的获取 首先我们要找到合适的商家评价,在本文以大众点评的数据为例,我随机选择一家餐厅的评价数据作为数据源。 Python数据分析实战,简单快速制作餐饮行业商业化报告 因为隐私的关系,我隐去了商家具体的店名和地址,最终我通过线上的API接[详细]
-
中国大数据应用市场学习
所属栏目:[大数据] 日期:2021-06-05 热度:138
中国行业大数据应用市场概况 2011-2018年中国大数据市场规模发展 大数据市场驱动力: 来自于线下大数据市场( IT企业的大数 据应用及大数据平台业务市场)中IT巨头 和单一大数据业务的厂商开始行动,优 化产品和服务路线图。 来自于线上大数据市场(互联网用户[详细]
-
利用大数据进行客户互动的5种技巧
所属栏目:[大数据] 日期:2021-06-05 热度:156
使用大数据最大程度地吸引客户 无论企业生产出更出色的产品还是推出更好的服务,如果客户对其产品或服务不满意,那么将永远无法实现成功。在大数据管理的世界中,每个企业都有自己的业务,需要确保为客户提供有价值的东西。 每个客户都知道他们有很多可用的[详细]
-
AI 时代,还不清楚大数据?
所属栏目:[大数据] 日期:2021-06-05 热度:164
如果要问最近几年,IT行业哪个技术方向最火?一定属于ABC,即AI + Big Data + Cloud,也就是人工智能、大数据和云计算。 这几年,随着互联网大潮走向低谷,同时传统企业纷纷进行数字化转型,基本各个公司都在考虑如何进一步挖掘数据价值,提高企业的运营效率[详细]
-
你是否适应数据正在“监控”你?
所属栏目:[大数据] 日期:2021-06-05 热度:120
数据的生命 与一年之前相比,此次调查中有36%的消费者不愿共享自己的信息,同时有17%的消费者表示更愿意接受信息共享。66%的消费者表示无法接受数据泄露,但也有55%的消费者表示,即使发生数据泄露,他们也将继续使用相应产品或服务;84%的受访者表示如果企[详细]
-
Python数据分析,需要要求掌握Pandas大熊猫
所属栏目:[大数据] 日期:2021-06-05 热度:53
我写的pandas不是我国可爱的大熊猫国宝 Python数据分析,必须要求掌握pandas大熊猫 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了[详细]
-
运用大数据增加疫情防控网络谣言治理能力
所属栏目:[大数据] 日期:2021-06-05 热度:190
不容忽视的是,面对当前错综复杂、任务艰巨的疫情防控形势,不同个人或群体在网络空间交流或传播不同想法、意见和看法,以及由于信息缺少、澄清不及时等因素造成网络谣言不断出现,误导了公众舆论,甚至扰乱了社会秩序,影响疫情防控工作的大局。因此,如何[详细]
-
数据收集对客户服务的关键性与日俱增
所属栏目:[大数据] 日期:2021-06-05 热度:193
早在2011年,行业专家就开始讨论业务中客户服务不断发展的标准。大多数客户服务设计基于现场工作人员的主观决定,当时很少有专家强调大数据的重要性。但是,越来越明显的是,大数据对于任何客户服务策略的可行性至关重要。 Freshdesk公司日前发表了一篇有关[详细]
-
大数据能干啥?
所属栏目:[大数据] 日期:2021-06-05 热度:174
今天随便聊聊一个Susan在2017年发在Science上文章:Beyond prediction: Using big data for policy problems。Susan Athey是美国著名的经济学家,现在是斯坦福大学商学院的教授。在平台和大数据方面的研究方面,她大概是经济学界林朝英这样的角色。值得一提[详细]