当前位置:论文写作 > 毕业论文范文 > 文章内容

大数据时代的挑战——中国工程院院士李德毅在第十八届软*高峰坛上的发言

主题:数据关系图 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-03-08

简介:关于对不知道怎么写数据关系论文范文课题研究的大学硕士、相关本科毕业论文数据关系论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

数据关系论文范文

数据关系图论文

目录

  1. 数据关系图:发现数据关系

我们在大数据时代面临着什么样的挑战,今天我就讲讲这个问题.

大数据通常来自三个方向:自然大数据、生命大数据和社交大数据.PB时代是对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战,也是对软件工程的挑战.

尤其是社交大数据.在奥巴马就职的现场有这么多面孔,每一个面孔下都有一个故事.人脸是数据安全很重要的识别器.那么,怎么识别呢?人们想到了摄像头,北京市约有80万个摄像头,我们每天都在摄像头的监督下开车、购物等.

“谁?是他吗?”这是社交网络中基本的问题.我们要确定一个人,通常需要从身份认证、年龄识别、情感计算、亲缘发现、性别识别、地区和民族识别等方面进行辨识.

结构化数据面临挑战

我们认为计算在过去的20年里起到了主导作用,它的标志就是摩尔速度.跟这个时代相对应的是结构化数据,“软件”加“程序”加“数据”加“存档”,这个数据应该是结构化数据才能运行起来.

结构化数据的典型代表就是关系数据库.1970年,伟大的科学家埃德加·弗兰克·科德教授提出关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间联系,通过关系运算实现结构化查询.30多年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘构筑起巨大的信息处理产业.

关系代数是关系数据库的形式化理论和约束.关系数据库有严格的顶层设计.为构造良式关系,必须消除元组中不合适的数据依赖,通过第三范式(BCNF)甚至约束度更高的范式,分解数据表,以解决插入异常、删除异常和数据冗余等问题.对这样的关系进行运算,运算结果仍然是关系,运算符可以是集合运算、算术运算、逻辑运算,或者关系运算.只要数据在关系数据库中,用户总可以通过SQL语言将满足条件的唯一结果挖掘出来,无需关心数据的获取、存储、分析和提取过程,更无需关心数据结构的内部组织形式.

但是,结构化数据仍然面临着一些挑战:挑战一,形式化约束过于苛刻,无法表示原生态数据;挑战二,随着数据量的增大,关系代数运转的性能急剧下降.

在计算时代,人们发现,这种摩尔速度下的存储也有很大的发展.尤其随着存储材料和存储技术的发展,市场上500元就能买到1TB的硬盘,这是我们以前不可想象的.存储技术在交互方面的发展,让我们有了存储的网络和阵地.于是,整个社会进入了半结构化的数据阶段.而半结构化数据的典型特征是超文本、超链接、超媒体,其组成形式是C/S、B/S和云计算.

论文范文网(World Wide Web)之父Tim Berners-Lee,是把超文本技术引入互联网的*.1989年,他开发出世界上第一个Web服务器和Web客户机.1991年,Web实现了通过超文本方式,使网络中不同计算机内的信息实现超链接,通过超文本传输协议H论文范文P从一台Web服务器转到另一台Web服务器上检索.另外,服务器在软件支持下可以发布包括文本、表格、图片、音频和视频等碎片化的超媒体信息.而E-mail、 Telnet、 FTP、 WAIS 等都可以通过Web服务实现.从此开始了Web纪元,人类进入搜索时代.

我们看到,数据围绕实体,实体围绕链接转.挖掘就是云环境下的探索和个性化服务,没有死板的查询方式,也没有唯一的结果,挖掘结果允许带有不确定性,重视探索的统计性质.现在的挖掘已经延伸到了图片和语音的搜索,这类搜索引擎的出现也带来了互联网上繁荣的内容服务.

移动互联网的大数据挖掘

现在,我们处在网络化和交互的时代.移动互联网时代的大数据挖掘,主要是网络环境下的非结构化数据挖掘.这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据,而这些原生态数据的特点常是低价值的、强噪音、并购、冗余的冷数据.

同时,移动互联网大数据挖掘过程中,数据的简约具有各自适应性.长期以来,我们用认知物理学方法来实现数据的自适应简约.我们在国内外第一次提出了数据场的思想.把人脸变成数据场,大家可以看到这张人脸跟其他人的脸是有相似之处的,可以用线性的方法也可以用非线性的方法来表现.

举例来说,如果想突出眼睛、鼻子和嘴巴,我们可以用这种数据场的方法来突出.用物理学中“场”的方法来类比形成数据场,像素之间相互影响越小,特征点个数越多,图像的描述细节越多,反之特征点个数越少.

百度用深度学习的方法实现了数据自适应简约,我们觉得他们跟我们现在做的是非常一致的,例如,百度搜图做的人脸相似性搜索.当前的情况是,数据量急剧增加,组织结构已经围绕数据转了,程序碎片化可以随时重组,挖掘常常是人机交互环境下不同社区的发现.

社区可以给我们提供数据实物.网络化大数据挖掘的方法是社区发现.人们最关心的是社区,并且我们关心社区中的交互.社区交互表现的形式有显性和隐性两种形式.显性形式有评论、心情、收集、购买、评分、顶、踩、分享、加为好友、邀请加入等,而隐性形式有跳转等.我们利用拓扑势方法挖掘社区,并且发现社区成员的重要性及成员角色.现实生活中经过一段时间的反复、交互、汇聚,修正和演化,群体形成趋于相对稳定的共识.

数据关系图:发现数据关系

云计算支撑大数据挖掘

云计算是基于互联网大众参与的计算模式,其计算资源、存储能力、交互能力是动态、可伸缩和被虚拟化的.端产品摆脱了传统IT配置带来的系统升级开销,其特点是更加简洁、灵活、多样、个性化.手机、游戏机、数码相机、电视机、上网本、笔记本电脑等功能交叉,差别细微,出现更多iCloud产品.界面人性化、个性化,可随时变换成为各种各样的大数据发生器,或者虚拟遥控器,或者大数据挖掘终端.

大数据挖掘和云计算在支撑着各种各样的大数据应用.于是,软件工程出现了巨大的变化,通过众包细分法,完成云环境下的社会生产.在互联网环境下,利用人的认知和大众之间的交互,融合计算机群组对大数据的价值挖掘,形成群体智能.由此,我们提出了一个新概念“众挖”.用户不再需要关心数据的形态、数据的获取位置、结构模式、存储方式和分析过程,就能够获得足够满意的挖掘结果.

大数据标志着新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是互联网带来的便利,它还包含区别于物质的数据资源的价值挖掘和价值转换,以及由大数据给金融行业带来的很多思考,同时还有由大数据挖掘带来的精神和文化方面的崭新现象.

(本文根据李德毅院士发言整理,未经本人确认)

总结:这是一篇与数据关系论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

数据关系图引用文献:

[1] 客户关系和大数据专升本毕业论文范文 关于客户关系和大数据相关毕业论文题目范文3000字
[2] 关系论文范例 大数据相关专科开题报告范文2500字
[3] 知网查重核磁谱图数据重复怎么办
《大数据时代的挑战——中国工程院院士李德毅在第十八届软*高峰坛上的发言》word下载【免费】
数据关系图相关论文范文资料