下面是小編為大家整理的課題研究報告,供大家參考。
山西大學商務學院《科研基礎訓練》
課題研究報告
大數(shù)據(jù)的科學研究
學生姓名:
張熙 :
所屬班級:
15 計科 G 班 :
所屬組別:
七組
:
實訓時間:
2016 年 10 月
至 2016 年 12 月
目 目
錄 一.引言……………………………………………………………………………………
1 二.大數(shù)據(jù)分析的應用和發(fā)展前景……………………………………………………
2 三.科學技術(shù)的集成………………………………………………………………………
3 四.大數(shù)據(jù)案例分析……………………………………………………………
4 五.結(jié)束語…………………………………………………………………………………
5
大數(shù)據(jù)的科學研究
學生姓名:張熙 指導老師:趙文娟 摘要:本文基于國家自然科學基金委員會第 89 期雙清論壇“大數(shù)據(jù)技術(shù)與應用中的挑戰(zhàn)性科學問題”的研討內(nèi)容,分別就大數(shù)據(jù)獲取、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)傳輸,大數(shù)據(jù)處理、分析與計算,以及大數(shù)據(jù)應用等議題進行了全面綜述。在深入研討大數(shù)據(jù)技術(shù)與應用的國內(nèi)外發(fā)展動態(tài)和現(xiàn)狀的基礎上,凝練出了未來我國在大數(shù)據(jù)技術(shù)與應用領域急需關注和解決的 9 個重大科學問題,并結(jié)合我國具體情況,提出了與開展大數(shù)據(jù)技術(shù)與應用研究相關的若干政策和措施建議。
關鍵詞:
大數(shù)據(jù) 科學研究方法,企業(yè)管理,基本應用,科技變革
一.引言
隨著云計算、物聯(lián)網(wǎng)和移動通信技術(shù)及其應用的蓬勃發(fā)展,產(chǎn)生的數(shù)據(jù)量不僅以指數(shù)級速度增長,數(shù)據(jù)結(jié)構(gòu)也變得愈加復雜,大大超出了傳統(tǒng)數(shù)據(jù)庫的管理能力。大數(shù)據(jù)問題近年來己成為信息技術(shù)產(chǎn)業(yè)討論的焦點,輿論普遍認為該問題將成為信息科學技術(shù)領域的重要前沿課題之一。以大容量、高速度、多樣化和價值稀缺為特征的大數(shù)據(jù),給在數(shù)據(jù)分析領域扮演重要角色的競爭情報的研究工作帶來了前所未有的機遇。
現(xiàn)今社會,隨著經(jīng)濟的迅猛發(fā)展,越來越多的企業(yè)在迅速的崛起,這么多的企業(yè),要想從中脫穎而出,勢必需要尋找一種新的途徑,于是我們迎來了正處于高速發(fā)展的大數(shù)據(jù)信息通信時代。因此,大數(shù)據(jù)成為一個至關重要的課題,吸引了大量學者對其進行深入研究,筆者在查閱國內(nèi)外相關文獻的基礎上,對大數(shù)據(jù)的理論研究、大數(shù)據(jù)的應用研究、大數(shù)據(jù)時代面臨的挑戰(zhàn)進行了綜合分析,以期展望未來大數(shù)據(jù)的發(fā)展趨勢。
二.大數(shù)據(jù)分析的應用和發(fā)展前景
大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進行分析。大數(shù)據(jù)可以概括為 4 個 V, 數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、真實性(Veracity)。大數(shù)據(jù)作為時下最火熱的 IT 行業(yè)的詞匯,隨之而來的數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)據(jù)的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)分析也應運而生。
據(jù)統(tǒng)計,2011 年全球被創(chuàng)建和復制的數(shù)據(jù)總量為 1.8ZB(10 的 21 次方),其中 75%來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動力,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)
據(jù)。工業(yè)設備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控,每年傳送 PB 數(shù)量級的數(shù)據(jù)。
大數(shù)據(jù)科學作為一個新興的交叉學科方向,其共性理論基礎將來自多個不同的學科領域,包括計算機科學、統(tǒng)計學、人工智能、社會科學等。因此,將來推出一個國家科技和產(chǎn)業(yè)專項來引導和支持大數(shù)據(jù)的研究和產(chǎn)業(yè)發(fā)展,也會對相關學科的領域知識與研究方法論產(chǎn)生推動作用。
三.大數(shù)據(jù):科學技術(shù)的集成
大數(shù)據(jù)處理方法與框架 大數(shù)據(jù)的處理流程可以定義為在合適工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,結(jié)果按照一定得標準統(tǒng)計存儲,利用合適的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進行分析,從中提取有益的知識并利用恰當?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶,具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋,如圖所示。
數(shù)據(jù)抽取與集成 多樣性是大數(shù)據(jù)的一個重要特征,它意味著數(shù)據(jù)來源的廣泛與數(shù)據(jù)類型的復雜,就 11 是這種多樣的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理分析工作帶來極大的挑戰(zhàn)。在處理大數(shù)據(jù)的過程中,首先要對數(shù)據(jù)源進行抽取和集成,并經(jīng)過關聯(lián)和聚合后采用統(tǒng)一的結(jié)構(gòu)來存儲此類數(shù)據(jù)。此過程需要對數(shù)據(jù)進行清洗,保證數(shù)據(jù)質(zhì)量及可靠性。數(shù)據(jù)抽取和集成技術(shù)在傳統(tǒng)數(shù)據(jù)庫領域已有了較為成熟的研究。隨著新型數(shù)據(jù)源的涌現(xiàn),數(shù)據(jù)集成方法也在不斷的發(fā)展。從數(shù)據(jù)集成模型來看,現(xiàn)有的數(shù)據(jù)抽取與集成方式大致可分為:基于物化或 ETL 方法的引擎、基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎、基于數(shù)據(jù)流方法的引擎以及基于搜索引擎的方法。
2、數(shù)據(jù)分析
數(shù)據(jù)價值的產(chǎn)生取決于數(shù)據(jù)分析過程的精細程度,這也決定了數(shù)據(jù)分析在大數(shù)據(jù)處理流程中的核心地位。分析過程的原始數(shù)據(jù)來自于異構(gòu)數(shù)據(jù)源的抽取和集成,根據(jù)不同需求可以從該類數(shù)據(jù)中有選擇型的進行分析處理。傳統(tǒng)的分析技術(shù),如數(shù)據(jù)挖掘、統(tǒng)計分析等在大數(shù)據(jù)時代已較為落后,并面臨著新形勢下的挑戰(zhàn):數(shù)據(jù)量大并不會導致數(shù)據(jù)價值的增加,相反會引起數(shù)據(jù)噪聲的增多,因此數(shù)據(jù)清洗等預處理工作必須在數(shù)據(jù)分析之前得以實施,而預處理如此海量的數(shù)據(jù)對于硬件設備和軟件算法都是極大的考驗;
由此在新形勢下軟件算法需要升級換代:首先大數(shù)據(jù)技術(shù)常常應用在實時性領域,這就決定了實施算法的關鍵是在實時性和準確率的平衡上;
其次云計算是數(shù)據(jù)處理有力的工具,這就需要使算法適應該技術(shù)框架,實現(xiàn)其可擴展性。
3.計算模擬科學
計算模擬科學是一個與數(shù)據(jù)模型構(gòu)建、定量分析方法以及利用計算機來分析和解決科學問題相關的研究領域。在實際應用中,計算科學主要用于對各個科學學科中的問題進行計算機模擬和其他形式的計算。其問題域包括:數(shù)值模擬,數(shù)值模擬有各種不同的目的,取決于被模擬的任務的特性。重建和理解已知時間,預測未來或被觀測到的情況;
模型擬合與數(shù)據(jù)分析,適當調(diào)整模型或利用觀察來解方程,不過也需要服從模型的約束條件,利用圖論建立網(wǎng)絡模型,特別是那些相互聯(lián)系的個人、組織和網(wǎng)站的模型。
四.大數(shù)據(jù)應用與案例分析
1. 大數(shù)據(jù)應用案例之:醫(yī)療行業(yè) Seton Healthcare 是采用 IBM 最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預測的首個客戶。該技術(shù)允許企業(yè)找到大量病人相關的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過 3000 次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。
它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡來收集數(shù)據(jù)的健康類 App。也許未
來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。
2. 大數(shù)據(jù)應用案例之:能源行業(yè) 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預測客戶的用電習慣等,從而推斷出在未來 2~3 個月時間里,整個電網(wǎng)大概需要多少電。有了這個預測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預測后,可以降低采購成本。
維斯塔斯風力系統(tǒng),依靠的是 BigInsights 軟件和 IBM 超級計算機,然后對氣象數(shù)據(jù)進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足 1 小時便可完成。
3. 大數(shù)據(jù)應用案例之:通信行業(yè) XO Communications 通過使用 IBM SPSS 預測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。此外,IBM 新的 Netezza 網(wǎng)絡分析加速器,將通過提供單個端到端網(wǎng)絡、服務、客戶分析視圖的可擴展平臺,幫助通信企業(yè)制定更科學、合理決策。
電信業(yè)者透過數(shù)以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業(yè),這是全新的資料經(jīng)濟。
中國移動通過大數(shù)據(jù)分析,對企業(yè)運營的全業(yè)務進行針對性的監(jiān)控、預警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內(nèi)獲知市場行情。
NTT docomo 把手機位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。
數(shù)據(jù)化生存 IT 行業(yè)的“指數(shù)效應”威力驚人,比如,IT 的基石芯片行業(yè)有個摩爾定律,每 18 個月芯片上集成的晶體管數(shù)會翻番,由此會帶來一系列指數(shù)式連鎖反應——CPU 的性能翻番,芯片的成本折半,功耗也會折半。這也就是大家為什么看到電子產(chǎn)品快速降價的根本原因。
市場調(diào)研公司 IDC 認為,大數(shù)據(jù)行業(yè)也有“摩爾定律”。英特爾中國研究院院長吳甘沙非常認同這個說法,他曾是英特爾中國研究院首位“首席工程師”,主持大數(shù)據(jù)研究?!叭绻f摩爾定律是我們所在的指數(shù)社會的基因,那么大數(shù)據(jù)就是指數(shù)社會的蛋白質(zhì)。”吳甘沙說。
有人說大數(shù)據(jù)是新的原材料、新的原油、新的資產(chǎn),甚至是新的貨幣,而吳甘沙認為,人類現(xiàn)在的生存就是一場數(shù)據(jù)化生存。人類社會的各類設備在不停地感知、傳輸、存儲數(shù)據(jù)。今天,人們認為谷歌可能是最大的數(shù)據(jù)擁有者之一,但按照指數(shù)增長規(guī)律,到 2020 年,一年所產(chǎn)生的數(shù)據(jù)將是 1000 個今天的谷歌或 10000 個百度。
“我們看到數(shù)據(jù)和計算能力在過去 15 年間一直呈現(xiàn)指數(shù)級增長,這種增長給我們帶來了根本性變化——不能再看單獨的數(shù)據(jù),而是把全部數(shù)據(jù)放在一起來考慮,來描繪出對人、企業(yè)或是業(yè)務的高清晰圖像。”大數(shù)據(jù)之父 Doug Cutting 說,“這件事是一個革命性、階段性的變化。”Doug Cutting 是開源技術(shù)世界中一個很具影響力的人物,他打造了目前在云計算和大數(shù)據(jù)領域里如日中天的開源技術(shù) Hadoop。他是 Apache 基金會主席,也是大數(shù)據(jù)平臺企業(yè) Cloudera 的首席技術(shù)官。
大量、快速增長的數(shù)據(jù)需要實時儲存、整合和分析,過去的 IT 架構(gòu)已經(jīng)無法應付,這就促成了一種名為 Hadoop 開源新架構(gòu)的誕生,這是個可以無限擴容的分布式計算結(jié)構(gòu)。
在這個無限擴容開放式架構(gòu)的發(fā)展大勢下,IT 業(yè)界才倡導了“軟件定義基礎設施”的趨勢,把計算、存儲和網(wǎng)絡做成開放式的標準模塊,降低設施的門檻;
在基礎設施之上,推動開放、可信數(shù)據(jù)處理平臺 Hadoop;
在此之上,推動整個生態(tài)圈的創(chuàng)新,實現(xiàn)各類分析應用,把高級分析功能平民化,使得它能邁入主流市場,實現(xiàn)規(guī)模經(jīng)濟。
五.結(jié)束語
“大數(shù)據(jù)”時代的來臨,是機遇也是挑戰(zhàn),其中存在的一個明顯問題就是,傳統(tǒng)的計算機病毒、服務器受到惡意攻擊與盜版軟件的問題依然存在,還出現(xiàn)了操縱和篡改他人數(shù)據(jù)以及偽造和假冒他人身份等許多新問題,這些問題對互聯(lián)網(wǎng)的服務品質(zhì)造成了很大的沖擊。這些問題對軟件的設計提出了更高的要求,計算機軟件必須能夠在運行過程中對于互聯(lián)網(wǎng)的環(huán)境進行判斷,進而對其進行控制。而且,人們已經(jīng)致力于內(nèi)容感知網(wǎng)絡技術(shù)的研究,相信不久的將來就能夠為人們服務。
參考文獻 [1]
Mayer-Schonberger
Vikto:著.周濤譯.大數(shù)據(jù)時代.杭州:浙江人民出版社,2012. [2]
Manyika J. Chui M,
Brown B, et al.
Big data:
The Next Frontier
for
Innovation. Competition,
and
Productivity. Technical Report,McKinley Global Institute, 2011. [3]
Cants J,Reinsel D, Arend C. The Digital Universe in 2020;Big
Data,
Bigger
Digital Shadows.
IDC
Country
Brief Report, 2013. [4]
Tolle KM.
The fourth paradigm;
Data-intensive scientific discovery. Proceedings of IEEE, 2011,99(8):1334 一 1337. [5] 李國杰.大數(shù)據(jù)研究的科學價值.中國計算機學會通訊.2012, 8(9):8-15.
Scientific Research On Big Data 【Abstract】
Based on the 89th Shuangqing Forum sponsored by National Natural Science Foundation of China entitled “The Challenging Scientific Problems in the Fields of Technologies and Applications of Big Data”, we summarized progress in the subject of technologies and applications of big data, including big data acquisition, big data memory and management, big data processing and computing, and big data applications. According to discussions at the 89th Shuangqing Forum, we also proposed the nine frontiers scientific problems need to be highlighted and solved in the forthcoming research plans;
and suggested some policies and solutions associated with research on technologies and applications of big data. Key words Big data,Acquisition, Memory and management, Processing and computing, Applications