解決方案 > 萬方大數(shù)據(jù)平臺(tái)
基于云與大數(shù)據(jù)的解決方案幫助企業(yè)成功轉(zhuǎn)型
1平臺(tái)概述
當(dāng)前數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,,逐漸成為重要的生產(chǎn)因素,對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和社會(huì)各行業(yè)變革的到來,,在全球已經(jīng)全面進(jìn)入信息時(shí)代的今天,,據(jù)IDC預(yù)測,,全球大數(shù)據(jù)市場規(guī)模有望在2017年達(dá)530億美元,并在未來幾年內(nèi)依然保持30%以上的年復(fù)合增長率,。大數(shù)據(jù)機(jī)主要針對國家面向大型企業(yè)應(yīng)用的共性云計(jì)算基礎(chǔ)平臺(tái)研制,,基于分布式算法、數(shù)據(jù)管理技術(shù),,提高大數(shù)據(jù)挖掘與智能服務(wù)的能力,。大數(shù)據(jù)機(jī)的研制符合國家信息安全政策導(dǎo)向,從CPU芯片,、服務(wù)器系統(tǒng)設(shè)計(jì)和制造到操作系統(tǒng),、共性支撐軟件、虛擬化技術(shù)和系統(tǒng)集群實(shí)現(xiàn)了實(shí)現(xiàn)了全棧式,、一體化數(shù)據(jù)治理支撐,。

圖1 國產(chǎn)大數(shù)據(jù)平臺(tái)
WFCloud大數(shù)據(jù)平臺(tái)處于系統(tǒng)的平臺(tái)服務(wù)層,是龍芯,、申威,、飛騰等處理器平臺(tái)上定制開發(fā)的大數(shù)據(jù)處理軟件,在大數(shù)據(jù)機(jī)集群上,,通過虛擬化為大數(shù)據(jù)處理提供資源池,,形成大數(shù)據(jù)處理集群,,軟件在集群上進(jìn)行了充分的適配和優(yōu)化,將檢索查詢,、圖算,、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘,、實(shí)時(shí)數(shù)據(jù)處理等模型統(tǒng)一到一個(gè)基礎(chǔ)平臺(tái)下,,并以一致的接口API公開,提供各類業(yè)務(wù)應(yīng)用信息引接,,多源數(shù)據(jù)處理的大數(shù)據(jù)平臺(tái)服務(wù),,并能提供各類大數(shù)據(jù)處理、分析工具,,對各類業(yè)務(wù)信息,、多源數(shù)據(jù)做分析、提取,,為輔助決策系統(tǒng)提供有效支撐,。2 平臺(tái)設(shè)計(jì)
WFCloud大數(shù)據(jù)平臺(tái)主要解決分布式存儲(chǔ)和計(jì)算底層實(shí)現(xiàn),采用分布式集群做底層實(shí)現(xiàn),,利用分布式文件系統(tǒng)存儲(chǔ)數(shù)據(jù),,利用分布式計(jì)算實(shí)現(xiàn)大數(shù)據(jù)的任務(wù)處理,輔助使用內(nèi)存計(jì)算解決分布式計(jì)算寫文件系統(tǒng)帶來的速度問題,。對上通過提供各類數(shù)據(jù)存儲(chǔ),、計(jì)算以及挖掘接口,提供業(yè)務(wù)服務(wù)計(jì)算和數(shù)據(jù)支撐,,在具備海量數(shù)據(jù)的情況下可以專注業(yè)務(wù)開發(fā)而無需關(guān)心底層數(shù)據(jù)組織方式,,尤其是現(xiàn)有的一些基于Hadoop、HBase,、Hive的程序可以更加簡單的遷移到龍芯,、申威、飛騰等處理器架構(gòu)服務(wù)器系統(tǒng),。2.1 平臺(tái)架構(gòu)
WFCloud大數(shù)據(jù)平臺(tái)搭建在龍芯,、申威、飛騰等處理器架構(gòu)服務(wù)器上,,在服務(wù)器上做了大量適配和優(yōu)化,,并根據(jù)硬件特點(diǎn)進(jìn)行架構(gòu)重寫,滿足大數(shù)據(jù)使用需求,。其中主要針對大數(shù)據(jù)軟件的可靠性,、性能調(diào)優(yōu)等方面著重進(jìn)行了優(yōu)化和提升。大數(shù)據(jù)平臺(tái)在實(shí)際生產(chǎn)環(huán)境中盡可能的對所有軟件都提供主從雙機(jī)的HA形式,,采用主備或負(fù)荷分擔(dān)配置,,有效避免單點(diǎn)故障場景對系統(tǒng)可靠性的影響,。提供大數(shù)據(jù)軟件的自動(dòng)化部署工具,實(shí)現(xiàn)一鍵式安裝程序和一鍵式集群控制功能,。大數(shù)據(jù)平臺(tái)軟件架構(gòu)如下圖所示,。
圖2 大數(shù)據(jù)平臺(tái)軟件架構(gòu)
2.2.核心組件
2.2.1 WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)
WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)基于開源大數(shù)據(jù)架構(gòu)Apache Hadoop構(gòu)建,可構(gòu)建在龍芯,、申威,、飛騰等處理器架構(gòu)服務(wù)器之上,基于HDFS構(gòu)建分布式文件系統(tǒng)實(shí)現(xiàn)海量存儲(chǔ),,基于MapReduce框架實(shí)現(xiàn)分布式并行處理,結(jié)合主從備份架構(gòu)實(shí)現(xiàn)系統(tǒng)高可用,,為大數(shù)據(jù)處理系統(tǒng)提供分布式計(jì)算和分布式存儲(chǔ)能力,,為上層數(shù)據(jù)庫系統(tǒng)和其他應(yīng)用系統(tǒng)提供平臺(tái)支撐。
分布式存儲(chǔ)是一個(gè)主/從(Master/Slave)體系結(jié)構(gòu),,如上圖所示,。由于分布式存儲(chǔ)的性質(zhì),存儲(chǔ)集群擁有主備控制節(jié)點(diǎn)和若干數(shù)據(jù)節(jié)點(diǎn),??刂乒?jié)點(diǎn)管理文件系統(tǒng)的元數(shù)據(jù),數(shù)據(jù)節(jié)點(diǎn)則存儲(chǔ)實(shí)際的數(shù)據(jù),??蛻舳送ㄟ^與控制節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的交互訪問文件系統(tǒng)??蛻舳寺?lián)系控制節(jié)點(diǎn)以獲取文件的元數(shù)據(jù),,而真正的文件I/O操作是直接和數(shù)據(jù)節(jié)點(diǎn)進(jìn)行交互的。
WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)通過冗余備份,、副本存放,、心跳檢測、安全模式,、數(shù)據(jù)完整性檢測,、空間回收、元數(shù)據(jù)磁盤失效和快照等方法可以有效保障分布式文件系統(tǒng)的可靠性,。平臺(tái)采用Yarn作為資源管理系統(tǒng),,可以為各類應(yīng)用程序進(jìn)行資源管理和調(diào)度?;邶埿?、申威、飛騰等處理器平臺(tái)優(yōu)化的MapReduce框架提供快速并行處理大量數(shù)據(jù)的能力,,作為分布式數(shù)據(jù)處理模式以及執(zhí)行環(huán)境,。
WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái)針對不同的應(yīng)用場景和不同的應(yīng)用側(cè)重點(diǎn),,如存儲(chǔ)、離線計(jì)算,、分布式計(jì)算等方向,,能夠有針對性地對配置進(jìn)行優(yōu)化,具備高度的可定制性和擴(kuò)展性,。
2.2.2 WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架
WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架是基于開源框架Apache Spark構(gòu)建,,針對龍芯、申威,、飛騰等處理器平臺(tái)將其相關(guān)的集群軟件,、監(jiān)控軟件進(jìn)行了重新定制開發(fā)。Spark是一個(gè)圍繞速度,、易用性和復(fù)雜構(gòu)建的大數(shù)據(jù)處理框架,。它提供了一個(gè)全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù),、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r(shí)的流數(shù)據(jù))的大數(shù)據(jù)處理的需求,。Spark使用了內(nèi)存內(nèi)運(yùn)算技術(shù),能在數(shù)據(jù)尚未寫入硬盤時(shí)即在內(nèi)存內(nèi)分析運(yùn)算,。Spark項(xiàng)目主要由RDDs(彈性分布式數(shù)據(jù)集),、Spark SQL、Spark Streaming,、Spark MLib和Spark GraphX這幾個(gè)要素組成,。WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架的特點(diǎn)如下:
● 支持分布式內(nèi)存計(jì)算
● 支持迭代式的計(jì)算
● 兼容Hadoop系統(tǒng)文件讀寫方式
● 計(jì)算過程容錯(cuò)
● 支持多種語言開發(fā)應(yīng)用(Scala/Java/Python)
● 計(jì)算能力線性擴(kuò)展
WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架是基于內(nèi)存的迭代計(jì)算框架(如圖4所示),適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合,,如機(jī)器學(xué)習(xí),,圖挖掘算法以及交互式數(shù)據(jù)挖掘算法等。在計(jì)算過程中需要反復(fù)操作的次數(shù)越多,,所需讀取的數(shù)據(jù)量越大,,受益越大,數(shù)據(jù)量小但是計(jì)算密度較大的場合,,受益則相對較小,。由于彈性數(shù)據(jù)集的特性,不適用于異步細(xì)粒度更新狀態(tài)的應(yīng)用,,例如Web應(yīng)用服務(wù)的數(shù)據(jù)存儲(chǔ),。

WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架中計(jì)算的數(shù)據(jù)可以來自多個(gè)數(shù)據(jù)源,如Local File,、HDFS等,。WFCloud云計(jì)算平臺(tái)使用HDFS作為其底層數(shù)據(jù)存儲(chǔ),用戶能夠快速的從MapReduce切換到WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架,,可以一次讀取大規(guī)模的數(shù)據(jù)進(jìn)行并行計(jì)算,。在計(jì)算完成后,,將計(jì)算結(jié)果存儲(chǔ)到HDFS中,WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架可以提供比MapReduce高10到100倍的性能,。WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架作為計(jì)算引擎,,還支持小批量流式處理、離線批處理,、SQL查詢,、數(shù)據(jù)挖掘,避免用戶在這幾類不同的系統(tǒng)中加載同一份數(shù)據(jù)帶來的存儲(chǔ)和性能上的開銷,。
在龍芯,、申威、飛騰等服務(wù)器與X86設(shè)備性能存在差距的情況下,,采用內(nèi)存計(jì)算框架能在一定程度上彌補(bǔ)MapReduce在執(zhí)行性能上的缺陷,,如中間結(jié)果輸出、數(shù)據(jù)格式和內(nèi)存分布,、執(zhí)行策略以及任務(wù)調(diào)度的開銷等方面的提升。
2.2.3 WFCloud大數(shù)據(jù)庫系統(tǒng)
各類型軍事信息系統(tǒng)中,,數(shù)據(jù)庫支撐了各種類型數(shù)據(jù)的存儲(chǔ),、查詢和統(tǒng)計(jì)分析等功能,但隨著一些特定類型數(shù)據(jù)的數(shù)據(jù)量的不斷增長,,如傳感器,、目標(biāo)軌跡和日志信息數(shù)據(jù)等,已達(dá)到普通數(shù)據(jù)庫存儲(chǔ)和訪問的極限,,NoSQL數(shù)據(jù)庫訪問性能和存儲(chǔ)拓展性方面的優(yōu)越性成為解決問題的關(guān)鍵,。關(guān)系型數(shù)據(jù)庫不再是唯一選擇,數(shù)據(jù)庫領(lǐng)域正進(jìn)入混合持久化時(shí)代,,即采用多種數(shù)據(jù)庫解決方案,,并使用不同數(shù)據(jù)存儲(chǔ)模型,這種解決數(shù)據(jù)持久化存儲(chǔ)問題的混合方式逐漸被采納,。WFCloud大數(shù)據(jù)庫系統(tǒng)(WFBase)基于開源數(shù)據(jù)庫Apache HBase構(gòu)建,,是高可靠、高性能,、面向列,、可伸縮的分布式數(shù)據(jù)庫,能夠提供海量數(shù)據(jù)的存儲(chǔ)功能,,大致架構(gòu)如圖5所示,。大數(shù)據(jù)數(shù)據(jù)庫基于One Rule Them All設(shè)計(jì)思想,用于處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和檢索,,為業(yè)務(wù)系統(tǒng),,數(shù)據(jù)倉庫構(gòu)建和數(shù)據(jù)挖掘提供數(shù)據(jù)庫級數(shù)據(jù)存儲(chǔ)和檢索,,方便應(yīng)用開發(fā)。系統(tǒng)緊密結(jié)合龍芯,、申威,、飛騰等服務(wù)器特性,充分發(fā)揮了硬件性能,,提升了數(shù)據(jù)庫系統(tǒng)的整體性能,。

圖5 WFBase架構(gòu)
WFBase利用HDFS作為其文件存儲(chǔ)系統(tǒng),除了WFBase產(chǎn)生的一些日志文件,,WFBase中的所有數(shù)據(jù)文件都可以存儲(chǔ)在HDFS文件系統(tǒng)上,。HDFS為WFBase提供了高可靠性的底層存儲(chǔ)支持。
WFBase適合于存儲(chǔ)大表數(shù)據(jù)(表的規(guī)??梢赃_(dá)到數(shù)十億行以及數(shù)百萬列),,并且對大表數(shù)據(jù)的讀、寫訪問可以達(dá)到實(shí)時(shí)級別,,提供高可靠性,、高性能、列存儲(chǔ),、可伸縮,、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。WFBase利用ZooKeeper作為協(xié)同服務(wù),,可使用WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架和MapReduce來處理WFBase中的海量數(shù)據(jù),。
2.2.4 WFCloud大數(shù)據(jù)倉庫
WFCloud大數(shù)據(jù)倉庫基于開源數(shù)據(jù)倉庫Apache Hive構(gòu)建,主要提供類似SQL的語言操作結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)服務(wù)和基本的數(shù)據(jù)分析服務(wù),。WFCloud大數(shù)據(jù)倉庫為單實(shí)例的服務(wù)進(jìn)程,,提供服務(wù)的原理是將WQL編譯解析成相應(yīng)的MapReduce或者HDFS任務(wù)。WFCloud大數(shù)據(jù)倉庫作為一個(gè)基于HDFS和MapReduce架構(gòu)的數(shù)據(jù)倉庫(如圖6所示),,其主要能力是通過對WQL(WFCloud Query Language)編譯和解析,,生成并執(zhí)行相應(yīng)的MapReduce任務(wù)或者HDFS操作。
WFCloud大數(shù)據(jù)倉庫主要特點(diǎn)如下:
- 海量結(jié)構(gòu)化數(shù)據(jù)分析匯總
- 將復(fù)雜的MapReduce編寫任務(wù)簡化為SQL語句
- 靈活的數(shù)據(jù)存儲(chǔ)格式,,支持JSON,,CSV,TEXTFILE,,RCFILE,,SEQUENCEFILE這幾種存儲(chǔ)格式

WFCloud大數(shù)據(jù)倉庫包括如下相關(guān)組件:
- 用戶接口:包括WFCloudshell,Thrift客戶端,,Web管理
- Thrift服務(wù)器:當(dāng)WFCloud大數(shù)據(jù)倉庫以服務(wù)器模式運(yùn)行時(shí),,可以作為Thrift服務(wù)器,供客戶端連接
- 元數(shù)據(jù)庫:通常存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(MySQL、Derby等)中
- 解析器:包括解釋器,、編譯器,、優(yōu)化器、執(zhí)行器,,通過一系列的處理對HiveQL查詢語句的詞法分析,、語法分析、編譯,、優(yōu)化以及查詢計(jì)劃的生成,。查詢計(jì)劃由MapReduce調(diào)用執(zhí)行
3 案例
3.1 信息服務(wù)中心大數(shù)據(jù)融合平臺(tái)
大數(shù)據(jù)融合平臺(tái)部署在網(wǎng)絡(luò)上,主要為海量多源異構(gòu)數(shù)據(jù)提供實(shí)時(shí)入庫,、實(shí)時(shí)檢索,、實(shí)時(shí)分析等功能。同時(shí)提供分布式數(shù)據(jù)處理平臺(tái),,具備流數(shù)據(jù)處理和數(shù)據(jù)挖掘能力,。大數(shù)據(jù)融合平臺(tái)數(shù)據(jù)處理層結(jié)構(gòu)如下圖所示:
大數(shù)據(jù)融合平臺(tái)基于分布式文件系統(tǒng)構(gòu)建,集成Hadoop分布式計(jì)算平臺(tái),,支持傳統(tǒng)MapReduce和內(nèi)存計(jì)算的分布式計(jì)算架構(gòu),,具有超強(qiáng)的分布式計(jì)算能力,能支持從TB級乃至PB級數(shù)據(jù)的快捷,、高效處理,。
大數(shù)據(jù)融合平臺(tái)的核心為數(shù)據(jù)庫系統(tǒng),主要解決海量數(shù)據(jù)存儲(chǔ)與海量數(shù)據(jù)高速檢索兩個(gè)問題,。大數(shù)據(jù)融合平臺(tái)基于SQL on Hadoop自主研制大數(shù)據(jù)數(shù)據(jù)庫系統(tǒng),解決結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),,對入口數(shù)據(jù)進(jìn)行實(shí)時(shí)索引,,對數(shù)據(jù)進(jìn)行分析、分割,、提取后將其存儲(chǔ)在大數(shù)據(jù)數(shù)據(jù)庫系統(tǒng),。同時(shí)緊密結(jié)合硬件平臺(tái),,基于平臺(tái)進(jìn)行優(yōu)化,充分發(fā)揮硬件性能,提升數(shù)據(jù)庫性能,。
數(shù)據(jù)處理層支持實(shí)時(shí)處理、流處理,、圖算以及數(shù)據(jù)挖掘,,數(shù)據(jù)挖掘可以基于數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行檢索,處理和建模,,支持?jǐn)?shù)據(jù)的深度挖掘和商業(yè)智能分析,。
3.2 目標(biāo)區(qū)氣象保障系統(tǒng)
目標(biāo)區(qū)氣象保障系統(tǒng)是用于保障打擊目標(biāo)區(qū)域環(huán)境判定的專用系統(tǒng)。專用氣象保障系統(tǒng)近17個(gè)子系統(tǒng),由信息接收處理,、精細(xì)化預(yù)報(bào)預(yù)警,、決策支持、保障應(yīng)用和業(yè)務(wù)支撐等分系統(tǒng)組成,,各分系統(tǒng)的后臺(tái)處理單元采用龍芯,、申威、飛騰等服務(wù)器設(shè)備,。氣象數(shù)據(jù)是一類非常典型的非結(jié)構(gòu)化數(shù)據(jù),,在實(shí)際應(yīng)用中其日增量達(dá)數(shù)十TB。為滿足該項(xiàng)目需求,,建立一個(gè)集成各類應(yīng)用服務(wù),、數(shù)據(jù)預(yù)處理、實(shí)時(shí)存儲(chǔ),、快速檢索,、智能分析以及二、三維可視化展示為一體的氣象保障大數(shù)據(jù)處理平臺(tái),。
氣象保障系統(tǒng)軟件框架如圖所示:

數(shù)據(jù)存儲(chǔ)層是業(yè)務(wù)的重要部分,,其中內(nèi)存存儲(chǔ)采用內(nèi)存數(shù)據(jù)庫Redis進(jìn)行集群搭建,對需要實(shí)時(shí)處理的數(shù)據(jù)進(jìn)行有效快速處理,;持久化存儲(chǔ)采用傳統(tǒng)達(dá)夢數(shù)據(jù)庫集群搭建,,對需要持久化的數(shù)據(jù)進(jìn)行存儲(chǔ)備份,起到安全防護(hù)作用,;分布式文件存儲(chǔ)采用MongoDB數(shù)據(jù)庫進(jìn)行集群搭建,,對非關(guān)系型數(shù)據(jù)進(jìn)行快速有效存儲(chǔ),供多用戶進(jìn)行實(shí)時(shí)訪問,;近線存儲(chǔ)由WFBase集群搭建,,主要用于存儲(chǔ)訪問量不大且訪問性能較高的應(yīng)用,同時(shí)要求設(shè)備具有相當(dāng)大的存儲(chǔ)容量和靈活的集群伸縮性,。
平臺(tái)服務(wù)層為業(yè)務(wù)應(yīng)用提供基礎(chǔ)服務(wù)及系統(tǒng)平臺(tái),,主要包括云計(jì)算大數(shù)據(jù)平臺(tái)及二、三維地理信息系統(tǒng)平臺(tái),。數(shù)據(jù)服務(wù)層針對具體應(yīng)用可進(jìn)行彈性插件式擴(kuò)展,。數(shù)據(jù)處理服務(wù)包括數(shù)據(jù)分發(fā)、數(shù)據(jù)接收兩部分,。
業(yè)務(wù)可視化層是為用戶提供數(shù)據(jù)分析,、推演的展示單元,通過終端可對氣象數(shù)據(jù)實(shí)時(shí)分析和服務(wù)監(jiān)控,。
整個(gè)氣象保障系統(tǒng)核心數(shù)據(jù)存儲(chǔ)和處理部分主要利用WFCloud大數(shù)據(jù)平臺(tái)構(gòu)建,,實(shí)現(xiàn)系統(tǒng)的國產(chǎn)化的同時(shí)保障了系統(tǒng)處理性能,。
3.3某數(shù)據(jù)中心建設(shè)
該項(xiàng)目以申威大數(shù)據(jù)機(jī)和睿思操作系統(tǒng)為基礎(chǔ)平臺(tái),提供虛擬化和大數(shù)據(jù)處理技術(shù),,完成海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和檢索平臺(tái)的搭建,。為上層傳統(tǒng)數(shù)據(jù)庫應(yīng)用、數(shù)據(jù)挖掘應(yīng)用,、數(shù)據(jù)可視化提供底層支撐,。分布式處理平臺(tái)構(gòu)建在申威大數(shù)據(jù)機(jī)集群上,利用神威虛擬化技術(shù)擴(kuò)充集群規(guī)模,,采用分布式文件系統(tǒng)實(shí)現(xiàn)分布式存儲(chǔ),,利用分布式計(jì)算和Map Reduce設(shè)計(jì)實(shí)現(xiàn)分布式計(jì)算框架,結(jié)合主從備份架構(gòu)實(shí)現(xiàn)系統(tǒng)高可用,,為神威大數(shù)據(jù)處理系統(tǒng)提供分布式計(jì)算和存儲(chǔ)能力,,具體軟件架構(gòu)如圖所示。

項(xiàng)目具體實(shí)施分為以下幾步:
1)申威平臺(tái)下的分布式處理平臺(tái)的移植和優(yōu)化,;
2)利用WFCloud大數(shù)據(jù)平臺(tái)構(gòu)建分布式處理平臺(tái)系統(tǒng),、WFBase數(shù)據(jù)庫的具體實(shí)施、測試,;
3)大數(shù)據(jù)平臺(tái)搭建后,,和神通數(shù)據(jù)庫進(jìn)行交互使用。提供相關(guān)數(shù)據(jù)挖掘和檢索接口,,提供基礎(chǔ)平臺(tái)應(yīng)用系統(tǒng)移植支撐,,提供數(shù)據(jù)交互模塊接口;
4)與神通數(shù)據(jù)庫共同完成數(shù)據(jù)庫測試工作,。
5)與南大通用共同完成GBase8A數(shù)據(jù)庫測試工作,。
3.4某學(xué)院申威大數(shù)據(jù)平臺(tái)建設(shè)
該項(xiàng)目打造以申威大數(shù)據(jù)機(jī)和睿思操作系統(tǒng)為基礎(chǔ)平臺(tái),虛擬化和大數(shù)據(jù)處理技術(shù)為核心支撐的國防大數(shù)據(jù)信息融合平臺(tái),。國防作為對安全要求極高的行業(yè),,對龍芯、飛騰,、申威等基礎(chǔ)軟硬件尤為青睞。申威大數(shù)據(jù)一體化解決方案,,從硬件,、操作系統(tǒng)、大數(shù)據(jù)軟件,、虛擬化軟件,、應(yīng)用接口幾大部分均采用自研技術(shù),并融合安全中間件和安全數(shù)據(jù)庫,,為國防大數(shù)據(jù)建設(shè)新型信息化融合平臺(tái),。
為滿足某學(xué)院信息融合中心的信息化研制需求,需完成基礎(chǔ)環(huán)境、平臺(tái)應(yīng)用以及系統(tǒng)服務(wù)三個(gè)層次的建設(shè)工作,。其中,,平臺(tái)應(yīng)用層中核心應(yīng)用支撐環(huán)境是較為重要的環(huán)節(jié)之一,包含對基礎(chǔ)庫,、基礎(chǔ)中間件,、基礎(chǔ)開發(fā)運(yùn)行環(huán)境、基礎(chǔ)開發(fā)驅(qū)動(dòng)等系統(tǒng)軟件的融合搭建,。WFCloud大數(shù)據(jù)基礎(chǔ)平臺(tái),、WFCloud大數(shù)據(jù)內(nèi)存計(jì)算框架以及WFBase系統(tǒng)基于軟硬件基礎(chǔ)環(huán)境(申威服務(wù)器)進(jìn)行建立。結(jié)合國內(nèi)化先進(jìn)的云計(jì)算大數(shù)據(jù)架構(gòu),、技術(shù),,通過源碼重構(gòu)、軟件架構(gòu)重構(gòu),,形成了申威大數(shù)據(jù)平臺(tái)架構(gòu),,大致如圖所示。

操作系統(tǒng)依賴于硬件平臺(tái),,但又有其特殊性,。解決了開源Linux的移植、基礎(chǔ)庫移植,、驅(qū)動(dòng)的移植等問題,,然后技術(shù)人員進(jìn)行優(yōu)化適配。核心應(yīng)用支撐環(huán)境就是為了建立一個(gè)用戶反饋和技術(shù)人員優(yōu)化的一個(gè)一體化平臺(tái),。根據(jù)用戶對應(yīng)用的指標(biāo)需求,,結(jié)合操作系統(tǒng)開源基礎(chǔ)軟件的優(yōu)化,解決用戶使用的難題,。