【開班時間】
11月15-17日
【學(xué)習(xí)地點(diǎn)】
北京
【培訓(xùn)重點(diǎn)】
1. 數(shù)據(jù)分析實(shí)戰(zhàn);
2. 數(shù)據(jù)挖掘理論及核心技術(shù);
3. 大數(shù)據(jù)算法原理及案例實(shí)現(xiàn);
4. Python應(yīng)用實(shí)戰(zhàn)。
【 培訓(xùn)特色】
1.理論與實(shí)踐相結(jié)合、案例分析與行業(yè)應(yīng)用穿插進(jìn)行;
2.專家精彩內(nèi)容解析、學(xué)員專題討論、分組研究;
3.通過全面知識理解、專題技能和實(shí)踐結(jié)合的授課方式。
【日程安排】
時間知識模塊授課內(nèi)容
第 一天
上午數(shù)據(jù)分析實(shí)戰(zhàn)第 一講零基礎(chǔ)學(xué)Python
講解Python背景、國內(nèi)發(fā)展?fàn)顩r、基礎(chǔ)語法、數(shù)據(jù)結(jié)構(gòu)及繪圖操作等內(nèi)容。特別針對向量計算這塊,著重介紹Python在這方面的優(yōu)勢及用法。
第二講數(shù)據(jù)分析方法論
講解統(tǒng)計分析基礎(chǔ),包括統(tǒng)計學(xué)基本概念,假設(shè)檢驗,置信區(qū)間等基礎(chǔ),并結(jié)合數(shù)據(jù)案例說明其使用場景和運(yùn)用方法。介紹數(shù)據(jù)分析流程和常見分析思路,并結(jié)合案例進(jìn)行講解。
第三講數(shù)據(jù)處理技法
從數(shù)據(jù)接入、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)轉(zhuǎn)換等幾個方面進(jìn)行講解。數(shù)據(jù)接入包含接入MySQL、Oracle、Hadoop等常見數(shù)據(jù)庫操作;數(shù)據(jù)統(tǒng)計包含Pandas包的具體用法和講解;數(shù)據(jù)轉(zhuǎn)換包含對數(shù)據(jù)集的關(guān)聯(lián)、合并、重塑等操作。此外,針對海量數(shù)據(jù)的情況下,介紹在Spark平臺上的數(shù)據(jù)處理技術(shù),并結(jié)合真實(shí)環(huán)境進(jìn)行操作講解。
第 一天
下午數(shù)據(jù)挖掘理論及核心技術(shù)第四講認(rèn)識數(shù)據(jù)挖掘
講解數(shù)據(jù)挖掘基本概念,細(xì)致講解業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型部署各環(huán)節(jié)的工作內(nèi)容及相關(guān)技術(shù);結(jié)合業(yè)界經(jīng)典場景,講解數(shù)據(jù)挖掘的實(shí)施流程和方法體系。
第五講數(shù)據(jù)挖掘核心技術(shù)
細(xì)致講解抽樣、分區(qū)、樣本平衡、特征選擇、訓(xùn)練模型、評估模型等數(shù)據(jù)挖掘核心技術(shù)原理,并結(jié)合案例講解其具體實(shí)現(xiàn)和用法。尤其針對樣本平衡,重點(diǎn)講解人工合成、代價敏感等算法;針對特征選擇,重點(diǎn)講解特征選擇的核心思路,并結(jié)合Python進(jìn)行案例演示。
第二天
上午大數(shù)據(jù)算法原理及案例實(shí)現(xiàn)(1)
第六講特征降維算法及Python實(shí)現(xiàn)
降維是大數(shù)據(jù)分析非常重要的算法,它可以在降低極少信息量的情況下,極大地縮小數(shù)據(jù)規(guī)模。主要講解主成分、LDA以及t-SNE原理,并結(jié)合案例進(jìn)行Python實(shí)現(xiàn)。特別地,針對海量數(shù)據(jù)情況下的應(yīng)用場景,講解實(shí)現(xiàn)思路和Python案例。
第七講決策樹算法及Python實(shí)現(xiàn)
決策樹是非常經(jīng)典的算法,一般常見于小數(shù)據(jù)的挖掘。由于決策樹具有極強(qiáng)的可解釋性,針對海量數(shù)據(jù)仍然是非常重要的實(shí)用價值。主要講解ID3、C4.5、C5.0以及CART決策樹算法的實(shí)現(xiàn)原理,并結(jié)合案例進(jìn)行Python實(shí)現(xiàn)。
第八講基于乳腺癌數(shù)據(jù)進(jìn)行降維分析并建立分類模型
實(shí)戰(zhàn)部分:基于乳腺癌數(shù)據(jù)進(jìn)行降維處理,并嘗試建立分類評估模型。旨在通過該模型,并潛在的乳腺癌患者進(jìn)行識別。
第二天
下午大數(shù)據(jù)算法原理及案例實(shí)現(xiàn)
(2)第九講因果推理算法及Python實(shí)現(xiàn)
大數(shù)據(jù)分析技術(shù)可以幫助我們?nèi)グl(fā)現(xiàn)、解決一些業(yè)務(wù)問題,然而如何去判斷我們的改進(jìn)是否生效,是否在業(yè)務(wù)指標(biāo)上呈現(xiàn)過一定的因果邏輯,則是一個重要問題和分析方向。本節(jié)主要介紹因果推理算法,包括貝葉斯推理、狀態(tài)空間模型以及CausalImpact工具等內(nèi)容,并結(jié)合案例進(jìn)行Python實(shí)現(xiàn)。
第十講深度學(xué)習(xí)算法及Python實(shí)現(xiàn)
對于大數(shù)據(jù)的建模任務(wù),我們可以基于深度學(xué)習(xí)來實(shí)現(xiàn),不僅能夠針對海量數(shù)據(jù)進(jìn)行建模,其效果也非常不錯。本節(jié)主要講解深度學(xué)習(xí)的發(fā)展歷程,DBN、DNN等經(jīng)典深度學(xué)習(xí)算法,深度學(xué)習(xí)優(yōu)化算法以及一些技巧。同時,介紹Keras庫的使用方法,并結(jié)合案例進(jìn)行Python實(shí)現(xiàn)。
第十一講Lending Club信貸違約分析案例
實(shí)戰(zhàn)部分:基于Lending Club信貸違約數(shù)據(jù),嘗試從多個不同的維度進(jìn)行數(shù)據(jù)分析,旨在發(fā)現(xiàn)一些有價值的信息,同時基于該數(shù)據(jù),經(jīng)過一定的處理,建立信貸違約識別模型,旨在對信貸業(yè)務(wù)辦理提供模型支持,降低違約風(fēng)險。
第三天
上午Python應(yīng)用實(shí)戰(zhàn)(一)
第十二講Python自然語言處理原理及案例
目前文檔數(shù)據(jù)已經(jīng)成為很多企業(yè)重要的資產(chǎn),通過對文檔數(shù)據(jù)進(jìn)行解析、建模、分析、挖掘、可視化,我們能夠發(fā)現(xiàn)不一樣的洞察。本節(jié)主要講解自然語言處理基本概念和技法,包含分詞、關(guān)鍵字提取、文摘提取、文本分類、主題模型、word2vec等內(nèi)容。介紹在深度學(xué)習(xí)的加持下,與傳統(tǒng)做法的區(qū)別,并使用Python進(jìn)行案例講解。
第十三講數(shù)據(jù)分析圖表及Python案例
數(shù)據(jù)可視化是大數(shù)據(jù)分析的重要手段,通過合理地使用圖表,不僅可以簡潔地表達(dá)數(shù)據(jù)的含義,高效地發(fā)現(xiàn)問題,還可以為報告的編寫以及數(shù)據(jù)分析web應(yīng)用增色不少。本節(jié)主要講解常用的數(shù)據(jù)分析圖表及其使用場景,介紹數(shù)據(jù)可視化的方法論,避免生搬硬套的使用圖表,針對不同的業(yè)務(wù)場景和需求,合理選擇可視化方法。介紹的工具不限于matplotlib、pycha、pyecharts、ggplot、Bokeh、HoloViews、mpld3、plotly、pygal等常用可視化庫。
第三天
下午Python應(yīng)用實(shí)戰(zhàn)(二)
第十四講使用Notebook編寫數(shù)據(jù)分析報告
數(shù)據(jù)分析報告在大數(shù)據(jù)分析過程中具有重要價值,它體現(xiàn)了大數(shù)據(jù)分析的目的、過程和結(jié)果,以及對發(fā)現(xiàn)問題的解讀、改進(jìn)方案等等,本節(jié)主要講解使用Notebook編寫數(shù)據(jù)分析報告的具體方法,以及編寫數(shù)據(jù)分析報告的方法論,并結(jié)合案例講解其用法。
第十五講Dash可視化開發(fā)實(shí)戰(zhàn)
Dash是一款不錯的框架,可以基于Dash快速開發(fā)一個輕量級的數(shù)據(jù)分析web應(yīng)用。在網(wǎng)頁中嵌入圖表、數(shù)據(jù)以及分析的算法,非常適合打造企業(yè)內(nèi)部的敏捷數(shù)據(jù)分析工具集。本節(jié)主要介紹Dash的UI、Server、Reactivity、控件等內(nèi)容,同時講解一個用Dash實(shí)現(xiàn)數(shù)據(jù)分析功能(兼圖表)的實(shí)際案例,搭建服務(wù)器,在企業(yè)內(nèi)部實(shí)現(xiàn)輕量級數(shù)據(jù)分析應(yīng)用。
第四天學(xué)習(xí)考核與業(yè)內(nèi)經(jīng)驗交流
【授課專家】
游老師 計算機(jī)碩士,大數(shù)據(jù)分析、挖掘、可視化專家,高級培訓(xùn)講師,曾服務(wù)于華為技術(shù)有限公司等多家企業(yè),專注于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、大數(shù)據(jù)、知識圖譜等領(lǐng)域的研究、設(shè)計與實(shí)現(xiàn),在互聯(lián)網(wǎng)、電信、電力、軍工等行業(yè)具有豐富的工程實(shí)踐經(jīng)驗,對空間分析、欺詐檢測、廣告反作弊、推薦系統(tǒng)、客戶畫像、客戶營銷建模、知識抽取、智能問答、可視化分析、預(yù)測分析、系統(tǒng)架構(gòu)、大數(shù)據(jù)端到端解決方案等方面具有深刻理解,多次作為Python語言會議重要嘉賓出席會議并發(fā)表主題演講,著有《R語言預(yù)測實(shí)戰(zhàn)》等多本書籍。
王老師 某集團(tuán)上市公司數(shù)據(jù)分析部負(fù)責(zé)人,主要利用Python語言進(jìn)行大數(shù)據(jù)的挖掘和可視化工作。從事數(shù)據(jù)挖掘建模工作已有10年,曾經(jīng)從事過咨詢、電商、金融、電購、電力、游戲等行業(yè),了解不同領(lǐng)域的數(shù)據(jù)特點(diǎn)。有豐富的利用R語言進(jìn)行數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗,部分研究成果曾獲得國家專利。
俞老師 計算機(jī)博士,目前主要研究方向包括電子推薦、智能決策和大數(shù)據(jù)分析等。主持國家自然科學(xué)基金2項、中國博士后科研基金、上海市浦江人才、IBM Shared University Research以及多項企業(yè)合作課題等項目。已在《管理科學(xué)學(xué)報》、《系統(tǒng)工程學(xué)報》、Knowledge and Information Systems ,Information Processing & Management,Information Systems Frontiers等國內(nèi)外刊物和學(xué)術(shù)會議發(fā)表論文90多篇,其中被SCI、EI收錄40多篇。出版著作和教材《智能化的流程管理》、《客戶智能》、《商務(wù)智能(第四版)》、《商務(wù)智能數(shù)據(jù)分析的管理視角(第三版)》、《數(shù)據(jù)挖掘?qū)嵱冒咐返榷嗖俊?/p>
劉老師 10多年的IT領(lǐng)域相關(guān)技術(shù)研究和項目開發(fā)工作,在長期軟件領(lǐng)域工作過程中,對軟件企業(yè)運(yùn)作模式有深入研究,熟悉軟件質(zhì)量**標(biāo)準(zhǔn)ISO9003和軟件過程改進(jìn)模型CMM/CMMI,在具體項目實(shí)施過程中總結(jié)經(jīng)驗,有深刻認(rèn)識。通曉多種軟件設(shè)計和開發(fā)工具。對軟件開發(fā)整個流程非常熟悉,能根據(jù)項目特點(diǎn)定制具體軟件過程,并進(jìn)行項目管理和監(jiān)控,有很強(qiáng)的軟件項目組織管理能力。對C/C++ 、HTML 5、python、Hadoop、java、java EE、android、IOS、大數(shù)據(jù)、云計算有比較深入的理解和應(yīng)用,具有較強(qiáng)的移動互聯(lián)網(wǎng)應(yīng)用需求分析和系統(tǒng)設(shè)計能力,熟悉Android框架、IOS框架等技術(shù),了解各種設(shè)計模式,能在具體項目中靈活運(yùn)用。
【學(xué)校介紹】