環(huán)境監(jiān)測:“高冷”大數(shù)據(jù)開始“接地氣”
為落實黨中央和國務院對生態(tài)環(huán)境監(jiān)測大數(shù)據(jù)的要求,助推環(huán)境管理轉型,近期,環(huán)境保護部行政體制與人事司主辦了大數(shù)據(jù)與環(huán)境管理轉型專題培訓班。
“這次培訓的可貴之處在于,這是環(huán)境保護部第一次以先進信息化理念為主要培訓內(nèi)容的專題培訓班。”環(huán)境保護部信息中心主任程春明表示。
培訓班的規(guī)模之大也前所未有,基本覆蓋了環(huán)境保護部、省環(huán)境保護廳(局)、市級環(huán)保局三級環(huán)保系統(tǒng),F(xiàn)場參加培訓的有環(huán)境保護部機關各司局級、處級以上干部、在京各部直屬單位主要負責人。全國各。ㄗ灾螀^(qū)、直轄市)環(huán)保廳(局)工作人員、部機關其他工作人員則通過遠程視頻會議系統(tǒng)設置的45個分會場,以及內(nèi)網(wǎng)共171個視頻會議終端同步觀看了視頻直播。據(jù)統(tǒng)計,培訓人數(shù)多達4850人。
主辦方邀請的主講嘉賓也都是重量級專家,中國科學院虛擬經(jīng)濟與數(shù)據(jù)科學研究中心常務副主任石勇,曾從事中國人民銀行個人信用評分研究、實時信用卡審批系統(tǒng)研發(fā)等;阿里巴巴副總裁涂子沛是著名的信息管理專家,著作《大數(shù)據(jù)》、《數(shù)據(jù)之巔》成為我國研究大數(shù)據(jù)的標桿;微軟亞洲研究院主管研究員鄭宇是多家高校的客座教授,提出了“城市計算”理論并獲得國內(nèi)外多個獎項。此外,清華大學軟件學院副院長王建民、百度總編輯趙承、IBM中國研究院研發(fā)總監(jiān)尹文君也都是大數(shù)據(jù)領域的資深專家。
專家們的精彩講座令聽眾大開眼界,不少上午因業(yè)務未能參加的人,聞聽反應熱烈,下午紛紛擠時間趕來參加。許多聽眾表示,大數(shù)據(jù)培訓不僅開闊了思路,也化解了平時工作的迷茫。
大數(shù)據(jù)應用要避免哪些誤區(qū)?
大數(shù)據(jù)冠以“大”字,極容易讓人誤以為大數(shù)據(jù)是要窮盡全部的數(shù)據(jù),方能破解難題。
●大數(shù)據(jù)不只是“大”和“全”
石勇坦言道,很多人確實認為大數(shù)據(jù)時代就是要研究數(shù)據(jù)整體,數(shù)據(jù)量越大越好,某些著作也不乏這樣的誤導。他解釋說,大數(shù)據(jù)條件下,既要全數(shù)據(jù),也需要樣本數(shù)據(jù),不能有了全體,就拋棄樣本。
“沒有經(jīng)過機器學習的模型和算法就不能發(fā)揮預測作用。”石勇說,任何大數(shù)據(jù)都不能違背機器學習的過程,具有預測作用的模型都是機器學習的結果。并且開發(fā)一項應用可能同時有很多算法和模型,機器學習成為挑選最優(yōu)算法和模型關鍵。
而這一切都依賴于樣本,模型和算法需要通過樣本進行學習,從而具有可推廣型和預測性。如在1000個全樣本中挑取300個進行機器學習,將結果推廣到另外700個樣本中,驗證模型和算法。同時,大數(shù)據(jù)中抽取的樣本普適性更強。
鄭宇強調說,不能盲目迷信大數(shù)據(jù)。數(shù)據(jù)并不是種類越多、數(shù)量越大,模型效果就越好。他認為,不同數(shù)據(jù)代表的含義不一樣,不能把所有的數(shù)據(jù)放到“黑盒子”里進行計算,納入模型計算的每一類數(shù)據(jù)都要經(jīng)過驗證,對數(shù)據(jù)進行有機融合才能發(fā)揮1+1>2的效果,否則既浪費計算資源,也影響模型和算法的性能。
鄭宇提出了3條驗證數(shù)據(jù)相關性的途徑,一要靠前人的經(jīng)驗和知識進行判斷,二要對數(shù)據(jù)相關性做可視化分析,三要用實踐證明數(shù)據(jù)與目標的相關性。
●大數(shù)據(jù)不只是發(fā)現(xiàn)相關性
大數(shù)據(jù)時代最重要的一點是,可以將碎片化的、看似毫無關聯(lián)、只反映某個方面表面現(xiàn)象的信息進行關聯(lián)分析,從而發(fā)現(xiàn)彼此之間的聯(lián)系,為決策提供參考。
但石勇認為發(fā)現(xiàn)數(shù)據(jù)之間的相關性還不夠,還要通過相關性研究數(shù)據(jù)之間的因果性和必然性,實現(xiàn)大數(shù)據(jù)的預測功能,為決策服務,這才是大數(shù)據(jù)魅力所在。
鄭宇也認為,大數(shù)據(jù)的魅力就在于通過不確定加不確定,形成確定性的結果,從而形成決策指導實踐。
微軟配合環(huán)保部門開發(fā)的城市局地大氣主要污染物時空分布大數(shù)據(jù)模型——U-Air,正是將各種不確定的數(shù)據(jù)融合在一起,產(chǎn)生了確定性的結果。U-Air可以預測任何時段任何地點1km×1km的空氣質量,準確率已經(jīng)超越傳統(tǒng)模型。
大數(shù)據(jù)怎么助推信息經(jīng)濟?
后互聯(lián)網(wǎng)時代,數(shù)據(jù)經(jīng)濟為代表的信息經(jīng)濟已經(jīng)初露端倪。涂子沛認為誰擁有數(shù)據(jù),誰就將擁有金山,誰使用好數(shù)據(jù),誰就會脫穎而出。
●大數(shù)據(jù)提升效率
涂子沛認為信息經(jīng)濟的首要表現(xiàn)是大數(shù)據(jù)引發(fā)的效率革命。
滴滴快車正是大數(shù)據(jù)時代下信息經(jīng)濟的典型應用。滴滴快車通過整合司機和公眾的供求信息,為雙方提供更加對稱的信息,達到了一石三鳥的效果,道路行車效率提高,司機收入增加,公眾需求得到滿足。據(jù)介紹,用了滴滴快的等打車軟件,司機的平均收入增加了約三分之一。
石勇則提到實時信用卡審批系統(tǒng),5秒鐘就可以辦一張信用卡,怎么實現(xiàn)的呢?申辦人的信息輸入個人信用系統(tǒng)后,系統(tǒng)可以在成千上萬的信息中搜索跟申請人相似的信息,通過類比,系統(tǒng)對申請者的貸款申請做出同意或拒絕的決策。如果申請人的貸款申請通過了,系統(tǒng)還會給出建議信貸額度。
石勇表示,現(xiàn)代社會高效率運作只有大數(shù)據(jù)可以實現(xiàn),這在以往完全是無法想象的。
●大數(shù)據(jù)催生眾包眾籌
大數(shù)據(jù)不僅帶來了效率革命,而且?guī)砹诵碌馁Y源和藍海。移動互聯(lián)網(wǎng)帶來的公眾大數(shù)據(jù),是大數(shù)據(jù)的新藍海。
涂子沛舉例道,華爾街日報要把129年的紙質報紙電子化,但是由于報紙年代久遠,掃描的準確率非常低。如果用人工打字,日夜兼程也需要將近48年的時間。恰巧,當時校驗碼的研發(fā)者發(fā)現(xiàn),校驗碼一天有幾億次的應用。于是,他們將報紙掃描后,分割成一個一個的校驗碼,運用公眾的力量完成報紙的電子化工作。原理是,如果3~4人輸入同樣的內(nèi)容,就顯示內(nèi)容識別正確,之后再通過軟件將正確識別的驗證碼整合起來,僅用24個月就完成了所有報紙的電子化。華爾街日報正是通過眾包的方式,借助大眾的力量,低成本、高效率地完成了報紙電子化。
具體到環(huán)保領域,涂子沛認為未來政府可以充當“接單員”的角色,借助市場和公眾的力量參與環(huán)境保護,開展環(huán)境管理工作。貴州就已經(jīng)開始應用隨手拍,市民對污染信息拍照后可以直接上傳到政府部門,政府可以根據(jù)公眾的舉報進行處理,這樣有利于形成全民參與環(huán)保的局面。
此外,大數(shù)據(jù)時代還可以調動公眾、企業(yè)、環(huán)保組織等社會資源,共同挖掘數(shù)據(jù),為環(huán)境管理貢獻力量。原來僅靠環(huán)保部門一家完成的事情,現(xiàn)在可以由整個社會一起分擔,真正實現(xiàn)環(huán)境管理的眾包眾籌。
大數(shù)據(jù)應用需要哪些先決條件?
大數(shù)據(jù)是現(xiàn)代經(jīng)濟的助推器,但是大數(shù)據(jù)的實現(xiàn)還需要整個社會做好準備。
●數(shù)據(jù)整合
石勇認為,大數(shù)據(jù)系統(tǒng)和模型開發(fā)過程中,數(shù)據(jù)的篩選和整理是大數(shù)據(jù)非常重要和關鍵的環(huán)節(jié),但過程是非常繁復的浩大工程,比如中國人民銀行個人信用評分研究中,要梳理480個參數(shù)、八億五千萬個數(shù)據(jù),數(shù)據(jù)處理工作就長達一年多;中國金融期貨交易所項目,為從歷史交易數(shù)據(jù)中挖掘出對結算會員風險預測,數(shù)據(jù)的收集和整理也花費了半年多時間。
石勇將數(shù)據(jù)挖掘分為6個步驟,其中第二、第三步都是有關數(shù)據(jù)收集和整合工作。首先要對數(shù)據(jù)進行篩選,嚴格要求進入模型的數(shù)據(jù),避免就是垃圾數(shù)據(jù),數(shù)據(jù)模型中最忌諱“零”,可能導致模型清空;其次,要對篩選的數(shù)據(jù)進行統(tǒng)計計算、回歸分析等預處理工作。
“大數(shù)據(jù)建設的前提就是要對數(shù)據(jù)整理和整合,數(shù)據(jù)不整合就沒有力量。”石勇表示,同樣,環(huán)保部門數(shù)據(jù)的整理和整合也是環(huán)保大數(shù)據(jù)的第一步。
●數(shù)據(jù)開放
與數(shù)據(jù)整合同樣重要的是數(shù)據(jù)開放,數(shù)據(jù)只有開放、有價值才能成為共享的大數(shù)據(jù)。上世紀80年代立法后,美國的企業(yè)開始開放數(shù)據(jù),90年代企業(yè)的排放量就下降了50%。
涂子沛認為數(shù)據(jù)開放其實是一種管理社會的手段,開放數(shù)據(jù)是政府與社會實現(xiàn)共治的紐帶。政府可以利用數(shù)據(jù)實現(xiàn)管理,規(guī)范數(shù)據(jù)開放范圍,并且可以將數(shù)據(jù)變?yōu)閮r值,有償供應一些數(shù)據(jù)。
數(shù)據(jù)資源的開放也為環(huán)境管理實現(xiàn)眾籌提供了條件,社會有很多可以幫助環(huán)保部門共治的資源。通過開放數(shù)據(jù),公民、環(huán)保組織、高校、研究所等機構便可以開展更多的數(shù)據(jù)挖掘工作,為環(huán)境管理提供多種解決方案。
![使用微信“掃一掃”功能添加“谷騰環(huán)保網(wǎng)”](http://www.m.tanger168.cn/gtech_pic/images/images/qrcode_for_gh_7f21ccef0be4_430.jpg)
使用微信“掃一掃”功能添加“谷騰環(huán)保網(wǎng)”