&

11月

微信、微博數(shù)據(jù)這么多，如何從中挖掘潛在信息？ | CCF-ADL 87期

2010

社交網絡和數(shù)據(jù)挖掘是計算機學科相關研究中的熱點。

近年來，以微博、微信等為代表的在線社會媒體逐漸成為人們發(fā)布、傳播和獲取信息的主要媒介。在社交網絡中匯聚了大量的用戶關系數(shù)據(jù)和信息傳播數(shù)據(jù)，對社交網絡數(shù)據(jù)的研究和挖掘將為我們了解和研究人類社會、經濟、商業(yè)等的潛在規(guī)律提供極大的幫助。

那么在海量的社交網絡數(shù)據(jù)下面存在著什么樣的特點和規(guī)律呢？在線社交網絡的信息傳播與物理社交網絡的信息傳播有什么樣異同呢？如何挖掘社交網絡的數(shù)據(jù)以從中發(fā)現(xiàn)一些潛在的社會、經濟和商業(yè)規(guī)律呢？社交網絡和數(shù)據(jù)挖掘的前沿研究方向在哪里呢？

不管你是青年愛好者、計算機科學工作者，還是社會科學研究人員或者企事業(yè)單位的管理人員，對這些問題的探討和學習，都會對你的工作、學習、研究有極大的幫助。

12月22日-24日，由中國計算機學會（CCF）主辦的第87期CCF學科前沿講習班（CCF-ADL）將以《社交網絡和數(shù)據(jù)挖掘》為主題，邀請數(shù)位來自國內外該領域重量級的專家學者對這些問題做一系列主題報告。雷鋒網 (公眾號：雷鋒網) 作為全力合作媒體，也將到場聆聽大牛分享，并對講習班內容進行全程報道。

他們將對社交網絡和數(shù)據(jù)挖掘的基礎理論、關鍵技術方法以及當前熱點問題進行深入淺出的介紹，并對如何開展該領域前沿技術研究等進行探討，以及分享近幾年在在線社會媒體中的信息傳播預測方面的研究成果。相信與會者必然能夠從中了解到社交網絡和數(shù)據(jù)挖掘領域的重點和熱點，給自己的學習、研究和工作帶來新啟發(fā)。

（雷鋒網編者注：CCF-ADL系列開班以來，主題涉及深度學習、類腦計算、區(qū)塊鏈技術、城市計算、計算機視覺等各大領域，邀請了學術界、工業(yè)界包括微軟研究員鄭宇、360首席科學家顏水成、港科大楊強教授等，聚集產學研各界人士，給數(shù)千人分享了學術前沿成果和應用方法。 雷鋒網作為全力合作媒體，將對講習班進行深入報道，無法到達現(xiàn)場的同學，雷鋒網·AI慕課學院也會呈上已獲授權的 全網全力在線視頻（http://www.mooc.ai/course/307） 以供學習。

下面雷鋒網對課程內容作以簡要介紹，詳細內容請參閱AI慕課學院介紹。

特邀講者

Philip S. Yu：通過社交網絡信息融合的“Broad Learning”

Philip S. Yu，ACM/IEEE院士、美國伊利諾伊大學芝加哥分校特聘教授、清華大學軟件學院客座教授。

報告簡介：

在大數(shù)據(jù)時代，以各種格式存在的數(shù)據(jù)資源非常豐富。一種有意思的想法就是將這些不同格式的資源融合在一起，來協(xié)同挖掘數(shù)據(jù)背后的信息，這將比單一的數(shù)據(jù)資源獲得更多有價值的結果?！癇road Learning”正是這樣一種新型的學習任務。但BL在將不同的數(shù)據(jù)資源有效融合的過程中仍然存在著巨大的挑戰(zhàn)，這不僅取決于數(shù)據(jù)源的相關性，還取決于目標應用問題。在本次報告中，我們將探討如何融合社交網絡信息來改善各種應用場景中數(shù)據(jù)挖掘的效果。

唐杰：社會影響力與行為預測

唐杰，清華計算機系副教授、博導、CCF杰出會員、清華-工程院知識智能聯(lián)合實驗室主任。主持研發(fā)了研究者社會網絡挖掘系統(tǒng)AMiner，從億級文獻數(shù)據(jù)挖掘科技知識，吸引了220個國家/地區(qū)800多萬獨立IP訪問；核心技術應用于國家科技部、自然科學基金委、中國工程院、ACM、美國艾倫人工智能研究所、搜狗、阿里巴巴、騰訊等單位。

摘要：

社會網絡已經成為溝通真實物理世界和虛擬互聯(lián)空間的橋梁。我們在互聯(lián)網絡中的行為直接反映了我們在真實世界的活動和情感。我將介紹在大規(guī)模真實網絡中（如：微信、微博、Twitter、 AMiner等網絡）如何分析用戶之間的交互影響力和基于網絡拓撲的結構影響力，并基于影響力預測用戶行為。模型同時考慮了網絡結構、用戶屬性和網絡用戶的偏好。并設計了針對大規(guī)模網絡的并行學習算法。在實際真實在線社交系統(tǒng)中得到了驗證。

沈華偉：在線社交媒體中的信息傳播預測

沈華偉，博士，中國科學院計算技術研究所研究員，中國中文信息學會社會媒體處理專委會副主任。

摘要：

近年來，以微博、微信等為代表的在線社會媒體逐漸成為人們發(fā)布、傳播和獲取信息的主要媒介。社會媒體匯聚了大量的用戶關系數(shù)據(jù)和信息傳播數(shù)據(jù)，為分析和研究人類社會活動提供了彌足珍貴的數(shù)據(jù)資源。社會媒體中數(shù)據(jù)多源異構、個體間關系繁雜、信息傳播突發(fā)等特點給社會媒體分析提出了科學技術挑戰(zhàn)。分析社交網絡的結構規(guī)律、挖掘用戶行為的固有模式、探索網絡信息傳播的內在機理、研究高效的社交網絡分析與網絡信息傳播預測方法，有利于提升對在線社會媒體的科學認知水平和有效利用能力。報告將從網絡結構分析、網絡表達學習、網絡信息傳播預測等幾個方面介紹報告人近幾年在在線社會媒體中的信息傳播預測方面的研究成果。

宋國杰：社會網絡信息傳播影響最大化挖掘

宋國杰，北京大學信息科學技術學院副教授，智能交通系統(tǒng)研究中心副主任。

摘要：

網絡信息傳播挖掘研究是近年來社交網絡分析領域的熱點問題。報告將重點介紹兩方面的研究工作：傳播影響最大化（Influence Maximization）和網絡推斷（Network Inference）。前者主要研究在既定傳播模型下，如何高效尋找社交網絡中信息傳播影響力最大的Top-k節(jié)點集合，而后者則是在給定觀測到信息傳播級聯(lián)數(shù)據(jù)集的基礎上，推斷出隱藏的、不可直接觀測的社交網絡拓撲結構。報告將重點介紹這兩類工作的代表性研究成果，并對未來發(fā)展進行展望。

Wei Wang：動態(tài)網絡的系統(tǒng)建模

Wei Wang，加州大學洛杉磯分校計算機科學Leonard Kleinrock首席教授，ScAi研究所主任，NIH BD2K中央合作中心的聯(lián)合主任。

摘要：

含時網絡（Temporal networks，即在網絡中加入時間的成分）可以說是無處不在，因為眾多的應用程序（包括微信、微博、twitter等）主要就是以時間依賴的方式生成的網絡結構。近年來，在進化網絡分析領域已經有了大量的研究工作，例如異常檢車、鏈路預測、節(jié)點分類等。針對這些問題已經存在許多單獨的解決方案，但是要想更廣泛地解決類似的問題，我們需要考慮的是：我們是否可以直接把網絡結構描述成時間的一個函數(shù)？在不同的應用環(huán)境中使用網絡結構時，將其描述為時間的函數(shù)至關重要，因為這樣的描述可以捕獲非常豐富的關于底層網絡結構的信息。在報告中，我將展示動態(tài)網絡建模的一些困難以及我們的解決方案。

胡祥恩：語義表示和分析（SRA）以及潛在的應用

胡先根博士是孟菲斯大學（UOFM）心理學系，電氣與計算機工程與計算機科學系教授，UofM智能系統(tǒng)研究所（IIS）高級研究員，華中師范大學心理學院院長，UOFM高級分布式學習（ADL）合作實驗室主任，中國教育部青少年網絡心理與行為重點實驗室高級研究員。

摘要：

語義表示分析（SRA）是基于向量的語義分析的一般框架。在這個框架內，自然語言的語義以誘導語義結構的形式表示。 SRA在信息檢索、文本分析和智能輔導系統(tǒng)中有很大的應用。在這個講座中，我將會：1）介紹一個SRA的數(shù)學模型；2）介紹和展示一種生成個性化的、領域特定的、上下文敏感的語義表示的方法；3）介紹和展示作為局部學生模型的學習者特征曲線以及它在智能輔導系統(tǒng)中的應用。

石川：異質信息網絡建模與分析

石川，博士、北京郵電大學計算機學院教授、博士研究生導師、智能通信軟件與多媒體北京市重點實驗室副主任。

摘要：

當前的社會網絡分析主要針對同質網絡（即網絡中結點類型相同），但是現(xiàn)實世界中的網絡化數(shù)據(jù)通常包含不同類型的對象，并且對象之間的關聯(lián)表示不同的語義關系。構建異質信息網絡（即包含不同類型的結點或邊的網絡）可以包含更加完整的對象之間的關聯(lián)信息，因此分析這類網絡有希望挖掘更加準確的模式。本課題以異質信息網絡為對象，深入分析異質網絡的復雜結構和豐富語義對數(shù)據(jù)挖掘帶來的挑戰(zhàn)。本報告將介紹異質信息網絡的基本概念、特點、和分析方法，以及在實際問題中的應用。

崔鵬：網絡嵌入：在向量空間中啟用網絡分析和推理

崔鵬，清華大學副教授。

摘要：

現(xiàn)在，在應用當中出現(xiàn)越來越大的網絡，網絡數(shù)據(jù)也變得越來越具有復雜性和挑戰(zhàn)性。為了有效地處理圖譜數(shù)據(jù)，先進個關鍵的挑戰(zhàn)就是如何表示網絡數(shù)據(jù)，即如何正確表示網絡以便在時間和空間上高效地進行模式發(fā)現(xiàn)、分析、預測等高級分析任務。在這個報告中，我將回顧一下網絡嵌入的較新思想和研究成果。更具體地說就是，將討論網絡嵌入中的一系列基本問題，包括為什么需要重新考慮網絡表示，網絡嵌入的研究目標是什么，網絡嵌入如何學習以及網絡嵌入的主要未來方向。

劉知遠：語言表示學習與計算社會科學

劉知遠，清華大學計算機系助理教授。

摘要：

語言是人類交流的工具、人類文化的載體，是了解人類社會的重要視角。近年來隨著表示學習在自然語言處理中的應用，語言表示學習也為社會科學研究提供了全新的技術工具，特別是面向在線社會媒體的大規(guī)模用戶產生內容進行用戶和內容分析，具有很大優(yōu)勢。本報告將介紹語言表示學習技術在計算社會科學方面的較新動態(tài)，探討該方向的未來發(fā)展趨勢。

韓家煒：大規(guī)模語料庫的多維分析

韓家煒，ACM院士和IEEE院士，伊利諾伊大學厄巴納 - 香檳分校計算機科學系Abel Bliss教授。

摘要：

現(xiàn)實世界的大數(shù)據(jù)在很大程度上是以自然語言文本形式存在的非結構性的、相互關聯(lián)的數(shù)據(jù)。對于這樣的海量文本數(shù)據(jù)，從多維角度觀看和分析是非常理想的。不過這也提出了一個重大的挑戰(zhàn)，即如何將非結構化文本數(shù)據(jù)轉換為結構化文本然后在多維空間中去分析這些數(shù)據(jù)。為了促進這樣的分析，我們提出了一種文本立方體（textcube）建模方法，并討論了如何從大量文本語料庫構建這樣的立方體，以及如何使用這種文本立方體進行多維OLAP分析。在過去的幾年里，我們開發(fā)出一種文本挖掘方法，這種方法只需要遠程的或最小的監(jiān)督，而不是依靠大量數(shù)據(jù)。在這個報告中，我將展示：

（1）從海量文本數(shù)據(jù)中挖掘出高質量的短語；

（2）通過遠程監(jiān)督從海量文本數(shù)據(jù)中提取類型；

（3）通過元路徑定向模式發(fā)現(xiàn)實體、屬性和值；

（4）從大量的語料庫中構建分面分類法；

（5）從大量文本構建文本立方體；

（6）對這些立方體進行多維分析。

這里我們展示的范例——將大量的文本數(shù)據(jù)轉化為結構化和有用的知識——將是一個非常有希望的方向。

趙鑫：面向社交媒體平臺的商業(yè)數(shù)據(jù)挖掘

趙鑫，中國人民大學計算機副教授。

摘要：

隨著互聯(lián)網技術的不斷發(fā)展，各種社交媒體平臺都得到了廣泛的使用。社交網絡平臺中蘊含大量的用戶信息，包括用戶個人屬性信息（如年齡、性別等等）、用戶所發(fā)表的內容信息等等。如何充分利用社交媒體平臺的信息來加強用戶個性化建模，從而推動商業(yè)數(shù)據(jù)挖掘成了一個研究熱點。本次報告試圖系統(tǒng)梳理一些重要的商業(yè)大數(shù)據(jù)應用問題，如用戶意圖檢測、用戶畫像構建以及推薦算法等。

楊洋：移民的城市夢——上海移民融合

楊洋，浙江大學計算機科學與技術學院助理教授。

摘要：

前所未有的人類流動推動了全球高速的城市化進程。在中國，1978年至2012年間，城市人口居住比例從17.9％上升到52.6％。這種大規(guī)模的移民對政策制定者和研究人員來說既是重大的挑戰(zhàn)，又是重要的問題。在這個報告中，我將介紹我們對移民融合過程的研究。

具體而言，我們采用了上海一個月的電信元數(shù)據(jù)完整的數(shù)據(jù)集，其中擁有5400萬用戶和6.98億個通話記錄。我們發(fā)現(xiàn)本地人和移民在移動通信網絡和地理位置上存在有系統(tǒng)的差異。例如移民在定居后相比本地人會有更多的社會接觸，在城市中的移動半徑要大于本地人。通過區(qū)分新移民（最近移居上海）和定居的移民（在上海待了一段時間），我們發(fā)現(xiàn)了新移民在前三周的融合過程。此外，我們進一步調查了移民在先進周的行為，特別是他們的行為與最終提早離開之間的關系。我們發(fā)現(xiàn)最終離開的移民，在頭幾個星期往往都沒有發(fā)展處多樣性的聯(lián)系，也沒有在城市周圍移動；他們活動區(qū)域的住房價格也高于那些最終留下來的移民的住房價格。

學術主任：唐杰、劉知遠

時間：2017年12月22日-24日

地點：中科院計算所一層報告廳（北京市海淀區(qū)中關村科學院南路6號）

報名方式：

1）現(xiàn)場聽課：即日起至2017年12月20日，報名請 登錄 http://jinshuju.net/f/yxdpPx

2）線上聽課：點擊 報名鏈接 ，雷鋒網AI慕課學院已獲全力視頻授權，或者掃描下圖二維碼報名

雷鋒網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

標簽：微信微博營銷微博代運營微博

国人自拍av片_无码观看激情视频_欧美日韩不卡中文网_黑人大群XXXX

微信、微博數(shù)據(jù)這么多，如何從中挖掘潛在信息？ | CCF-ADL 87期