子計畫2:Content 2.0:以使用者為中心之網際網路多媒體數位內容 Content 2.0:User-Centric Internet Multimedia
一、摘要
在數位內容的生命週期中,如何方便地使用數位內容,並進行迅速的管理與有效的組織,是相當值得研究的主題。另外,目前的使用者介面尚無法根據環境與使用者的狀態主動進行調整。此外,網路使用者開始透過網站分享各種資訊的潮流,不僅改變了人際網路的特性與型態,更進一步地提供了發掘群體知識與社群資源的新機會。因此,本計畫『Content 2.0:以使用者為中心之網際網路多媒體數位內容』將依據以下各方向進行研究:
(A)
媒體計算(Multimedia Computing) - 從資料到知識
媒體計算將針對數位內容生命週期的每個階段
– 由取得,改良,分析到呈現 –設計出相關的理論與技術,以達到有效的媒體擷取,組織與利用功能。此外,還將開發有效的機器學習技術,作為相關研究的基礎。
(B)
專注計算(Attentive Computing)-
從被動使用者介面到主動使用者介面
專注計算將針對使用者的各種動作與狀態進行分析,取得可探知使用者身體狀況與情緒狀況的關鍵資訊,進而提昇使用者效率,提供符合使用者期待的資訊。我們的研究將著重於互動式多解析度顯示系統以及視線與動作偵測系統。
(C)
人際網路計算(Social Computing)- 從個人到社群
人際網路計算將著重於網際網路使用者與應用的三個面向 – 內容,內文以及社群,依據瀏覽,擷取,分析,探勘的階層架構進行研究。
二、重大突破
茲從本子計畫的諸多成果中列舉五項重大突破,簡介如下:
1、拼貼幻燈秀
拼貼幻燈秀係以拼貼的方式展示照片,並配合背景音樂的節拍進行播放。多張具相似特性的照片被妥善地安排於相同版面中進行播放。基於由科技寫作所啟發的靈感,每個版面都是由一張主題照片與多張修飾照片所組成。本幻燈秀系統由四個主要部份構成:照片前處理、影像群集、音樂分析以及版面配置。受限於展示的空間有限,我們考慮照片間的內容以及彼此的關係,並且將版面組織的轉變為一個條件最佳化的問題。與單張照片播放的幻燈秀比較,我們的方法更能帶給使用者愉悅的照片瀏覽經驗。

圖 2.1 拼貼幻燈秀
2、機器學習之相關研究
在2007年中,我們專注於大資料量的文件分類問題。我們主要研究如何利用支持向量機(SVM)的方法來處理大量的文件。現存的SVM軟體都是利用非線性的核心(先將資料轉換到高維度的空間,在於這個空間中找一個線性的分類函數)來解決分類問題。由於在文件分類問題中,每一個單字都用一個分量來代表其特徵值,可想而知特徵值的數量將和英文單字數量一樣多,所以沒有必要將原來的問題再轉換到高維度的空間。隨著網際網路上文件數量的增加,利用SVM有效率的解決文件分類問題是非常必要的。因此,我們研發了新的技術來處理大資料量的文件分類問題。為了解決在SVM中所用到的最佳化問題,我們提出並分析了利用截斷牛頓方法(truncated
Newton method)來解決最佳化問題。實驗證實我們提出的新方法比起常被使用的類牛頓方法(quasi Newton method)還要快了許多。我們主要的研究成果發表於2007年的
ICML(International Conference on Machine Learning, 機器學習領域最頂尖的研討會),而且還提供了我們所研發專門用來處理大資料量線性分類問題(不需將原始問題轉換到其他空間)的軟體套件(LIBLINEAR)於網路上供大家使用http://www.csie.ntu.edu.tw/~cjlin/liblinear。在2008年,我們將會繼續我們的研究,並改良LIBLINEAR軟體的效能。
3、快速位元反轉換演算法/可逆整數對整數轉換
我們提出了快速的bit及digit反轉換演算法。以往的反轉換主要是使用for迴圈一個一個計算,此演算法的不同之處在於使用了向量運算,因此可以更加地快速且簡潔。在計算時,我們還可以使用一個較小的反轉換表來加速運算,此方法在radix-2以及radix-4的快速傅利葉轉換中更加有用。另外,我們還提出了一個系統性的演算法,可以把任何3乘3之色彩轉換轉變為可逆的整數對整數轉換。除此之外,我們還討論了改善準確度及減少複雜度的方法,最後推導出RGB-to-KLA, IV1V2, YCrCb, DCT, UVW,
以及YIQ的整數對整數轉換。這些轉換可以達到理想的準確度
4、自動白平衡機制
真實世界中的色彩與物體之反射率及光源之照明息息相關。低色溫下之影像呈現紅蘊,而高色溫下之影像呈現藍蘊。然而,人眼之色彩恆常特性使其感受之物體顏色不因色溫而變。將此觀念應用於數位取像系統,則稱為自動白平衡技術。此技術對物體辨識、影像複製、數位照相及許多其它的應用關係重大。適當的白平衡會考慮光源之色溫並估測光源之彩度,以用來移除色偏,將影像還原成在標準照明下所見的顏色。Grey Word原理幾乎是所有白平衡技術之共同法則,但它的缺點在於碰到強勢顏色(即影像含均勻之大區塊)時,效能便大打折扣。在此項研究中,我們設計了一套解決方法。此方法之關鍵在於它只考慮影像中物體邊緣的像素並在照明估測過程中將可能之顏色限制為一個小區域。前者使我們能夠減低強勢顏色之像素數目,降低其對白平衡之影響,後者使我們能夠排除不適用之顏色,減少估計誤差。主觀性及客觀性之測試皆顯示這個方的確優於其他演算法。這份研究成果獲得2007年SPIE Visual Communication Image
Processing國際研討會之最佳學生論文獎。

圖 2.2 自動白平衡機制
5、意見追蹤技術
我們在部落格語料中,使用諸如支持向量機器 (SVM) 和條件式隨機域 (CRF) 等相關機器學習技術,來研究情緒分類的問題。部落格語料是由部落客在網路上共同產生的語料,它提供了大量具有情緒標記的資料,對於訓練與測試工作皆很有助益。我們的情緒分類器以句子為學習單位,並將之應用至文章上。首先,搭配模型擷取與情緒相關的語彙,以提供特徵集給後續的分類器。支持向量機器分類器與條件式隨機域分類器會利用這些特徵,為所有句子標定情緒類別。我們決定情緒的類別時,也考慮了語境發展的歷史。實驗顯示條件式隨機域分類器優於其他種類的分類器。當在文章層次上討論情緒分析的問題時,我們發現文章的最後一個句子在決定整篇文章所要表達的情緒上,扮演了重要的角色。同時,我們也在研究中討論新聞文章帶給讀者的情緒反應。我們的研究與其他人不同的地方在於,其他人是以作者的角度出發來為文章的情緒分類,而我們是以讀者的角度出發來討論文章的情緒分類。我們從各種特徵集的組合中找出最佳者,用以識別新聞文件對讀者情緒的影響。
三、研究成果
1、內容擷取/內容強化
我們設計了一套全新的攝影裝置,稱為可程式光圈相機,以擷取四維的光場(Light Field)資訊。此相機可以任意改變其光圈之形狀,利用多次曝光的技巧,來擷取完整的光場。雖然需要多次曝光,但我們利用了多路傳輸(Multiplexing)的方法來縮短擷取的時間。和先前的技術相比,可程式光圈相機擷取的光場,有非常高的影像解析度,與可調整的方向解析度。可程式光圈相機的製造方式比較方便,價錢比較低廉,並且可利用擷取的光場來達成數位對焦。

圖 2.3 可程式光圈相機
此外,本子計畫亦針對影像穩定技術加以研究,此研究之主要目的在於為非藉由腳架拍攝之影片降低因手部或其他因素造成的畫面晃動以及模糊效果,以達到較為平穩及舒適的影片。系統之輸入為一連續影片之影格,估計出影片之原攝影路徑後,再以區段直線 (polyline fitting) 的方式逼近原路徑,同時也檢測出影片中的移動物體 (moving object detection) 進而區隔出影片的動態
(dynamic region) 以及靜態區塊 (static region) 並且分頭進行填補 (video completion) 的工作。為了降低影片修補後的區塊不連續性,我們利用了
Poisson-based smoothing 的方式加以緩和此一現象。為了維持原來影片的品質,我們雖降低每個影格因晃動而造成的模糊現象,但最後輸出的穩定化影片之解析度與原本之影片相同。

圖 2.4 藉由影格畫面的移動以及畫面缺口填補的方式改善影片的晃動效果。
2、內容分析
在數位內容分析的相關研究中,我們設計了一套電視新聞瀏覽器。此系統可以自動辨識電視新聞的語音旁白,並且瞭解及分析新聞的內容。所有接收到的電視新聞將會被自動分類,依據主題建立主題樹,並自動製作出摘要,標題以及目錄。使用者將可以很方便地瀏覽感興趣的新聞,或搜尋想要知道的消息。

圖 2.5 電視新聞瀏覽器
人臉偵測是數位內容分析中的另一個重要研究議題,此研究的目的在於快速且正確地由影像中偵測出人臉的位置,其應用包括安全監控及相機之自動對焦等。我們的人臉偵測演算法基於機器學習演算法,並利用彩色資訊提升偵測的正確性。實驗顯示我們的方法比最廣為使用的Intel OpenCV人臉偵測模組更快(約為兩倍快)而且更正確,正臉偵測正確率在提升6%後達到98%,多視角人臉偵測正確率則提升了11%而達到94%。

圖 2.6 人臉偵測結果範例
整合檢索服務是網路資訊服務提供者積極規劃的資料檢索服務模式,這項服務可允許使用者隨選重要的網路資源。基本上,整合檢索可由三種方式達成,其一是透過通訊協定,其二是透過檢索技術,其三是透過物件管理。目前資訊服務提供者多數採用檢索技術;採用通訊協定者,如Z39.50與OAI等較少;應用物件管理的作法,相對比較少。採用檢索技術的服務者,常因資源擁有者的變動而無法持續,因此必須經常性的維護資訊檢索服務的URL列表,耗費大量人力成本;採用通訊協定的服務者,則無上述的問題,但僅能整合檢索使用相同通訊協定的資源。採用物件管理的服務者,必須付出較高的成本,但是卻可擁有完整的整合管理、整合檢索、智慧產權管理的功能。本研究探討以物件管理為基礎的整合檢索與管理機制,並提出一個低成本而高彈性的系統,<LIPS-DOI>,這樣的整合機制不僅可管理數位物件的詮釋資料,亦能展現「聯合目錄」的功能,讓使用者整合檢索各式異質性的數位資源與實體資源,讓網路資訊服務提供者整合管理各式異質性的數位資源與實體資源。

圖
2.7 <LIP-DOI>數位物件辨識碼系統
3、數位內容組織/呈現
我們發展了一個「3D魔幻水晶球」,讓使用者可以從水晶球中看到虛擬文物浮現在其中。使用者可以直接以雙手來轉動在水晶球中的虛擬文物,從不同的角度來欣賞,就像親手把玩真實的文物一般。此系統主要可以分成兩部分:顯示模組與偵測模組。顯示模組是由一個LCD顯示出想要投影的影像,影像經由鏡子反射以及特殊透鏡(Fresnel Lens)的折射,最終投影在透明的水晶球中。偵測模組則是由兩個紅外線攝影機及多個壓力感測器組成。經由紅外線攝影機擷取到的影像,我們分析使用者手部在水晶球上的運動方向,並應用於水晶球的操作。壓力感測器則是用來偵測使用者的手是否有碰觸到水晶球。「3D魔幻水晶球」提供了直覺的操作介面,使用者不必特別去記住某些特定的手勢。

圖2.8 3D魔幻水晶球
指觸輸入技術是近年最為熱門的互動方式之一,而微軟的Surface
Computer即是以此概念為基礎所開發出來的商務型互動桌面系統。我們所發展的i-m-Top指觸顯微桌,不僅提供了直覺的指觸輸入,更進一步設計了符合人類視覺系統特性的投影方式。人類的視覺系統,具有雙重解析度的特性。在眼睛關注的區域會取得較高解析度的影像,以便進行精細的工作;反之在周圍的區域,則只需要低解析度即可達到預期的效果。根據此視覺特性,我們在桌面的局部區域提供高解析度的投影,而在周圍的區域則提供標準的解析度。以這樣的方式,i-m-Top能夠以更符合有成本效益的方式來提供一個高解析度的互動桌面工作環境。
 
圖
2.9 運用指觸顯微桌所提供的多重解析度功能來從事地圖導覽
利用身體作為憑藉是人類進行遊戲時最原始且最自然的方式。我們以這個概念為基礎,希望能設計出最簡單的遊戲互動介面,讓身體成為遙控器。我們利用影像處理技術,研發出一種針對人體形狀辨識的演算法,可以利用攝影機及時判斷使用者的現在的姿勢,因此使用者只需使用四肢,改變身體姿勢就可輸入命令。與Wii不同之處在於,我們的裝置不需任何遙控器或配件在使用者身上,而且我們是針對人體作為判別,所以更能達到體感互動的意義。
 
圖2.10 3D跳舞機
規律飲水對健康非常重要,為協助養成良好飲水習慣,我們發展了一個系統提醒使用者維持規律且充足的飲水。此系統採用一個智慧型飲水杯,透過感測技術來偵測使用者有無喝水及其飲水量,另使用數位像框顯示一幅動態圖畫,當使用者長時間未喝水時,系統就會提高動態圖畫的風速,讓圖畫中的水波、船隻及數目有較劇烈的搖動,以提醒使用者喝水。藉由此系統,使用者得以在愉悅有趣的環境中建立良好飲水習慣,維護身體健康。

圖
2.11 名畫多喝水
四、重要論文
期刊論文
l
L. Bottou and C.-J. Lin. Support Vector Machine
Solvers. In Large Scale Kernel Machines, Léon Bottou, Olivier Chapelle, Dennis
DeCoste, and Jason Weston editors, 1-28, MIT Press, Cambridge, MA., 2007.
l
C.-J. Lin. On the Convergence of Multiplicative
Update Algorithms for Non-negative Matrix Factorization. IEEE Transactions on
Neural Networks, 18(2007), 1589-1596.
l
C.-J. Lin. Projected gradient methods for
non-negative matrix factorization. Neural Computation, 19(2007), 2756-2779.
l
H.-T. Lin, C.-J. Lin, and R. C. Weng. A note on
Platt's probabilistic outputs for support vector machines. Machine Learning,
68(2007), 267-276.
l
Yong-Sheng Chen, Yi-Ping Hung, Ting-Fang Yen,
Chiou-Shann Fuh, “Fast and Versatile Algorithm for Nearest Neighbor Search
Based on a Lower Bound Tree,” Pattern Recognition, Vol. 40, Issue 2, pp.
360-375, 2007.
l
“Odd Ramanujan sums of complex roots of unity”, by
S. C. Pei, and K.W. Chang, IEEE Signal Processing Letters, Jan 2007.
l
“Efficient bit and digital reversal algorithm
using vector calculation”, by S. C. Pei, and K.W. Chang, IEEE Trans on Signal
Processing, Feb 2007.
l
“Generally dimensional and constellation expansion
free space-time block codes for QAM with full diversity”, by M. Y. Chen, C.Y.
Chen, H. C. Li, S. C. Pei, and H. J. Su, IEEE Trans on Information Theory, Feb
2007.
l
H. H. Chen, C.-K. Liang, Y.-C. Peng, and H.-A.
Chang, “Integration of digital stabilizer with video codec for digital video
cameras,” IEEE Trans. Circuits Syst. Video Technol., vol. 17, no. 7, 801-813,
Jul. 2007
l
P.-H. Wu and H. H. Chen, “Frame-layer
constant-quality rate control of regions of interest for multiple encoders with
single video source,” IEEE Trans. Circuits Syst. Video Technol., vol. 17, no.
7, 857-867, Jul. 2007
l
H.-A. Chang and H. H. Chen, “Stochastic color
interpolation for digital cameras,” IEEE Trans. Circuits Syst. Video Technol.,
vol. 17, no. 8, Aug. 2007
l
Lun-Wei Ku and Hsin-Hsi Chen (2007). “Mining
Opinions from the Web: Beyond Relevance Retrieval.” Journal of American Society
for Information Science and Technology.
l
June-Jei Kuo and Hsin-Hsi Chen (2007). “Cross
Document Event Clustering Using Knowledge Mining from Co-Reference Chains.”
Information Processing and Management, 43(2), 327-343.
l
Wen-Cheng Lin, Yih-Chen Chang and Hsin-Hsi Chen
(2007). “Integrating Textual and Visual Information for Cross-Language Image
Retrieval: A Trans-Media Dictionary Approach.” Information Processing and
Management, 43(2), 488-502.
l
Wei-ta Chu,
Jun-Cheng Chen and Ja-Ling Wu, “Tiling Slideshow: An Audiovisual Presentation
Method for Customer Photos,” IEEE Multimedia, pp 36-45, Jan. 2007
l
Yu-Pao Tsai, Cheng-Hung
Ko, Yi-Ping Hung, and Zen-Chung Shih, “Background Removal of Multi-View Images
by Learning Shape Priors,” IEEE
Trans. on Image Processing, Vol.16 ,No.10, pp. 2607-2616, 2007.
l
Cheng-Chieh
Chiang, Li-Wei Chan, Yi-Ping Hung, and Greg C. Lee, "Content-Based Object
Movie Retrieval and Relevance Feedbacks", EURASIP Journal on Advances
Signal Processing, Special Issue on Search and Retrieval of 3D Content and
Associated Knowledge: Extraction and Propagation, Vol. 2007, Article ID 89691,
9 pages.
l
Yu-Ting Chen, Chu-Song
Chen, C. R. Huang, and Yi-Ping Hung, "Efficient Hierarchical Method for
Background Subtraction," Pattern Recognition, Vol. 40, No. 10,
pp. 2706-2715, Oct. 2007.
l
Cheng-Chieh Chiang, Yi-Ping Hung, and Greg C. Lee,
"A Learning State Space Model for Image
Retrieval", EURASIP Journal on Advances Signal Processing, Special Issue
on Knowledge-Assisted Media Analysis for Interactive Multimedia Applications,
Vol. 2007. Article ID 83526, 10 pages
l
Yong-Sheng Chen,
Yi-Ping Hung, Ting-Fang Yen, Chiou-Shann Fuh, “Fast and Versatile Algorithm for
Nearest Neighbor Search Based on a Lower Bound Tree,” Pattern Recognition, Vol.
40, Issue 2, pp. 360-375, 2007.
會議論文
l
"Video search reranking through random walk
over document-level context graph," Winston H. Hsu, Lyndon S. Kennedy and
Shih-Fu Chang, ACM Multimedia 2007.
l
C.-J. Lin, R. C. Weng, and S. S. Keerthi. Trust
region Newton
method for large-scale logistic regression, ICML 2007.
l
C.-K. Liang, G. Liu, and H. H. Chen, "Light
Field Acquisition using Programmable Aperture Camera," in Proc. ICIP'07,
San Antonio, Texas, Sept. 16-19, 2007, vol. 5, pp. 233-236
l
Y.-H. Kao, C.-K. Liang, L.-W. Chang, and H. H.
Chen, "Depth Detection of Light Field," in Proc. ICASSP'07, Honolulu,
Hawaii, USA, April 16-20, 2007, vol. 1, pp. 893-897.
l
Chih-Jen Lin and Ruby C. Weng and S. Sathiya
Keerthi, Trust region Newton method for large-scale logistic regression,
Proceedings of the Twenty Fourth International Conference on Machine Learning
(ICML), 2007
l
Ming-Feng Tsai, Tie-Yan Liu, Hsin-Hsi Chen, and
Wei-Ying Ma (2007). “FRank: A Ranking Method with Fidelity Loss.” Proceedings
of 30th Annual International ACM SIGIR Conference, 23-27 July, 2007, Amsterdam, Netherland.
l
Kevin Hsin-Yih Lin, Changhua Yang and Hsin-Hsi
Chen (2007). “What Emotions Do News Articles Trigger in Their Readers?”
Proceedings of 30th Annual International ACM SIGIR Conference, poster, 23-27
July, 2007, Amsterdam,
Netherland.
l
Lun-Wei Ku, Yong-Sheng Lo and Hsin-Hsi Chen
(2007). “Test Collection Selection and Gold Standard Generation for a
Multiply-Annotated Opinion Corpus.” Proceedings of 45th Annual Meeting of
Association for Computational Linguistics, poster, June 23rd-30th, 2007, Prague, Czech
Republic, 89-92.
l
Changhua Yang, Kevin Hsin-Yih Lin and
Hsin-Hsi Chen (2007). “Building Emotion Lexicon from Weblog Corpora.”
Proceedings of 45th Annual Meeting of Association for Computational
Linguistics, poster, June 23rd-30th, 2007, Prague, Czech Republic, 133-136.
|