??介紹可視化
??什么是可視化
將非視覺的數(shù)據(jù)通過某種映射的方式(生成圖像)串聯(lián)視覺表達(dá),生成可讀可識別的結(jié)果,幫助用戶高效地完成一些目標(biāo)。
??科學(xué)可視化,信息可視化,可視分析系統(tǒng)三者之間有什么區(qū)別??
- 科學(xué)可視化側(cè)重于使用計(jì)算機(jī)圖形學(xué)來創(chuàng)建視覺圖像,主要關(guān)注三維現(xiàn)象(具有天然幾何結(jié)構(gòu)的數(shù)據(jù))的可視化,如建筑學(xué)、氣象學(xué)、醫(yī)學(xué)或生物學(xué)方面的各種系統(tǒng),重點(diǎn)在于對體、面以及光源等等的逼真渲染,目的是以圖形方式說明科學(xué)數(shù)據(jù),這有助于理解科學(xué)概念或結(jié)果的復(fù)雜、通常是大規(guī)模的數(shù)字表示。
- 信息可視化是通過使用交互式可視化界面來傳達(dá)抽象數(shù)據(jù)。抽象數(shù)據(jù)包括數(shù)字和非數(shù)字?jǐn)?shù)據(jù)(抽象數(shù)據(jù)結(jié)構(gòu),如樹狀結(jié)構(gòu)或者圖形),如地理信息與文本,柱狀圖、趨勢圖、流程圖、樹狀圖等,這些圖形的設(shè)計(jì)都將抽象的概念轉(zhuǎn)化成為可視化信息。
- 可視分析是通過可視化交互界面促進(jìn)的分析推理科學(xué),主要挖掘數(shù)據(jù)背景的問題與原因,尤其關(guān)注推理和分析。
- 信息可視化與科學(xué)可視化的主要區(qū)別首先是:
- 科學(xué)可視化通常是觀察基于物理的、有幾何屬性的數(shù)據(jù),而信息可視化則用來顯示各式各樣的抽象數(shù)據(jù);
- 其次,科學(xué)可視化的用戶多是高層次的專業(yè)工作者,而信息可視化的用戶則主要是非技術(shù)人員。要為難以形象表達(dá)的抽象數(shù)據(jù)設(shè)計(jì)更加容易理解的表現(xiàn)形式,使信息可視化面臨更大的挑戰(zhàn)。
- 信息可視化的可視化目的和科學(xué)可視化不同。
- 科學(xué)可視化的目的要求是真實(shí)地反映,要求忠實(shí)地“直譯”。
- 而信息可視化的可視化目的則是要從大量抽象數(shù)據(jù)中發(fā)現(xiàn)一些新的信息,它不僅僅使簡單的反映,而且要求能夠創(chuàng)造性地反映,能夠把隱藏在可視化對象深處或可視化對象之間的信息挖掘出來,它是一種知識和價(jià)值創(chuàng)造的過程,且信息可視化主要是通過使用交互式可視化界面來進(jìn)行抽象數(shù)據(jù)的交流。
??可視化的基本流程
(說不清楚,直接畫圖)
??可視化的兩個(gè)基本設(shè)計(jì)原則
- 簡單性 (Simplicity):簡單性是可視化設(shè)計(jì)的核心原則。它要求保持信息的簡潔性和清晰性,以避免混淆和信息過載。
- 一致性 (Consistency): 一致性要求在可視化中使用一致的設(shè)計(jì)元素和規(guī)則,以創(chuàng)建統(tǒng)一的用戶體驗(yàn)。
??數(shù)據(jù)屬性
-
Nominal
:標(biāo)簽類數(shù)據(jù),比如男女,蘋果、香蕉這些。 -
Ordered
:等級、排序。 -
Interval
:日期、坐標(biāo)這種,沒有0臨界。 -
Ratio
:計(jì)數(shù),有0臨界,比如沒有-4個(gè)人,–100歲。
??可視化的基本圖表??
-
定性數(shù)據(jù)繪制
- 條形圖(Bar Chart):顯示每個(gè)類別的計(jì)數(shù)或相對頻率。
- 餅圖(Pie Chart):顯示每個(gè)類別中整體的比例。
-
盒須圖(Boxplot):箱線圖是5-number summary(Minimum、Q1、median、Q3、maximum)的圖形顯示。
-
特點(diǎn):可以反應(yīng)原始數(shù)據(jù) 分布的特征,即可以從圖中看出上邊緣、下邊緣、中位數(shù)、兩個(gè)四分位數(shù)以及離群點(diǎn),能提供有關(guān)數(shù)據(jù)位置和分散情況的關(guān)鍵信息。
-
構(gòu)造步驟
- 構(gòu)建一個(gè)以Q1和Q3作為頭和尾的箱子,在箱子內(nèi)部用橫線標(biāo)上中位數(shù)。(Q1和Q3的計(jì)算方法:數(shù)據(jù)分成一半后,兩部分再分別求中位數(shù)就是Q1和Q3。如1、2、3、4、5、6:Q1就是2,Q3就是5。如22 25 34 35 41 41 46 46 46 47 49 54 54 59 60:Q1就是(35+41)/2=38,Q3就是(49+54)/2=51.5,注意這里算數(shù)據(jù)分成一半后的中位數(shù)是要把整體數(shù)據(jù)的中位數(shù)也算進(jìn)去)
- 找出fences(fences),fence由1.5*IQR(
interquartile range (IQR) = Q3 –Q1
)來決定,upper fences是在高于上四分位點(diǎn)1.5IQR的位置,lower fence是在低于下四分位點(diǎn)1.5IQR的位置。注意,fence只用于輔助構(gòu)建箱型圖,并不實(shí)際出現(xiàn)在箱型圖中(upper fence和lower fence會出現(xiàn))。 - 確定極大值極小值,從第一步構(gòu)建的箱子的兩端畫線到極值。
- 用特殊符號表示超出上下限的數(shù)據(jù)離群值,且有時(shí)使用不同的符號表示距離四分位數(shù)超過 3 個(gè) IQR 的“遠(yuǎn)異常值”
-
-
定量數(shù)據(jù)繪制
- 直方圖(Histogram):頻率分布直方圖。
- 莖葉圖(stem and leaf display)
??可視化編碼
??視覺編碼
- 視覺編碼是將數(shù)據(jù)映射到視覺變量的過程,不同的數(shù)據(jù)類型需要采用不同的編碼方式來有效地傳達(dá)信息。
- 視覺圖元/標(biāo)記(mark):點(diǎn)、線、面。
- 視覺通道(channel):位置、大小、形狀、顏色、方向、紋理。
-
Position、 Length、 Color Hue、 Shape 對于quantitative、nominal、ordinal三種數(shù)據(jù)的可視編碼有效性排序??:
-
Quantitative
: Position Length Color Hue shape -
Nominal
: Position Color Hue Length shape -
Ordinal
: Position Color Hue Shape Length
-
多維數(shù)據(jù)
??基本圖表??
-
雷達(dá)圖/星圖(Radar Plot / Star Graph):顯示多個(gè)定量變量的圖表。
- 優(yōu)點(diǎn):
- 可以同時(shí)展示多個(gè)變量,方便比較不同類別或?qū)ο笤谶@些變量上的性能;
- 可以用來評估一個(gè)實(shí)體在多個(gè)維度上的平衡性或一致性;
- 易于通過疊加多個(gè)雷達(dá)圖來比較不同實(shí)體或組之間的差異。
- 缺點(diǎn):
- 當(dāng)變量數(shù)量過多時(shí),雷達(dá)圖會變得雜亂且難以閱讀;
- 對于相隔較遠(yuǎn)的軸,比較就變得比較困難;
- 變量的值需要經(jīng)過適當(dāng)?shù)臍w一化或標(biāo)準(zhǔn)化處理,否則直接比較可能沒有意義。
- 優(yōu)點(diǎn):
-
平行坐標(biāo)系(Parallel Coordinates):由一組平行的軸構(gòu)成,每個(gè)軸代表數(shù)據(jù)集中的一個(gè)維度,并且所有軸之間等距排列。數(shù)據(jù)點(diǎn)在平行坐標(biāo)系中通過一系列連線表示,每根連線表示數(shù)據(jù)集中的一個(gè)記錄,而連線在每個(gè)軸上的位置則對應(yīng)那條記錄在該維度上的值。
- 優(yōu)點(diǎn):
- 可以揭示不同維度之間的關(guān)系,適用于高維數(shù)據(jù)集;
- 通過觀察數(shù)據(jù)點(diǎn)的趨勢線,可以識別變量之間的關(guān)系和潛在的數(shù)據(jù)模式。
- 缺點(diǎn):
- 過于密集的線條可能會造成視覺上的混亂;
- 軸線的排序會影響可視化的可讀性和解釋性。
- 優(yōu)點(diǎn):
-
散點(diǎn)圖(Scatterplot Matrix(SPLOM)):顯示多維數(shù)據(jù)集中各維度之間的變量兩兩關(guān)系的圖形表示方法。在一個(gè)矩形的網(wǎng)格中排列散點(diǎn)圖,網(wǎng)格的行數(shù)和列數(shù)等于選定變量的數(shù)量。網(wǎng)格的每一行和每一列對應(yīng)數(shù)據(jù)集的一個(gè)特定變量。對于網(wǎng)格中的每個(gè)單元格來說,橫軸是該單元格所在列對應(yīng)的變量,縱軸是該單元格所在行對應(yīng)的變量。在對角線位置(橫縱軸變量相同的位置),通常顯示軸變量的單變量分布。
- 優(yōu)點(diǎn):
- 可以揭示出多個(gè)維度的變量兩兩之間的相關(guān)性和模式;
- 可以幫助識別數(shù)據(jù)中的異常值或異常點(diǎn);
- 對角線可用于顯示各個(gè)變量自身的分布。
- 缺點(diǎn):
- 當(dāng)變量的數(shù)量非常多時(shí),散點(diǎn)圖矩陣也可能變得非常復(fù)雜并難以解讀;
- 繪制散點(diǎn)圖矩陣可能需要大量計(jì)算資源;
- 只能顯示兩個(gè)變量之間的關(guān)系,不能直接表示多個(gè)變量之間的交互作用。
- 優(yōu)點(diǎn):
??圖形感知
- 圖形感知是可視化設(shè)計(jì)中非常重要的一個(gè)方面,它指的是人們對于不同圖形屬性的感知能力。在可視化設(shè)計(jì)中,利用圖形感知的原理可以幫助我們更好地傳達(dá)信息,提高用戶對數(shù)據(jù)的理解和分析能力。
??前注意力機(jī)制
- 前注意力機(jī)制指的是人們在觀察圖像或圖形時(shí)的注意力集中。在可視化設(shè)計(jì)中,我們可以通過設(shè)計(jì)突出性的元素或使用色彩對比等方式來引起用戶的前注意力。這有助于用戶更快地獲取信息并準(zhǔn)確理解數(shù)據(jù)。
??格式塔學(xué)說
-
接近性:相互靠近的元素被認(rèn)為是一個(gè)群組,與其他元素區(qū)分開。例如,在一個(gè)散點(diǎn)圖中,如果在相同的區(qū)域內(nèi)有多個(gè)點(diǎn),我們會將它們視為一組并與其他點(diǎn)分開。
-
相似性:具有相似特征的元素往往被認(rèn)為是一組。例如,在一個(gè)柱狀圖中,具有相同顏色或形狀的柱子被視為一組并傳達(dá)同樣的信息。
-
連通性:連通性超過了接近度、大小、顏色形狀。
-
連續(xù)性:在視覺上連續(xù)的元素往往被認(rèn)為是一組。例如,一條連續(xù)的曲線通常表示一條數(shù)據(jù)趨勢,而離散的點(diǎn)通常表示單獨(dú)的數(shù)據(jù)點(diǎn)。
-
封閉性:具有邊緣或形狀的閉合元素往往被認(rèn)為是一個(gè)整體。例如,一個(gè)有邊界的面積圖形表示一個(gè)特定的數(shù)據(jù)集,而沒有邊界的散點(diǎn)圖表示一系列獨(dú)立的數(shù)據(jù)點(diǎn)。
-
對稱性
-
簡單性:人們更容易理解簡單、直觀的形狀和圖形。例如,在可視化設(shè)計(jì)中,簡單的線條、圖標(biāo)和圖形通常比復(fù)雜的圖形更易于理解和解釋。
??變化盲視
- 變化盲視是指人們在觀察連續(xù)變化的圖形時(shí),可能會忽視其中的細(xì)微變化。在可視化設(shè)計(jì)中,我們需要注意這一現(xiàn)象,避免在數(shù)據(jù)變化時(shí)導(dǎo)致用戶錯(cuò)失重要信息。設(shè)計(jì)中可以使用動(dòng)畫或其他方式來突出變化,幫助用戶更好地感知和理解數(shù)據(jù)。
??顏色感知
- 顏色感知的基本流程
??顏色生成和顏色優(yōu)化
-
顏色生成(Color Generation)
- Palettailor:分類數(shù)據(jù)的可區(qū)分著色。
- 多類散點(diǎn)圖的交互式上下文保留顏色高亮顯示。
-
顏色優(yōu)化(Color Optimization)
- 優(yōu)化顏色分配,以感知多類散點(diǎn)圖中的類可分離性。
- 數(shù)據(jù)驅(qū)動(dòng)的顏色圖調(diào)整,用于探索標(biāo)量場的空間變化。
- 區(qū)別:前者關(guān)注的是根據(jù)數(shù)據(jù)和可視化的需求來創(chuàng)建和分配新的色彩方案,后者關(guān)注的是改進(jìn)和調(diào)節(jié)現(xiàn)有色彩的使用;
??可視化評估
??Edward Tufte設(shè)計(jì)準(zhǔn)則??
-
圖形完整性(Graphical Integrity):確保圖表能夠準(zhǔn)確地傳達(dá)數(shù)據(jù)的信息,不夸大或歪曲數(shù)據(jù)。
- 圖形應(yīng)當(dāng)包含所有必要的標(biāo)簽和軸來消除圖形失真和歧義;
- 圖形應(yīng)當(dāng)使用一致的比例;
- 圖形中的樣本大小應(yīng)當(dāng)對結(jié)果具有代表性或權(quán)重;
- 數(shù)字的表示應(yīng)與測量的數(shù)值成正比。
-
謊言因子(The lie factor):避免使用圖表中的元素尺寸或位置比例不準(zhǔn)確地傳達(dá)數(shù)據(jù)。
- 用來衡量圖形中存在的數(shù)值誤導(dǎo)或誤導(dǎo)程度的指標(biāo),通過比較圖形中視覺元素(如長度、面積等)的變化與對應(yīng)數(shù)據(jù)的實(shí)際變化之間的比例來計(jì)算的。
- 用來衡量圖形中存在的數(shù)值誤導(dǎo)或誤導(dǎo)程度的指標(biāo),通過比較圖形中視覺元素(如長度、面積等)的變化與對應(yīng)數(shù)據(jù)的實(shí)際變化之間的比例來計(jì)算的。
-
數(shù)據(jù)墨水筆(data-ink):最大化數(shù)據(jù)墨水的使用,即減少非必要的圖形元素,使得數(shù)據(jù)更突出。
- 刪除或最小化不必要的裝飾性元素,如背景圖案、陰影、邊框等,使圖形更加簡潔、精確地傳達(dá)數(shù)據(jù)信息。
- 兩個(gè)擦除原則:在合理范圍內(nèi)擦除非數(shù)據(jù)墨跡;擦除冗余數(shù)據(jù)墨跡。
-
五大原則:
- 最重要的是顯示數(shù)據(jù);
- 最大限度地提高數(shù)據(jù)墨水比;
- 擦除非數(shù)據(jù)墨跡;
- 擦除冗余數(shù)據(jù)墨跡;
- 修改和編輯。
-
圖表雜亂(Chart Junk):避免在圖表中添加無意義的裝飾元素,保持簡潔性和清晰性。
- 指的是圖表中那些多余、無意義或過度裝飾的元素,比如網(wǎng)格、陰影、3D效果、過多的裝飾線條、繁瑣的圖例等。
- 指的是圖表中那些多余、無意義或過度裝飾的元素,比如網(wǎng)格、陰影、3D效果、過多的裝飾線條、繁瑣的圖例等。
- 使用bar chart需要數(shù)據(jù)有零值線。
- 使用line chart主要比較的是數(shù)據(jù)的趨勢或是線條與水平線的角度。
??餅圖、彩虹顏色表、3D圖表的評價(jià)
-
餅圖
- 適用場景:適用于顯示數(shù)據(jù)類別較少的數(shù)據(jù)部分和整體的關(guān)系。
- 優(yōu)點(diǎn):
- 直觀地以圖形方式表現(xiàn)出每個(gè)部分與總體的大小關(guān)系;
- 構(gòu)造簡單,節(jié)省空間;
- 利用不同的顏色來區(qū)分?jǐn)?shù)據(jù)的不同類別,增強(qiáng)視覺效果。
- 缺點(diǎn):
- 當(dāng)數(shù)據(jù)點(diǎn)過多或者數(shù)據(jù)差異不明顯時(shí),表現(xiàn)力很差;
- 在比較各個(gè)部分之間的細(xì)微差別時(shí)效果不佳;
- 無法用來展現(xiàn)數(shù)據(jù)的時(shí)間變化或趨勢;
- 對于同一個(gè)數(shù)據(jù)集,通過調(diào)整數(shù)據(jù)的順序或方式,可能會導(dǎo)致誤導(dǎo)。
-
彩虹顏色表:將數(shù)據(jù)映射到一系列連續(xù)色彩變化的顏色表。
- 適用場景:適用于顯示分類數(shù)據(jù),有序類別或數(shù)值數(shù)據(jù)以及具有中點(diǎn)意義的數(shù)值數(shù)據(jù)。
- 優(yōu)點(diǎn):
- 提供明亮多彩的視覺效果,可以吸引注意力;
- 可以區(qū)分?jǐn)?shù)據(jù)的不同范圍,尤其是在色帶變化明顯的地方;
- 能夠利用顏色的多樣性表現(xiàn)廣泛的數(shù)據(jù)范圍。
-
缺點(diǎn):
- 色調(diào)變化在感知上并不均勻,某些顏色(如黃色或青色)在視覺上跳躍比其它顏色(如藍(lán)色或紅色)更顯著,可能誤導(dǎo)數(shù)據(jù)的解讀;
- 由于色帶變化不一致,低對比度的區(qū)域可能會隱藏?cái)?shù)據(jù)中的重要特征。
- 人們對用顏色表示的極端數(shù)據(jù)缺乏感知
- 低亮度顏色(藍(lán)色)可能會隱藏高頻值
-
3D圖表
- 適用場景:適用于展示物理空間、體積或者三維關(guān)系的數(shù)據(jù)(如建筑設(shè)計(jì)圖、分子結(jié)構(gòu)模型等)。
- 優(yōu)點(diǎn):對于某些數(shù)據(jù)集(例如體積、地形或其他空間關(guān)系的數(shù)據(jù)),有助于直觀理解其結(jié)構(gòu)。
- 缺點(diǎn):視覺失真可能導(dǎo)致誤讀數(shù)據(jù),精確值難以讀取。
??高維數(shù)據(jù)可視化??
??為什么要降維
- 高維數(shù)據(jù)難以可視化;
- 排除不重要的特征,從而提高模型的效率和準(zhǔn)確性;
- 降維,可以降低計(jì)算復(fù)雜度;
- 降維可以選擇最具代表性的特征來減少相關(guān)性或冗余性。
??多維尺度分析(Multidimensional Scaling/MDS)
-
主要思想:
- 通過計(jì)算數(shù)據(jù)點(diǎn)之間的距離矩陣,并嘗試在低維空間中重新構(gòu)建數(shù)據(jù)點(diǎn)之間的距離矩陣。
- 具體來說,MDS算法首先計(jì)算原始數(shù)據(jù)點(diǎn)之間的距離,然后通過優(yōu)化算法在低維空間中找到合適的投影,使得在低維空間中的距離與原始距離最接近。
- 即以距離為標(biāo)準(zhǔn),將高維坐標(biāo)中的點(diǎn)投影到低維空間中,保持點(diǎn)彼此之間的相似性盡可能不變。
優(yōu)點(diǎn) 缺點(diǎn) 不需要先驗(yàn)知識,計(jì)算簡單; 如果用戶對觀測對象有一定的先驗(yàn)知識,掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對處理過程進(jìn)行干預(yù),可能會得不到預(yù)期的效果。 保留了數(shù)據(jù)在原始空間的相對關(guān)系,可視化效果比較好。 各個(gè)維度的地位相同,無法區(qū)分不同維度的重要性。
??主成分分析(Principal Component Analysis/PCA)
-
主要思想:
- 使用特征值分解來尋找數(shù)據(jù)中具有最大方差的主成分。PCA將高維數(shù)據(jù)通過線性變換映射到低維空間,并保留了最重要的特征。
- 即:找到能讓數(shù)據(jù)降維后數(shù)據(jù)間的方差最大的軸,將數(shù)據(jù)線性的投影到該軸上,投影后的特征稱為主成分。
-
流程:PCA算法首先創(chuàng)建一個(gè)數(shù)據(jù)矩陣,然后通過減去均值來將數(shù)據(jù)中心化。接下來,它計(jì)算數(shù)據(jù)的協(xié)方差矩陣,并找到該矩陣的特征向量和特征值。最后,PCA算法根據(jù)特征向量將數(shù)據(jù)映射到新的低維空間。
優(yōu)點(diǎn) 缺點(diǎn) 使得數(shù)據(jù)集更易使用; 如果用戶對觀測對象有一定的先驗(yàn)知識,掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對處理過程進(jìn)行干預(yù),可能會得不到預(yù)期的效果,效率也不高; 正交算法,降低算法的計(jì)算開銷,速度快; 降維后數(shù)據(jù)的鄰域點(diǎn)與原來空間中的鄰域點(diǎn)可能不同; 去除噪聲; 特征值分解有一些局限性,比如變換的矩陣必須是方陣; 使得結(jié)果容易理解;完全無參數(shù)限制。 在非高斯分布情況下,PCA方法得出的主元可能并不是最優(yōu)的。
??SNE
-
基本思想:SNE算法的基本思想是通過最小化KL散度來在低維空間中表示高維數(shù)據(jù)的相似性,通過仿射變換將數(shù)據(jù)點(diǎn)映射到概率分布上。
-
主要步驟:SNE構(gòu)建一個(gè)高維對象之間的概率分布,使得相似的對象有更高的概率被選擇,而不相似的對象有較低的概率被選擇;SNE在低維空間里在構(gòu)建這些點(diǎn)的概率分布,使得這兩個(gè)概率分布之間盡可能的相似。
優(yōu)點(diǎn) 缺點(diǎn) 能較好地保持高維數(shù)據(jù)的局部結(jié)構(gòu); 計(jì)算開銷大; 適合于揭示高維空間中緊密聚集數(shù)據(jù)的聚類結(jié)構(gòu)。 對算法超參數(shù)敏感; 改變了MDS中基于距離不變的思想,將高維映射到低維的同時(shí),盡量保證相互之間的分布概率不變。 可能受到擁擠問題影響,導(dǎo)致不同的數(shù)據(jù)點(diǎn)在低維空間堆疊。 -
擁擠問題:由于沒有考慮不同類間的間隔,因此會導(dǎo)致結(jié)果比較擁擠。各個(gè)簇聚集在一起,無法區(qū)分。 擁擠問題就是說降維后各個(gè)簇聚集在一起,無法區(qū)分。比如有一種情況,高維度數(shù)據(jù)可以分開,降維到低維就分不開了,MDS和SNE都存在。
- PCA是線性降維,MDS是非線性的,PCA和MDS都是global,TSNE是非線性且local的方法。
- MDS和SNE都有擁堵問題,降維中怎么解決擁堵問題——T-SNE通過將SNE中低維空間的高斯分布轉(zhuǎn)換為t分布來解決。
??T-SNE
-
基本思想:將數(shù)據(jù)點(diǎn)之間的相似度轉(zhuǎn)化為條件概率,原始空間中數(shù)據(jù)點(diǎn)的相似度由高斯聯(lián)合分布表示,嵌入空間中數(shù)據(jù)點(diǎn)的相似度由t分布表示。將高維空間中的數(shù)據(jù)映射到低維空間中,并保留數(shù)據(jù)集的局部特性。
-
相比SNE主要改動(dòng):使用對稱版的SNE,簡化梯度公式; 低維空間下,使用
t分布
替代高斯分布表達(dá)兩點(diǎn)之間的相似度。優(yōu)點(diǎn) 缺點(diǎn) 能在不同規(guī)模數(shù)據(jù)集下展現(xiàn)高維數(shù)據(jù)點(diǎn)的聚類; 速度慢,占用內(nèi)存; 可以減輕擁擠問題。 沒有唯一最優(yōu)解,且沒有預(yù)估部分。
-
t-SNE
VSPCA
- 目標(biāo)函數(shù):t-SNE 的目標(biāo)是保留數(shù)據(jù)點(diǎn)之間的相似關(guān)系,強(qiáng)調(diào)保持局部結(jié)構(gòu),而不強(qiáng)調(diào)保持全局結(jié)構(gòu)。PCA 的目標(biāo)是通過線性變換找到投影方向,使得數(shù)據(jù)在各個(gè)主成分上的方差最大化。
- 非線性映射:t-SNE 使用非線性映射,可以更好地處理非線性關(guān)系,能夠?qū)⒏呔S空間的復(fù)雜結(jié)構(gòu)映射到低維空間。PCA 使用線性映射,只能捕捉到數(shù)據(jù)中的線性相關(guān)性。
- 數(shù)據(jù)量:t-SNE 在處理大規(guī)模數(shù)據(jù)集時(shí)比較耗時(shí),計(jì)算復(fù)雜度較高。PCA具有快速計(jì)算線性變換的優(yōu)勢,在處理大規(guī)模數(shù)據(jù)時(shí)更高效。
- 數(shù)據(jù)顯示:t-SNE 在降維后往往保留了數(shù)據(jù)中的局部結(jié)構(gòu),更適合展示數(shù)據(jù)的類別聚類等局部特征。PCA 則更適合于捕捉整體的線性相關(guān)性。
- 總結(jié)來說,t-SNE 算法通過非線性映射將高維數(shù)據(jù)映射到低維空間,并保留數(shù)據(jù)之間的相似性關(guān)系,強(qiáng)調(diào)保持局部結(jié)構(gòu)。與之相比,PCA 算法使用線性映射來找到投影方向,最大化數(shù)據(jù)在主成分上的方差,并更適合于捕捉整體的線性相關(guān)性。
??層次可視化
??樹可視化
??節(jié)點(diǎn)鏈接式
- 節(jié)點(diǎn)分布在空間中,通過直線或曲線連接,用二維空間分解廣度和深度,空間用來表達(dá)等級取向。容易造成深度或?qū)挾壬系闹笖?shù)增長。
- 適用場景:適用于分支結(jié)構(gòu)比各個(gè)節(jié)點(diǎn)具體值更重要以及層次結(jié)構(gòu)和分支關(guān)系較為明確的樹。
- 優(yōu)點(diǎn):直觀地呈現(xiàn)樹的父子關(guān)系、層次結(jié)構(gòu)和分支關(guān)系。
-
缺點(diǎn):
- 樹的規(guī)模較大時(shí),容易產(chǎn)生混亂的交叉連接線,導(dǎo)致可視化效果不佳;
- 難以編碼多個(gè)變量的數(shù)據(jù)情況;
- 大量節(jié)點(diǎn)聚集在屏幕的局部范圍,屏幕空間的利用率底下。
- Tidy layout:讓兄弟節(jié)點(diǎn)之間保持等距,父節(jié)點(diǎn)位于其子節(jié)點(diǎn)的中軸線上。
-
文件目錄樹
- 優(yōu)點(diǎn):使用縮進(jìn)來表現(xiàn)文件的目錄結(jié)構(gòu),用戶使用折疊和展開操作,可以快速地對文件結(jié)構(gòu)進(jìn)行瀏覽并定位文件的位置。
- 缺點(diǎn):
- 可擴(kuò)展性不高:文件目錄較多時(shí),一次只能顯示一部分,常常需要大量的滾動(dòng),給文件定位帶來困難。
- 廣度和深度爭奪空間,且常常因過多文件名擠占空間無法顯示。
- 應(yīng)用: 常用場景是文件目錄結(jié)構(gòu)
??空間填充式
- 適用場景:適用于需要緊湊地顯示樹形結(jié)構(gòu),并強(qiáng)調(diào)節(jié)點(diǎn)大小關(guān)系的場景。例如,展示各個(gè)類別銷售額占比的樹圖。
-
優(yōu)點(diǎn):
- 能夠更好地利用空間,降低視覺混亂的可能性;
- 擅長表示包含與從屬的關(guān)系。
-
缺點(diǎn):
- 不太直觀地顯示樹的分支結(jié)構(gòu)和層次關(guān)系;
- 不太適合展示大量詳細(xì)信息,如節(jié)點(diǎn)的屬性或標(biāo)簽。
-
treemap??
- 是一種空間填充表示,每一項(xiàng)所占面積表示了節(jié)點(diǎn)大小,每個(gè)子樹用一個(gè)矩形表示,該矩形被劃分為與子樹相對應(yīng)的小矩形。對于每個(gè)孩子遞歸重復(fù)切片,將切片方向從垂直方向轉(zhuǎn)換為水平方向或相反方向。使用區(qū)域編碼數(shù)據(jù)項(xiàng)的其他變量。
- 基本步驟:
- 定義一個(gè)矩形區(qū)域作為根節(jié)點(diǎn)。
- 計(jì)算根節(jié)點(diǎn)內(nèi)每個(gè)項(xiàng)目的面積。
- 根據(jù)項(xiàng)目的面積比例,在根節(jié)點(diǎn)內(nèi)按比例劃分新的矩形子區(qū)域,并將項(xiàng)目填充到相應(yīng)的子區(qū)域中。
- 遞歸地對每個(gè)子區(qū)域重復(fù)步驟2和步驟3,直到所有項(xiàng)目都被安排在矩形區(qū)域內(nèi)。
- 優(yōu)點(diǎn):
- 提供整個(gè)樹的單一視圖更容易發(fā)現(xiàn)大/小節(jié)點(diǎn);
- 很好的表示節(jié)點(diǎn)鏈接之外的兩個(gè)屬性:color和area;
- 可以較好的表示樹的大小屬性和淺層次;
- 樹狀圖更適用于組級比較;
- 易于實(shí)現(xiàn)和理解,可應(yīng)用于大量項(xiàng)目。
- 缺點(diǎn):
- 難以準(zhǔn)確讀取結(jié)構(gòu)/深度;
- 信息密度問題:在生成大量項(xiàng)目的 Treemaps 時(shí),小項(xiàng)目可能會因?yàn)樘^密集而難以辨認(rèn)和閱讀。
- 項(xiàng)目重疊問題:由于矩形區(qū)域的限制,可能導(dǎo)致項(xiàng)目之間存在重疊,降低了可視化效果。
- 不擅長表現(xiàn)結(jié)構(gòu),對于大的樹的可視化會占用大量面積;
- 難以找到好的縱橫比;
- 不好顯示除父子關(guān)系之外的鏈接
- 僅支持單個(gè)項(xiàng)目的可視化搜索;
- 人們對treemap所使用的面積形式通常難以比較大小。
- 難以準(zhǔn)確讀取結(jié)構(gòu)/深度;
- 應(yīng)用:可以用在文件目錄結(jié)構(gòu)、軟件圖表、大小查詢的地方。
對比treemap和普通的樹形文件系統(tǒng),分別能執(zhí)行什么任務(wù)不能執(zhí)行什么任務(wù)?
- Treemap(矩形樹圖):Treemap通過在一個(gè)矩形區(qū)域內(nèi)以矩形的大小和顏色來表示文件和文件夾的層次結(jié)構(gòu)。這種可視化方式使得用戶可以更直觀地理解文件和文件夾的相對大小和分布情況。
- 任務(wù):Treemap適用于快速了解和分析大量文件和文件夾的層次結(jié)構(gòu)。它可以幫助用戶識別特定文件或文件夾在整個(gè)層次結(jié)構(gòu)中的位置和重要性,以及了解各個(gè)層級之間的關(guān)系。
- 不能執(zhí)行的任務(wù):Treemap的主要局限在于不適合處理深層次且包含大量節(jié)點(diǎn)的樹狀結(jié)構(gòu)。當(dāng)樹的層級很深,并且節(jié)點(diǎn)數(shù)量龐大時(shí),矩形樹圖可能變得非常復(fù)雜和擁擠,并且難以準(zhǔn)確表示所有節(jié)點(diǎn)。
- 普通的樹形文件系統(tǒng):普通的樹形文件系統(tǒng)以層級關(guān)系展示文件和文件夾。每個(gè)文件夾可以包含其他文件夾和文件,用戶可以通過展開和收起文件夾來查看和訪問特定的文件。
- 任務(wù):普通的樹形文件系統(tǒng)適用于組織和瀏覽文件和文件夾,以及進(jìn)行文件和文件夾的操作和管理。它可以幫助用戶快速定位和訪問特定的文件或文件夾,以及在層級結(jié)構(gòu)中移動(dòng)和操作它們。
- 不能執(zhí)行的任務(wù):普通的樹形文件系統(tǒng)相對于Treemap而言,在可視化方面較為簡單,無法提供更復(fù)雜的數(shù)據(jù)分析和比較功能。它也不適合在大規(guī)模文件和文件夾集合中查找和識別特定的文件。
??圖可視化
??force-directed算法??
-
主要算法:一開始對節(jié)點(diǎn)的位置進(jìn)行隨機(jī)初始化,定義所有節(jié)點(diǎn)之間存在斥力,相鄰節(jié)點(diǎn)之間存在引力,然后開始按照節(jié)點(diǎn)之間兩種力相互作用的結(jié)果重新確定節(jié)點(diǎn)之間的位置,每變換一次位置就要對力進(jìn)行重新計(jì)算,一直迭代計(jì)算直到節(jié)點(diǎn)之間的位置不再改變或是改變幅度小于某個(gè)給定的值才結(jié)束。
- 隨機(jī)分布初始節(jié)點(diǎn)位置;
- 計(jì)算每次迭代局部區(qū)域內(nèi)兩兩節(jié)點(diǎn)間的斥力所產(chǎn)生的單位位移(一般為正值);
- 計(jì)算每次迭代每條邊的引力對兩端節(jié)點(diǎn)所產(chǎn)生的單位位移(一般為負(fù)值);
- 步驟 2、3 中的斥力和引力系數(shù)直接影響到最終態(tài)的理想效果,它與節(jié)點(diǎn)間的距離、節(jié)點(diǎn)在系統(tǒng)所在區(qū)域的平均單位區(qū)域均有關(guān),需要開發(fā)人員在實(shí)踐中不斷調(diào)整;
- 累加經(jīng)過步驟 2、3 計(jì)算得到的所有節(jié)點(diǎn)的單位位移;
- 迭代 n 次,直至達(dá)到理想效果。
-
缺點(diǎn):迭代的步長不易確定,步長太大會導(dǎo)致形成的合力太大,可能會造成系統(tǒng)的震蕩,不易達(dá)到平衡穩(wěn)定的體系;步長太小會導(dǎo)致迭代步需要合并;速度慢,時(shí)間復(fù)雜度過高,為 O ( n 3 ) O(n^3) O(n3),排斥力的時(shí)間復(fù)雜度為 O ( n 2 ) O(n^2) O(n2);如果圖中的節(jié)點(diǎn)和連接邊的數(shù)量過多會導(dǎo)致邊的交叉問題。
-
改進(jìn):
-
使用距離的平方和
進(jìn)行比較、計(jì)算,避免開方計(jì)算; - 排斥力計(jì)算的時(shí)間復(fù)雜度過高(O(n^2)),使用
Barnes-Hut算法
通過聚合粒子來估算粒子之間相互的斥力,具體使用四叉樹實(shí)現(xiàn),最后優(yōu)化的算法復(fù)雜度為O(nlgn)(每一個(gè)非葉節(jié)點(diǎn)表示一組相近的物體。如果一個(gè)非葉子節(jié)點(diǎn)的質(zhì)心離某個(gè)物體足夠遠(yuǎn),那么就將樹中那個(gè)部分所包含的物體近似看成一個(gè)整體,其位置就是整組物體的質(zhì)心,其質(zhì)量就是整組物體的總質(zhì)量。如果非葉子節(jié)點(diǎn)離某個(gè)物體并不足夠遠(yuǎn),那么就遞歸地遍歷其所有子樹。); -
GEM算法
通過減少一個(gè)temperature參數(shù)來允許點(diǎn)在迭代早期移動(dòng)大的距離后期移動(dòng)小的距離來加速; - 在兩個(gè)節(jié)點(diǎn)之間距離為0的時(shí)候隨即產(chǎn)生一個(gè)小力將二者分開防止當(dāng)二者有相同鄰居時(shí)會一直貼合在一起;
- 可以將距離為n條邊的節(jié)點(diǎn)之間建模為長度為nL的彈簧來消除斥力以減小計(jì)算時(shí)間。
-
??node-link diagram
- 優(yōu)點(diǎn):容易看到兩點(diǎn)之間的路徑關(guān)系和是否連接。
- 缺點(diǎn):線條之間容易交叉,會有阻擋、當(dāng)連接的邊和點(diǎn)變多時(shí)會混亂、在展示形式上有方向、度量、形狀上的限制。
??adjacency matrix
- 優(yōu)點(diǎn):容易看到兩個(gè)點(diǎn)是否連接、不存在線條之間的交叉、能在矩陣條目中顯示每個(gè)邊相關(guān)的其他信息。
- 缺點(diǎn):行和列的順序極大影響了解釋矩陣的難易程度、很難看到兩個(gè)點(diǎn)之間的路徑、所占用的空間很大(O(n^2)的矩陣)、受屏幕分辨率的限制。
-
可視化設(shè)計(jì)的常用方法
- 縮進(jìn)——線性列表,縮進(jìn)編碼深度
-
node-link diagram
——由直線/曲線連接的節(jié)點(diǎn) -
enclosure diagrams
——用外殼表示層次結(jié)構(gòu) -
layering
——相對位置、大小和對齊來表示關(guān)系和大小
??文本數(shù)據(jù)可視化
??動(dòng)態(tài)文本
通過添加時(shí)間維度或交互能力來展示和探索文本數(shù)據(jù)。動(dòng)態(tài)文本可視化側(cè)重于呈現(xiàn)文本數(shù)據(jù)隨時(shí)間或用戶行為的變化,與靜態(tài)文本可視化相比,它允許用戶更深入地理解和分析數(shù)據(jù)。文章來源:http://www.zghlxwxcb.cn/news/detail-811942.html
??文本可視化的流程
文本數(shù)據(jù)獲取、分詞,文本數(shù)據(jù)特征提取,文本數(shù)據(jù)結(jié)果呈現(xiàn)。文章來源地址http://www.zghlxwxcb.cn/news/detail-811942.html
??文本可視化的方式
??詞云
- 呈現(xiàn)文本數(shù)據(jù)的關(guān)鍵詞。它通過使用不同字體大小來表示詞語的重要性,以直觀的方式展示關(guān)鍵詞的頻率分布。
- 優(yōu)點(diǎn):直觀,可以通過大小比較詞語出現(xiàn)頻率和重要性。
- 缺點(diǎn):信息不全面、缺乏量化分析、容易失真、受算法和數(shù)據(jù)處理影響。
- 適用場景:適用于展示關(guān)鍵詞和揭示文本中的主題。
??樹圖
- 將文本數(shù)據(jù)以樹狀結(jié)構(gòu)展示的圖表形式。
- 優(yōu)點(diǎn):層次結(jié)構(gòu)清晰,可擴(kuò)展性好。
- 缺點(diǎn):對于非層次數(shù)據(jù)不太適用;數(shù)據(jù)集較為復(fù)雜時(shí),圖形展示不夠清晰。
- 適用場景:樹圖適用于展示組織結(jié)構(gòu)、文件目錄、分類關(guān)系等層次結(jié)構(gòu)的數(shù)據(jù)。
??流圖
- 通過標(biāo)準(zhǔn)化的符號和箭頭來展示一個(gè)過程中的各個(gè)步驟及它們之間的關(guān)系。
- 優(yōu)點(diǎn):可以清晰地展示文本中信息的流動(dòng)順序或時(shí)間序列事件的變化過程;能夠有效地表示文本中不同實(shí)體或概念之間的相互作用和轉(zhuǎn)換。
- 缺點(diǎn):展示文本時(shí)可能無法充分表示文本的深層意義或語境中的細(xì)微差別。
- 適用場景:用于體現(xiàn)信息在文檔中如何流轉(zhuǎn)。
??標(biāo)量場數(shù)據(jù)可視化
??間接體繪制
- “標(biāo)量場”是指一個(gè)定義在空間中每一點(diǎn)上都有單個(gè)數(shù)值的函數(shù)。
-
Marching squares算法:用于等值線提取。
- 將二維標(biāo)量場劃分為與像素網(wǎng)格對齊的正方形(或“單元格”);
- 計(jì)算每個(gè)單元格四個(gè)角點(diǎn)的標(biāo)量值;
- 確定單元格角點(diǎn)值相對于所需提取的等值線值的位置(即角點(diǎn)值是在等值線值之上、之下還是正好就是等值線值);
- 使用查找表確定當(dāng)前單元格內(nèi)等值線的基本幾何形狀,查找表基于單元格四個(gè)角點(diǎn)的值;
- 連接相鄰單元格中的等值線段,創(chuàng)建一個(gè)連續(xù)的線。
??直接體繪制
- “直接”體現(xiàn)在不需要提前提取表面(如等值面)或結(jié)構(gòu),而是直接在體積數(shù)據(jù)上進(jìn)行渲染。
-
Ray casting算法:
- 射線生成:從虛擬攝像機(jī)的視點(diǎn)發(fā)出射線,穿過屏幕平面上的每一個(gè)像素點(diǎn),并進(jìn)入體數(shù)據(jù)(voxel grid)。
- 采樣:在每條射線上,沿著視線方向在固定間隔或自適應(yīng)間隔采樣標(biāo)量場數(shù)據(jù)。這些采樣點(diǎn)的值通常使用插值方法(例如最近鄰、線性插值)從周圍的體元(voxels)中得出。
- 傳輸函數(shù)映射:使用傳輸函數(shù)將每個(gè)采樣點(diǎn)的標(biāo)量值映射到顏色和不透明度(opacity)。傳輸函數(shù)是科學(xué)可視化中的核心概念,它定義了如何將數(shù)據(jù)值轉(zhuǎn)換為可視化中的顏色和材料屬性。
- 顏色合成:按照射線方向,將采樣點(diǎn)的顏色和不透明度合成到最終像素顏色中。這通常通過“前向走樣”(front-to-back compositing)或“后向走樣”(back-to-front compositing)的方式完成。在這個(gè)過程中,根據(jù)合成模式(如alpha blending),通過疊加顏色和不透明度來構(gòu)建最后的顏色值。
- 圖像生成:將計(jì)算得到的像素顏色值顯示到屏幕上,形成最終的可視化圖像。
- 顏色表:通常是一種將標(biāo)量值映射到顏色的查找表或函數(shù),讓不同的數(shù)據(jù)值顯示為不同的顏色。
-
不透明度(或稱之為可容差,compacity):是另一種函數(shù)或表,它定義了數(shù)據(jù)值到不透明度的映射,以確定渲染像素的不透明程度,進(jìn)而影響最終圖像的能見度。
?? 交互
??交互的意義
- 能夠針對任何用戶的操作提供快速、可逆、可持續(xù)的反饋;
- 允許用戶首先提出一個(gè)概述,之后按需提供細(xì)節(jié)。
??動(dòng)態(tài)查詢
- 動(dòng)態(tài)查詢是對象和動(dòng)作的視覺表示,是快速漸進(jìn)和可逆的動(dòng)作,能立即和連續(xù)的顯示結(jié)果,并且是通過指向選擇無需打字。
- 優(yōu)點(diǎn):快速、簡便、可逆、可以消除雜亂、可以看到樣例的出現(xiàn)和消失。
-
缺點(diǎn):
- 無法進(jìn)行布爾查詢;
- 過濾器占用空間;
- 當(dāng)數(shù)據(jù)集變大時(shí)查詢變慢。
??Brushing和linking
- 都將指代同一數(shù)據(jù)的多個(gè)視圖鏈接起來。
- 基本功能:
- 在某一個(gè)視圖中選擇突出顯示的案例,在其他視圖中也突出顯示;
- 移動(dòng)鼠標(biāo)到案例上,可以顯示同一個(gè)數(shù)據(jù)在多個(gè)視圖之間的對應(yīng)關(guān)系;
- 對一個(gè)視圖中做到更改,在其他的視圖中也會被修改。
- Linking:一個(gè)視圖中選出一個(gè)數(shù)據(jù),其他視圖中的該部分也會被選中,起到連接不同視圖的作用。
- Brushing:直接光柱數(shù)據(jù)的一個(gè)子集,起到選擇的作用。
??overview + detail 和 focus +context 兩種交互方式
- 焦點(diǎn)方式不同 ,交互方式不同,使用場景不同
-
Overview + Detail 旨在通過提供全局概覽和詳細(xì)信息的同時(shí),幫助用戶更好地理解大規(guī)模的數(shù)據(jù)集。
- 多個(gè)視圖展示,相同的數(shù)據(jù),不同的分辨率,且視圖之間空間分離。
- 能夠快速導(dǎo)航到要找的地方,并且不會改變細(xì)節(jié)信息
- 細(xì)節(jié)改變會立即顯示在概覽中
- 為查看者提供更多信息以及有關(guān)數(shù)據(jù)用例的詳細(xì)信息??梢垣@得更多關(guān)于具體事件的信息,但是可能造成從聚集視圖到個(gè)人視圖的改變,縮放可能不能呈現(xiàn)所有的信息,或者令數(shù)據(jù)變得抽象
-
Focus + Context 通過提供關(guān)注區(qū)域的詳細(xì)信息和整體背景信息(上下文)來幫助用戶理解特定部分的數(shù)據(jù)。
- 同一個(gè)視圖中同時(shí)包含焦點(diǎn)和焦點(diǎn)周圍的環(huán)境
- 顯示細(xì)節(jié)時(shí)保持用戶方向
- 數(shù)據(jù)大時(shí)有問題
- 將選定的特定事件集合信息嵌入到整體當(dāng)中,視圖包含局部信息和整體信息。方法減少了過濾和聚合的數(shù)據(jù)量,但是需要為呈現(xiàn)具體事件的視圖挪出空間,可能導(dǎo)致整體信息的變化,造成幾何上的扭曲,比如相關(guān)數(shù)據(jù)的比例關(guān)系發(fā)生變化等。
到了這里,關(guān)于數(shù)據(jù)可視化 | 期末復(fù)習(xí) | 補(bǔ)檔的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!