0 匯總
數(shù)據(jù)類型 | 數(shù)據(jù)名稱 | 數(shù)據(jù)處理 |
出租車數(shù)據(jù) | 波爾圖 | 原始數(shù)據(jù):2013年7月到2014年6月,170萬條數(shù)據(jù) |
ICDE 2023?Contrastive Trajectory Similarity Learning with Dual-Feature Attention ?過濾位于城市(或國家)區(qū)域之外的軌跡 過濾包含少于20個點或超過200個點的軌跡 | ||
CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning 為兩個數(shù)據(jù)集設(shè)置相同的采樣率,即15秒 | ||
CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query 根據(jù)位置和時間戳,在三個月內(nèi)選擇了一個相對集中的軌跡集,數(shù)量為100?? | ||
KDD2022? TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation 2019 ICDE?Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach 選擇城市中心區(qū)域的軌跡,并移除少于10條記錄的軌跡 ——>超過60W條軌跡 | ||
CIKM 2023?Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity ICDE 2018?Deep Representation Learning for Trajectory Similarity Computation
| ||
ICDE 2022?TMN: Trajectory Matching Networks for Predicting Similarity ICDE 2021?T3S: Effective Representation Learning for Trajectory Similarity Computation 沒有多少處理 | ||
哈爾濱 | ICDE 2018?Deep Representation Learning for Trajectory Similarity Computation 8個月內(nèi)13000輛出租車的軌跡。 選擇了長度至少為30,且連續(xù)采樣點之間的時間間隔少于20秒的軌跡。 這產(chǎn)生了150萬條軌跡 |
|
西安 | 2018年10月的前兩周 ICDE 2023?Contrastive Trajectory Similarity Learning with Dual-Feature Attention 過濾位于城市(或國家)區(qū)域之外的軌跡 過濾包含少于20個點或超過200個點的軌跡 |
?
數(shù)據(jù)類型 | 數(shù)據(jù)名稱 | 數(shù)據(jù)處理 |
出租車數(shù)據(jù) | 德國 |
ICDE 2023?Contrastive Trajectory Similarity Learning with Dual-Feature Attention 2006年到2013年間 過濾位于城市(或國家)區(qū)域之外的軌跡 過濾包含少于20個點或超過200個點的軌跡 |
羅馬 | KDD 2022?Spatio-Temporal Trajectory Similarity Learning in Road Networks 移除了少于10個采樣點的軌跡 45157條軌跡 |
|
北京(T-drive) | AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM 從10,357輛出租車中收集的 使用空間相似函數(shù)通過GPS坐標(biāo)在北京道路網(wǎng)絡(luò)上創(chuàng)建基準(zhǔn)真值 |
|
KDD 2022?Spatio-Temporal Trajectory Similarity Learning in Road Networks 移除了少于10個采樣點的軌跡 | ||
KDD 2021?A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks 按小時分割這些軌跡,然后我們總共可以得到5,621,428條軌跡。 通過過濾異常值,這些軌跡的平均長度為25。 | ||
新加坡 | 15,054輛出租車的軌跡 對于每輛出租車,GPS信息在整整一個月內(nèi)以半分鐘到三分鐘的采樣率持續(xù)收集 |
|
人流mobility數(shù)據(jù) | 北京( Geolife) |
2007年4月到2012年8月收集的17621條軌跡 |
Sigspatial 2022?TSNE: trajectory similarity network embedding 選擇了城市中心區(qū)域的軌跡,并將該區(qū)域離散化為200m×200m的網(wǎng)格單元。 移除了所有點太稀疏(少于10個點的軌跡),并在Geolife中獲得了10,504條軌跡 |
||
CIKM 2023?Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity
|
||
2019 ICDE?Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach 過濾掉位于稀疏區(qū)域的軌跡,保留城市中心區(qū)域的軌跡 移除了少于10條記錄的軌跡 大約8,000條軌跡 |
1 2023
1.1 ICDE 2023?Contrastive Trajectory Similarity Learning with Dual-Feature Attention
使用了三個真實世界的軌跡數(shù)據(jù)集:
(1)Porto ——2013年7月到2014年6月間,葡萄牙波爾圖的170萬條出租車軌跡;
(2)西安——2018年10月的前兩周內(nèi),中國西安的210萬條網(wǎng)約車軌跡(滴滴)
(3)德國 ——2006年到2013年間,170.7千條用戶提交的軌跡。(openStreetMap)
- 過濾位于城市(或國家)區(qū)域之外的軌跡,
- 過濾包含少于20個點或超過200個點的軌跡
預(yù)處理后的數(shù)據(jù)集在表II中進行了總結(jié)。
1.2 AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM
- 北京的軌跡來自T-drive項目的出租車軌跡。
- 這些出租車軌跡是在幾天內(nèi)通過出租車id,GPS坐標(biāo)和時間戳從10,357輛出租車中收集的
- 按小時劃分這些軌跡,并丟棄短長度的軌跡
- 使用空間相似函數(shù)(Shang et al. 2017b)通過GPS坐標(biāo)在北京道路網(wǎng)絡(luò)上創(chuàng)建基準(zhǔn)真值
- T-Drive trajectory data sample - Microsoft Research
- 紐約的軌跡從NYC Open Data - (cityofnewyork.us)獲取
- 使用相同的預(yù)處理方法來處理這些軌跡并獲得基準(zhǔn)真值
- 對于這兩個數(shù)據(jù)集,我們將這些數(shù)據(jù)隨機分為訓(xùn)練集,驗證集和測試集,比例為[0.2,0.1,0.7]
2 2022
2.1 CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning
為兩個數(shù)據(jù)集設(shè)置相同的采樣率,即15秒。
根據(jù)軌跡的開始時間戳將每個數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其中前100萬條軌跡用于訓(xùn)練,其余的用于測試
2.2 CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query
波爾圖數(shù)據(jù)集:從2013年到2014年,有超過四百輛出租車的170萬輛車軌跡。
我們根據(jù)它們的位置和時間戳,在三個月內(nèi)選擇了一個相對集中的軌跡集,數(shù)量為100??。
然后我們刪除少于50個點的記錄,并將整個區(qū)域劃分為1500×1500大小的網(wǎng)格。
經(jīng)過預(yù)處理,我們在波爾圖獲得了79,362條軌跡。
2.3 CIKM 2023?Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity
- 波爾圖的數(shù)據(jù)集——從2013年7月到2014年6月的12個月期間的170萬條出租車軌跡
- 刪除了長度少于30的軌跡
- 最終剩下120萬條軌跡
- 北京數(shù)據(jù)集(Geolife)
- 2007年4月到2012年8月收集的17621條軌跡
- 也選擇了那些至少滿足長度為30的軌跡,并且在連續(xù)采樣點之間的時間間隔小于20秒
- 這樣的操作產(chǎn)生了8214條軌跡
- 對于波爾圖數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)由800,000條軌跡組成,其余的用于測試數(shù)據(jù)。
- 對于Geolife數(shù)據(jù)集,前4928條軌跡用于訓(xùn)練數(shù)據(jù),其余的用于測試數(shù)據(jù)。
2.4 Sigspatial 2022?TSNE: trajectory similarity network embedding
Geolife ——由182個用戶從2007年到2012年在中國北京收集的17,621條軌跡組成。
選擇了城市中心區(qū)域的軌跡,并將該區(qū)域離散化為200m×200m的網(wǎng)格單元。
移除了所有點太稀疏(少于10個點的軌跡),并在Geolife中獲得了10,504條軌跡。
2.5 KDD 2022?Spatio-Temporal Trajectory Similarity Learning in Road Networks
- 北京包含了從2008年2月2日到2008年2月8日在中國北京收集的1500萬個出租車軌跡點。
- 羅馬包含了367,052條來自意大利羅馬的出租車軌跡,覆蓋了30多天。
- 首先將所有軌跡映射匹配到來自O(shè)penStreetMap的相應(yīng)道路網(wǎng)絡(luò)。
- 這樣,原始GPS軌跡數(shù)據(jù)就轉(zhuǎn)換成了按時間順序排列的頂點序列。
- 進一步,獲取了來自城市地區(qū)的軌跡,并移除了少于10個采樣點的軌跡。
- 這個預(yù)處理得到了在北京的348,210條軌跡和在羅馬的45,157條軌跡。
2.6 KDD2022? TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation
- 西安的出租車軌跡
- 從2007年到2010年的17,621條人類移動軌跡
- 波爾圖
- 從2013年到2014年的超過170萬條出租車軌跡
- 預(yù)處理:選擇城市中心區(qū)域的軌跡,并移除少于10條記錄的軌跡
- 處理后,我們獲得了西安數(shù)據(jù)集的7641條軌跡和波爾圖數(shù)據(jù)集的超過600,000條軌跡
2.7 ICDE 2022?TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores
(1)TDrive ,包含了兩周內(nèi)北京的321,387條出租車軌跡(752MB)
(2)Lorry,包含了廣州的4,394,397條JD物流卡車軌跡(136GB)
(3)合成,為了驗證TraSS的可擴展性,我們使用了由Lorry數(shù)據(jù)集復(fù)制7次生成的五個合成數(shù)據(jù)集
2.8 ICDE 2022?TMN: Trajectory Matching Networks for Predicting Similarity
? Geolife? 由中國北京的182名用戶收集,它包含了廣泛的人類戶外運動,這些運動是用戶的GPS位置??偣?,Geolife中有17,612條軌跡。
? Porto? 包含了超過170萬輛車的路線軌跡,主要由葡萄牙波爾圖的442輛出租車收集。
遵循之前的工作,過濾掉位于稀疏區(qū)域的軌跡,保留城市中心區(qū)域的軌跡用于訓(xùn)練和測試。
也移除了少于10條記錄的軌跡。
- 這是因為計算較長序列的相似性更為困難和耗時。
- 此外,軌跡數(shù)據(jù)集通常以許多GPS錯誤和其他問題為特征,如果受到影響,短軌跡會嚴(yán)重受到這些錯誤的影響
經(jīng)過預(yù)處理后,Geolife數(shù)據(jù)集中有大約8,000條軌跡,Porto數(shù)據(jù)集中有600,000條軌跡
2.9? ICDE 2022?Continuous Trajectory Similarity Search for Online Outlier Detection
1)北京(Geolife)
????????該數(shù)據(jù)集保留了182名用戶在三年多的時間里的所有旅行記錄,包括多種交通方式(步行、駕駛和乘坐公共交通)。
????????軌跡每1-5秒采樣一次,兩個相鄰點之間的平均速度為5.73 m/s。
????????北京的道路網(wǎng)絡(luò)有65,129個節(jié)點和85,322條邊。
2)新加坡。
????????該數(shù)據(jù)集追蹤了新加坡的15,054輛出租車的軌跡。
????????對于每輛出租車,GPS信息在整整一個月內(nèi)以半分鐘到三分鐘的采樣率持續(xù)收集。
????????它在兩個相鄰點之間的平均距離遠(yuǎn)高于GeoLife。
????????新加坡的道路網(wǎng)絡(luò)包含20,801個節(jié)點和42,309條邊。
這是一個私有數(shù)據(jù)
3)波爾圖。
????????該數(shù)據(jù)集包含了442輛出租車在波爾圖市,葡萄牙一整年(從2013年7月1日到2014年6月30日)的軌跡。
????????其道路網(wǎng)絡(luò)具有最細(xì)的粒度,有100,484個節(jié)點和129,303條邊。
3 2021
3.1 ICDE 2021?REPOSE: Distributed Top-k Trajectory Similarity Search with Local Reference Point Tries
我們在3種類型的數(shù)據(jù)集上進行實驗。
1)小規(guī)模和小空間跨度:舊金山(SF),波爾圖(Porto),羅馬(Rome),T-drive [33]。
2)大規(guī)模和小空間跨度:成都和西安。
3)大規(guī)模和大空間跨度:OSM。
數(shù)據(jù)集統(tǒng)計信息顯示在表III中。
在預(yù)處理階段,我們刪除長度小于10的軌跡,并將長度大于1000的軌跡分割成多條軌跡。我們均勻且隨機地選擇100條軌跡作為查詢集。
1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org
3.2 ICDE 2021?T3S: Effective Representation Learning for Trajectory Similarity Computation
我們的實驗使用了以下兩個數(shù)據(jù)集:
? Geolife [17] 是一個基于GPS的軌跡數(shù)據(jù)集,由2007年4月至2012年8月在中國北京的182名用戶收集。該數(shù)據(jù)集包含17,621條軌跡,并記錄了廣泛的人類戶外活動。
? Porto [18] 是一個包含超過170萬輛車路線軌跡的數(shù)據(jù)集,由葡萄牙波爾圖的442輛出租車收集。該數(shù)據(jù)集用作評估交通監(jiān)測模型的基準(zhǔn)。
3.3 KDD 2021?A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks
使用來自不同城市的兩個空間網(wǎng)絡(luò)。一個是來自北京市的,即北京道路網(wǎng)絡(luò)(BRN)。另一個是來自紐約市的,即紐約道路網(wǎng)絡(luò)(NRN)。
在BRN數(shù)據(jù)集中,有28,342個興趣點和27,690條邊;在NRN數(shù)據(jù)集中,有95,581個興趣點和260,855條邊。
對于BRN中的軌跡,我們使用來自T-drive項目的出租車行駛數(shù)據(jù)。BRN中的出租車軌跡是按出租車id收集的,一條軌跡的時間范圍可能持續(xù)幾天。因此,我們按小時分割這些軌跡,然后我們總共可以得到5,621,428條軌跡。通過過濾異常值,這些軌跡的平均長度為25。
對于NRN中的軌跡,我們使用來自紐約的出租車行駛數(shù)據(jù)。在原始數(shù)據(jù)集中,有697,622,444次行程,我們隨機抽樣其中的一部分來生成軌跡數(shù)據(jù)集。經(jīng)過預(yù)處理后,我們的實驗中有10,541,288條軌跡,它們的平均長度為38。詳細(xì)信息總結(jié)在表1中。
對于這兩個軌跡數(shù)據(jù)集,我們都以20%、10%和70%的比例隨機分割它們?yōu)橛?xùn)練集、評估集和測試集。
4 2020
4.1 IJCAI 2020?Trajectory?Similarity?Learning with Auxiliary Supervision and Optimal Matching
ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle
4.2 2020 ICDE Parallel Semantic Trajectory Similarity Join
- 紐約軌跡數(shù)據(jù)(NTD)和北京軌跡數(shù)據(jù)(BTD)。
- NTD包含一張道路網(wǎng)絡(luò)和1000萬輛出租車行程。每個出租車行程都是一個起點-終點對。
- 將從源到目的地的最短路徑視為一次行程的軌跡。
- 此外,使用了一個真實的POI數(shù)據(jù)集,其中包含了紐約市的19,969個POI。
- 每個POI都有一個帶有緯度和經(jīng)度的空間坐標(biāo)和一個文本描述。
- 因為POI可能不匹配軌跡點,我們將每個POI映射到道路網(wǎng)絡(luò)中最近的節(jié)點,并將POI視為語義軌跡中的一個對象。
- 在BTD中——T-drive
- BTD中的原始軌跡非常長,因為每條軌跡都包含了特定時間段內(nèi)的所有行程,這可能是幾天。
- 我們將這些軌跡劃分為半小時的子軌跡。目的是創(chuàng)建具有現(xiàn)實長度和持續(xù)時間的行程。
- 為了用文本描述增強每個軌跡點,我們從包含200萬條推文的真實推文集合中隨機選擇一條推文,并將推文的文本描述與軌跡點關(guān)聯(lián)起來。?
https://publish.illinois.edu/dbwork/open-data/
5 更早
5.1 ICDE 2018?Deep Representation Learning for Trajectory Similarity Computation
第一個數(shù)據(jù)集在葡萄牙的波爾圖市收集,持續(xù)19個月,包含170萬條軌跡。每輛出租車每15秒報告一次其位置。我們移除了長度少于30的軌跡,得到了120萬條軌跡。
第二個數(shù)據(jù)集包含了在中國哈爾濱市收集的8個月內(nèi)13000輛出租車的軌跡。我們選擇了長度至少為30,且連續(xù)采樣點之間的時間間隔少于20秒的軌跡。這產(chǎn)生了150萬條軌跡。
我們根據(jù)軌跡的開始時間戳將兩個集合劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。對于這兩個集合,前80萬條軌跡用于訓(xùn)練,其余的軌跡用于測試。
5.2 2019 ICDE?Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach
第一個數(shù)據(jù)集[33],被稱為Geolife,包含了從2007年到2010年的17,621條人類移動軌跡。
第二個數(shù)據(jù)集[23]包含了從2013年到2014年的超過170萬條出租車軌跡。
為了減小M的維度,我們選擇了城市中心區(qū)域的軌跡,并將該區(qū)域離散化為50m × 50m的網(wǎng)格單元。文章來源:http://www.zghlxwxcb.cn/news/detail-720066.html
然后,我們刪除了記錄少于10條的軌跡。經(jīng)過這樣的預(yù)處理,我們在Geolife中獲得了8203條軌跡,在波爾圖中獲得了601,071條軌跡。文章來源地址http://www.zghlxwxcb.cn/news/detail-720066.html
到了這里,關(guān)于論文筆記(整理):軌跡相似度頂會論文中使用的數(shù)據(jù)集的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!