基于數(shù)據(jù)融合的地鐵客流量預測方法
摘 要: 為了更加準確地預測城市地鐵交通中動態(tài)變化的客流量,通過分析城市地鐵交通客流量的特點,提出了一種基于神經(jīng)網(wǎng)絡數(shù)據(jù)融合的預測方法。這種方法根據(jù)預測數(shù)據(jù)各屬性的特點,將采集的數(shù)據(jù)提取出多個相關序列。在此基礎上對各序列采取不同的處理、預測方法,再利用神經(jīng)網(wǎng)絡進行融合。這種方法可用于數(shù)據(jù)動態(tài)預測的各種領域。實驗表明,采用這種方法可以有效地改善數(shù)據(jù)預測的誤差。關鍵詞: 鐵路交通; 信息預測; 數(shù)據(jù)融合; 神經(jīng)網(wǎng)絡
  在城市地鐵交通中,各車站交通流量信息(如候乘數(shù)量、下車數(shù)量等) 的準確預測有利于地鐵運行高效、及時地調(diào)度,從而既達到增加效益的經(jīng)濟目的,又可以更好地滿足人們的乘車需求。傳統(tǒng)的預測方法有回歸分析算法以及Kalman 濾波等。這些方法假定過程是平穩(wěn)的,系統(tǒng)是線性的,系統(tǒng)的干擾是白噪聲,因此在線性系統(tǒng)平穩(wěn)的隨機時間序列預測中能夠獲得滿意的結(jié)果。然而,交通問題是有人參與的主動系統(tǒng),具有非線性和擾動性強的特征,前述方法難以奏效,表現(xiàn)為以下缺點: ① 每次采樣的數(shù)據(jù)變化較小時適用,數(shù)據(jù)變化大誤差就大; ② 預測值的變化總是滯后于實測值的變化; ③ 無法消除奇異信息的影響?;谛〔ǚ治龅膭討B(tài)數(shù)據(jù)預測方法以小波變換后的數(shù)據(jù)進行預測,克服了傳統(tǒng)預測方法不能消除奇異信息的缺點, 有效地預測動態(tài)的流量信息[ 1 ] 。但該方法只能對單個的數(shù)據(jù)序列進行處理,而事實上能夠用于預測的數(shù)據(jù)可以是多方面的。
 數(shù)據(jù)融合(Data2Fusion) 技術起源并發(fā)展于軍事領域,主要用于目標的航跡跟蹤、定位與身份識別以及態(tài)勢評估等[ 2 ] 。傳統(tǒng)的數(shù)據(jù)融合技術大多采用概率理論(如Bayes 決策理論) 對多種信息的獲取與處理進行研究,從而去掉信息的無用成分,保留有用成分[ 3 ] 。在信息處理中,分別運用各種體現(xiàn)數(shù)據(jù)不同屬性特征的方法處理(如預測) 后進行融合是一個有待深入研究的問題。為了充分利用各方面已有的數(shù)據(jù),獲得可靠的交通流量動態(tài)預測,本文借鑒數(shù)據(jù)融合的基本思想,提出了在數(shù)據(jù)處理方法上的融合預測方法。
1  流量融合預測模型
1. 1  預測模型的結(jié)構(gòu)
 由于預測對象的復雜性,為了表現(xiàn)與預測對象相關聯(lián)的其他對象或?qū)傩?每個關聯(lián)對象(屬性) 用一個時間序列來表示,作為預測對象的相關序列。所有用于預測的相關序列構(gòu)成預測對象的相關序列集。由于在預測中具有不同的作用,各相關序列將使用不同的處理和預測方法。在相關序列集上的地鐵客流量融合預測模型結(jié)構(gòu),如圖1 所示。
下面針對城市地鐵車站客流量的預測進行論述。
1. 2  構(gòu)造相關序列集
為了預測車站(序號為0)在第i 天t 時刻的流量^F0 i(t) ( 實測值為F0 i(t)) ,設t 時刻^F0 i(t)的相關時間序列集為f(t) = {fj(t) ,1 ≤ j ≤ n} ( 1 ) 式中,fj(t)為t時刻^F0 i(t)的相關時間序列; n 為相關時間序列數(shù)。
為了獲得精確的預測,可以根據(jù)關聯(lián)特性構(gòu)造任意多個相關時間序列。本文意在闡明本算法的基本思想,將流量數(shù)據(jù)僅僅構(gòu)造為3 類相關序列:當前序列、歷史序列和鄰站序列。
當前序列 預測時刻t之前本站最近k次流量按時間先后記錄下來的數(shù)據(jù)構(gòu)成的時間序列為當前序列,即
f1 (t) = { F0 i(t -l),1 ≤ l ≤ k} ( 2 ) 
  該序列數(shù)據(jù)的主要影響因素是時刻,同時還受人為、氣溫、天氣等其他擾動因素的影響,數(shù)據(jù)分布的非線性特性較大,頻帶較寬。第l 班列車的流量如圖2 所示。

歷史序列 同為工作日或同為節(jié)假日的相鄰數(shù)天,其流量曲線形狀相對類似,流量曲線相似的日期在預測中具有較大的參考意義。本站最近m 天在時刻t 的流量按日期先后記錄下來的數(shù)據(jù)構(gòu)成的時間序列為歷史序列,即f2 (t) = { F0 i-p(t) ,1 ≤ p ≤ m} ( 3 )   工作日和節(jié)假日流量差別較大,可將它們分類處理。該序列整體分布較平穩(wěn),有震蕩,但頻帶較窄。第p個工作日在時刻t的流量如圖3 所示。

 鄰站序列 圖4 為本站與鄰近2 個車站24 h 的流量曲線經(jīng)DB2 小波3 層變換后的近似分量,可見各分量關聯(lián)性較大。如果根據(jù)以前的數(shù)據(jù)將各鄰近車站相互關系解算出來,就可以利用這種函數(shù)關系預測時刻t在本站的流量。最近m天在時刻t 的流量按日期先后記錄下來的各鄰站歷史序列為本站的鄰站序列,即
qf2 +q(t) = { Fi-p(t) ,1 ≤ p ≤ m,1 ≤ q ≤ s} ( 4 ) 
q式中, Fi-p(t)表示第q個鄰近站的第(i -p)天的流量;s 表示鄰近站數(shù)。

1.3  相關序列的預測
 由于各相關序列在預測中具有不同的影響,且分布規(guī)律和特點差異較大,因而各序列使用不同的預測方法。本文對當前序列進行小波分解后用Kalman 預測,對歷史序列直接進行Kalman 預測,對鄰站序列用冪級數(shù)多項式進行擬合。
1.3.1  小波分析
 根據(jù)設置的分解指數(shù)η對序列進行小波N 尺度分解,得到一組低頻信號和N 組高頻信號,對這N + 1 組信號分別用Mallat 塔式算法重構(gòu)到原尺度上,得到N + 1 組在原始尺度上的經(jīng)過分解重構(gòu)處理的信號。分別對信號用Kalman 濾波進行預測,得到N + 1 個預測值,再將這N + 1 個預測值用權系數(shù)合成最終的預測值。具體算法請參見文獻[1 ]。
1.3.2  Kalman 濾波離散線性Kalman 濾波方程為
F(t) = Φ(t -1) F(t -1) + W(t -1)( 5 ) 式中,Φ (t) 為系統(tǒng)狀態(tài)轉(zhuǎn)移量; W(t) 為系統(tǒng)誤差。Kalman 濾波通過t -1 時刻的狀態(tài)F(t -1)估計t 時刻的狀態(tài)F(t) 。具體算法請參見文獻[1 ]。
1.3.3  多項式擬合
分別對各鄰站序列用冪級數(shù)多項式擬合本站數(shù)據(jù),擬合模型如下
n 
i 
p
^Fp(t) = αp,i(t) F(t) ( 6 ) 
i=0
i
6 式中, Fp (t)為對第p個鄰站在時刻t 的流量的i 次i 冪;αp,i(t)為Fp (t)的系數(shù)。當n= 2 時,上述擬合算法簡化為線性回歸模型。
1.4  流量的融合預測設預測對象共有n個相關的時間序列fi(t) ,經(jīng)過預處理分別為fi(t) ,融合預測模型可表示^F(t)在f(t)上的映射,即^F(t) =ζ(f(t)) =ζ(f1 (t) ,f2 (t) ,fn(t)) ( 7 ) 式中,ζ(·)表示映射關系。特別地,式(7)可簡化為如下的線性映射組合^F(t) = αi(t)ξ(fi(t)) ( 8 ) i=16 
式中,αi(t)為t 時刻的序列fi (t)的權系數(shù);ξ(fi (t)) 為以fi (t)為依據(jù)的局部預測值。為了確定上述算法中映射關系ζ(·),本文采用神經(jīng)網(wǎng)絡進行解算。
2  模型的神經(jīng)網(wǎng)絡解算
 神經(jīng)網(wǎng)絡是由大量簡單的神經(jīng)元以某種拓撲結(jié)構(gòu)廣泛地相互連接而成的非線性動力學系統(tǒng)[4 ]。神經(jīng)網(wǎng)絡在數(shù)據(jù)融合技術中具有無法替代的作用,通過神經(jīng)網(wǎng)絡對各相關序列的局部預測進行最終融合,具體過程如下。
2.1  數(shù)據(jù)的局部處理
 廣州市地鐵某站一個方向的流量數(shù)據(jù)是以每班列車到站上車的人數(shù)記錄的(流量單位:人/班) 。根據(jù)2002 年5 月1 日 2003 年3 月2 日的流量數(shù)據(jù),運用本文算法進行預測。按照1.2 節(jié)的方法構(gòu)造了4 個相關序列:當前序列f1 (t) 、歷史序列f2 (t)以及相鄰2 個車站的鄰站序列f3 (t)和f4 (t) 。
2.2  神經(jīng)網(wǎng)絡的設計
 因為3 層神經(jīng)網(wǎng)絡可以一致逼近任何非線性函數(shù)[5 ]。采用具有單隱層的3 層神經(jīng)網(wǎng)絡作為模型,即輸入層、隱層和輸出層。
 以各相關序列的局部預測值作為輸入向量,實測值F(t)為期望輸出,有4 個輸入節(jié)點,1 個輸出節(jié)點。隱層神經(jīng)元數(shù)量關系到網(wǎng)絡的訓練速度和精度問題。對于一定數(shù)量的樣本,需要一定數(shù)量的隱層神經(jīng)元數(shù), 神經(jīng)元少了,不能反映樣本的規(guī)律;多了,則神經(jīng)網(wǎng)絡以過于復雜的非線性關系來擬合輸入輸出之間的關系,使得模型的學習時間大大增加。本例中,8 個隱層神經(jīng)元數(shù)是最好的。以誤差平方和SSE(Sum2Squared Error ) 作為訓練評價標準, SSE = p j (Ypj-Opj)2 ,其中Ypj和Opj分別為輸出層第j個神經(jīng)元的第p個樣本的期望輸出和實際輸出(本例中j= 1 ,p= 60) 。
 用MATLAB 的ANN 工具箱構(gòu)造神經(jīng)網(wǎng)絡。隱層神經(jīng)元的激勵函數(shù)為tansig 函數(shù)( 正切S 型傳遞函數(shù)),輸出層神經(jīng)元的激勵函數(shù)為purelin 函數(shù)(線性傳遞函數(shù)),這樣整個網(wǎng)絡的輸出可以取任意值。采取批處理學習方式和快速BP 算法訓練。
2. 3  神經(jīng)網(wǎng)絡的訓練
 將網(wǎng)絡的訓練標準SSE 設為64(60 組訓練樣本), 利用上述樣本對神經(jīng)網(wǎng)絡進行訓練,訓練6 000 次時網(wǎng)絡的權值和閾值將達到最佳值,即達到了訓練目標。神經(jīng)網(wǎng)絡訓練目標接近過程,如圖5 所示。
從圖5 中可以看出,訓練開始時,網(wǎng)絡收斂速度較快,接近目標時收斂速度會減慢??梢?訓練次數(shù)越多,得到的結(jié)果越好。當然,這是以訓練時間的增長作為代價的。
3  實驗對比分析
 采用本文算法和傳統(tǒng)的Kalman 算法分別對2003 年3 月2 日的各整點時刻的流量進行預測。算法各時刻均通過訓練后的神經(jīng)網(wǎng)絡預測,預測與實測結(jié)果的比較,如圖6 所示。
  傳統(tǒng)的Kalman 濾波是直接在當前序列的基礎上進行預測的, 預測與實測結(jié)果的比較如圖7 所示。2 種預測方法的誤差指標對比見表1 。
表1  實驗結(jié)果對比

 比較可得,由于傳統(tǒng)的Kalman 預測方法只能以某一類序列的數(shù)據(jù)作為預測基礎,無法利用其他序列信息,且對變化大的數(shù)據(jù)采樣要求較高,因而具有較大的誤差,而本文所述方法有效地克服了這些缺點。
4  結(jié)論
 通過分析城市地鐵站客流量的相互關系和特點, 在對流量信息進行以預測為目的相關序列集構(gòu)造的基礎上,提出了一種基于數(shù)據(jù)融合的預測模型。該預測模型不僅是一個多信息接收和處理的融合模型,而且還是一個動力學系統(tǒng),網(wǎng)絡的訓練樣本也是動態(tài)的,如果訓練的次數(shù)適當,預測的精度也可以隨之變化調(diào)整。實驗結(jié)果表明,基于數(shù)據(jù)融合的預測與傳統(tǒng)的預測方法相比,由于充分利用了所有預測信息,在預測的準確程度上有較大提高。
參考文獻: 
[1 ] 李存軍, 等. 基于小波分析的交通流量預測方法[J ] . 計算機應用, 2003 , 23(12) : 7 —8. 
[2 ] 權太范. 信息融合: 神經(jīng)網(wǎng)絡 模糊推理理論與應用[M] . 北京: 國防工業(yè)出版社, 2002. 
[3 ]李洪志. 信息融合技術[ M ] . 北京: 國防工業(yè)出版社, 1996. 
[4 ] 靳蕃. 神經(jīng)計算智能基礎 原理方法[ M] . 成都: 西南交通大學出版社, 2000. 
[ 5 ] RUMELHART D E . Learning representation by back2 propagating errors [J ] .Nature , 1985 , 51(4) :533 —536. 
   

 
  


