Das auf der Kreuzspektralmatrix (KSM, Cross Spectral Matrix – CSM) basierende Beamforming ist ein im Frequenzbereich realisierter Algorithmus. Die Grundidee dieser Methode besteht darin, die über die Mikrofone erfassten Daten (Zeit- und Raumkorrelation zwischen Signalen) von den Fokusinformationen (Laufzeit- und Phasendifferenzen zwischen Mikrofonen und den Gitterpunkten der Schallkarte) zu trennen. Dazu werden die digitalisierten Zeitsignale der Mikrofone für eine Fouriertransformation in Blöcke der Länge (\(L\)) \(2^n\) aufgeteilt und mit einer Überlappung (\(O\)) von 50 % gefenstert (siehe Abb. 1 - Signal \(p_m (t)\) eines Mikrofons \(m\)).
Mit den gemittelten Fouriertransformierten wird dann die Kreuzspektralmatrix erstellt. Die geometrischen Informationen für die Fokussierung (die Steuerung) der Akustischen Kamera auf alle Gitterpunkte der Karte werden durch sogenannte Steering Vectoren (d. h. „Steuervektoren“) bereitgestellt. Sind die Entfernungen zwischen den Gitterpunkten und den Mikrofonen sowie die Schallgeschwindigkeit bekannt, dann können die Laufzeitdifferenzen \(Δt_j\) der Signale berechnet werden. Ist \(x ⃗_t\) die Position einer möglichen Geräuschquelle, \(M\) die Anzahl der Mikrofone und ω die Kreisfrequenz, so gilt für den Steering Vector die Beziehung:
$$g(x ⃗_t,\omega_k) = \frac{1}{M}\begin{pmatrix}e^{-i\omega_k\Delta t_0}\\ \vdots\\ e^{-i\omega_k\Delta t_{M-1}}\end{pmatrix}.$$
Unter Ausnutzung dieser geometrischen Information ist es möglich, die Akustische Kamera auf die potentiellen Quellen auszurichten. Die Akustische Karte \(b\) kann dann folgendermaßen berechnet werden:
$$b(x ⃗_t,\omega_k) = g^{\dagger}(x ⃗_t,\omega_k)\cdot CSM(\omega_k)\cdot g(x ⃗_t,\omega_k),$$
wobei \(†\) die konjugiert transponierte Matrix darstellt.