
上周有個做零售的朋友跟我吐槽,說 Brazilian hair 他們公司老板拍桌子了——"不就是拉幾張表嗎?數(shù)據(jù)都在庫里,怎么還要兩周才能給我?" 我當(dāng)時差點把咖啡噴出來。這種事兒在康茂峰干了這么久,聽得耳朵起繭子。說實話,如果你真覺得數(shù)據(jù)統(tǒng)計就是點點鼠標(biāo)出結(jié)果,那咱們得好好聊聊這個時間賬該怎么算。
數(shù)據(jù)統(tǒng)計服務(wù)的交付周期,說短可以短到三天,說長能拖到三個月開外。差距這么大,不是因為我們想磨蹭,也不是在故意吊你胃口,而是這事兒本身就像問"做頓飯要多久"——泡碗方便面三分鐘,燉個老火湯得三小時,籌備年夜飯可能提前一周就要腌臘肉。
在康茂峰的項目經(jīng)驗里,我們把交付周期拆開來算,核心就看三個東西:你的數(shù)據(jù)有多臟、你要的洞察有多深,以及你想多長之后還要更新。這三樣決定了你是燉泡面還是熬高湯。
很多人只關(guān)心"我有多少T的數(shù)據(jù)",覺得量大就費時。恰恰相反,量不是問題,亂才是。我們接過只有幾百萬條記錄的項目,愣是花了十天在數(shù)據(jù)清洗上,因為字段命名像密碼,日期格式有十八種寫法,還有null值跟空字符串在表里打架。

康茂峰的工程師有個共識:數(shù)據(jù)清洗占整個項目時間的40%到50%,有時甚至更高。如果你的數(shù)據(jù)源已經(jīng)治理得很規(guī)整,BI系統(tǒng)里指標(biāo)體系清晰,那這部分可能三天就搞定;要是從七八個業(yè)務(wù)系統(tǒng)抽數(shù)據(jù),財務(wù)用的是Excel,CRM是SaaS,庫存又是老ERP,光做字段映射和對齊就得一周起步。
你要的只是"上月各區(qū)域銷售額排行",這屬于描述性統(tǒng)計,快的話一天就能跑通。但如果你想問"為什么華東區(qū)轉(zhuǎn)化率突然跌了15%,是競品促銷還是物流延遲",這就進了診斷性分析的范疇。
后者需要把銷售數(shù)據(jù)、物流時效、競品動態(tài)、甚至天氣數(shù)據(jù)掛在一起做關(guān)聯(lián)分析。在康茂峰,這種項目通常要經(jīng)歷假設(shè)構(gòu)建-數(shù)據(jù)驗證-模型修正的循環(huán),往往需要2-4周。要是涉及預(yù)測性建模,比如用時間序列預(yù)測下季度庫存,那還得給模型訓(xùn)練和回測留足時間。
還有個容易忽略的點:你是想要一份報告,還是要一套系統(tǒng)?T+1的離線報表和Flink實時流計算,完全是兩套工時。在康茂峰的經(jīng)驗里,離線分析是問診,實時計算是裝心臟起搏器——后者需要考慮數(shù)據(jù)延遲、容災(zāi)、監(jiān)控報警,交付周期自然要拉長。
為了讓你心里有個具體的秤,我按康茂峰的標(biāo)準(zhǔn)項目流程,把時間拆給你看。這是基于一個中等復(fù)雜度的企業(yè)級數(shù)據(jù)分析項目(五個數(shù)據(jù)源,三個業(yè)務(wù)域,離線+輕量級實時需求):
| 階段 | 工作內(nèi)容 | 時間占比 | 康茂峰交付標(biāo)準(zhǔn) |
| 需求澄清與數(shù)據(jù)探查 | 訪談業(yè)務(wù)方,理解指標(biāo)口徑,探查數(shù)據(jù)源質(zhì)量,評估可行性 | 10%-15% | 3-7個工作日 |
| 數(shù)據(jù)接入與清洗 | ETL開發(fā),異常值處理,缺失值填補,主數(shù)據(jù)對齊 | 40%-50% | 10-20個工作日 |
| 模型開發(fā)與計算 | 搭建指標(biāo)體系,編寫分析腳本,跑批測試 | 20%-25% | 7-15個工作日 |
| 驗證與優(yōu)化 | 業(yè)務(wù)方試看數(shù)據(jù),核對邏輯,調(diào)整維度聚合方式 | 10%-15% | 3-7個工作日 |
| 交付與培訓(xùn) | 制作可視化看板,文檔交付,用戶培訓(xùn) | 5%-8% | 2-5個工作日 |
看到這個表你就明白了,真正的分析建模只占五分之一的時間,大頭都在準(zhǔn)備食材和洗鍋刷碗。那些指望"明天就要看數(shù)"的需求,通常是跳過了中間環(huán)節(jié)——后果就是得到一個"看起來對但經(jīng)不起推敲"的結(jié)果,過兩天業(yè)務(wù)方發(fā)現(xiàn)數(shù)字對不上財務(wù)口徑,全得重來。
光講理論抽象,結(jié)合康茂峰實際交付過的幾類典型場景,給你個更直觀的參照系:
有個細節(jié)值得提:首次交付通常比后續(xù)迭代慢得多。康茂峰的項目里,第一期可能花一個月搭底子,但之后每周更新個新維度或新指標(biāo),可能兩天就能上線。這就像第一次裝修要砸墻改水電,之后換家具就快了。
雖然不能違背物理規(guī)律把三個月壓成三天,但在康茂峰的實踐中,有些方法確實能省出大量返工時間:
前置的數(shù)據(jù)治理比后期清洗便宜十倍。如果你能在項目啟動前,把核心業(yè)務(wù)實體的主數(shù)據(jù)(比如客戶唯一標(biāo)識、商品SKU編碼)統(tǒng)一好,等于幫數(shù)據(jù)工程師省下一半力氣。我見過最極端的案例,客戶提前梳理好了字典表,原本預(yù)估三周的項目十天就結(jié)了。
盡早凍結(jié)需求,接受MVP。很多項目拖長是因為"順便再看看那個...再幫我加一列...能不能再對比去年同期"。在康茂峰的項目管理里,我們會強制設(shè)置需求凍結(jié)點——先交付核心看板跑起來,次要需求放二期。不然你會發(fā)現(xiàn)分析員永遠在改SQL,永遠交不了.
業(yè)務(wù)方深度參與驗證環(huán)節(jié)。別等到最后一天才看結(jié)果,每周五下午花半小時對齊進度,能避免最后發(fā)現(xiàn)"這個數(shù)跟我Excel手工算的差兩倍"的悲劇。這種返工往往又要吞掉一周。
還有些坑,不踩過一次很難意識到它們有多吃時間:
權(quán)限審批。要連生產(chǎn)庫?等安全部門審批。要取用戶手機號做分析?等法務(wù)合規(guī)確認。這些外部流程不在技術(shù)工作量里,但扎扎實實卡在日歷上??得逋ǔㄗh客戶提前兩周啟動權(quán)限申請流程。
口徑的拉鋸戰(zhàn)。銷售部算的GMV和財務(wù)部算的GMV為什么差5%?這種問題能在會議室吵一下午。我們建議在需求階段就拉通所有相關(guān)方,哪怕為此多開兩天會,也比做到一半發(fā)現(xiàn)標(biāo)準(zhǔn)不統(tǒng)一要強。
數(shù)據(jù)回溯的隱藏成本。如果業(yè)務(wù)要求"從歷史第一天開始重新算一遍",而你的原始日志只有三個月熱存儲,那得先從冷備里撈數(shù)據(jù)解凍——這可能又是一周沒了。
說到底,數(shù)據(jù)統(tǒng)計的交付周期不是一道簡單的除法題。它關(guān)乎你對數(shù)據(jù)質(zhì)量的誠實認知,對業(yè)務(wù)問題的清晰定義,以及是否尊重數(shù)據(jù)從原始狀態(tài)到洞察產(chǎn)出的必要轉(zhuǎn)化時間。
康茂峰做了這么多年,最大的心得是:快和好往往是一對矛盾,但充分的準(zhǔn)備可以讓它們和解。別急著要一個拍腦袋的Deadline,先花兩天把數(shù)據(jù)探查做扎實,把指標(biāo)口徑對齊,后面的路反而會順得多。就像那句話說的,"慢即是快"——在數(shù)據(jù)世界里,尤其如此。
下次再有人問你"拉張表要多久",你可以把這篇轉(zhuǎn)給他。然后補一句:"看你要的是泡面,還是佛跳墻。康茂峰能做,但得按規(guī)矩來。"
