職位描述
該職位已進行加V認證,請放心投遞
崗位職責:
1. 需求分析與規劃: 深刻理解VLM核心任務及其數據需求,識別當前數據短板。
2. 數據檢索與獲取:高效利用網絡資源(包括主流社交媒體平臺、專業社區、公開學術數據集庫、特定領域網站等)檢索、爬取所需的多模態原始數據。
3. 數據定制化: 根據特定項目方向(如面向用戶實時交互的視頻流媒體場景)定制數據源策略和數據采集方案。
4. 數據處理與構建:
○ 設計并執行數據清洗、預處理、去噪流程。
○ 定義并確保高質量的數據標準。
○ 組織和管理數據標注工作。
○ 構建結構化的、適用于模型訓練和評測的高質量數據集。
5. 流程優化: 持續優化數據獲取、處理、標注、存儲和管理流程,提升效率與質量。
6. 評測數據建設: 專注于構建公平、全面、具有挑戰性的VLM模型評測數據集,服務于模型能力評估和行業對比。
任職資格:
1. 學歷與專業背景:
○ 計算機科學、數據科學、人工智能、軟件工程或相關領域的本科及以上學歷。
2. 相關經驗與技術領域年限:
○ 年限:
■ 1年~3年數據處理、數據工程或機器學習相關領域工作經驗。
■ 1年及以上實際處理多模態數據(圖像+文本、視頻+文本等)的項目經驗,熟悉其特有挑戰和處理方法。
○ 優先:有視覺語言模型(VLM) 相關項目數據工作經驗,深刻理解其數據需求。
3. 專業技能:
○ 數據處理基礎扎實: 了解數據清洗、預處理、轉換技術,熟悉常見的數據處理工具和庫(如Pandas, NumPy, SQL等)。
○ 多模態理解基礎: 對計算機視覺(CV)和自然語言處理(NLP)的基本概念、任務及數據格式有清晰理解。
○ VLM任務認知: 深入理解主流VLM任務的原理、評估指標及其對數據的具體要求(如高質量的圖文對、精準的視頻-文本對齊)。
○ 網絡數據檢索能力: 熟練掌握從各類網絡資源(社交媒體、專業論壇、公開數據集平臺、特定領域網站)高效檢索和獲取所需數據的方法與工具(如爬蟲技術、API使用)。
○ 數據標準制定: 具備定義清晰、可執行的多模態數據質量標準(如圖文相關性、視頻片段描述準確性、時序對齊度)的能力。
○ (加分項)數據標注管理: 有設計標注規范、管理標注團隊或使用標注平臺的經驗。
4. 軟技能:
○ 信息搜集與整合能力: 能夠敏銳地發現并整合分散的網絡數據資源。
○ 分析與解決問題能力: 能夠精準分析VLM任務的數據需求,識別數據短板,并制定有效的解決方案。
○ 細致嚴謹: 對數據質量有高標準要求,注重細節,確保數據的準確性和一致性。
○ 溝通協作: 能夠清晰表達數據需求和標準,與算法工程師、研究員、標注團隊等進行有效協作。
○ 主動性: 主動探索新的數據源、工具和方法,持續優化數據流程。
○ 學習能力: 能夠快速學習VLM領域的新進展及其對數據提出的新要求。
福利待遇:
1、綜合薪資:12K-24K
2、繳納五險一金,有帶薪休假
上班時間:
1、9:30-18:00雙休
2、可彈性1小時打卡
3、法定節假日正常休
工作地點
地址:杭州余杭區五常街道阿里西溪園區
??
點擊查看地圖
詳細位置,可以參考上方地址信息
求職提示:用人單位發布虛假招聘信息,或以任何名義向求職者收取財物(如體檢費、置裝費、押金、服裝費、培訓費、身份證、畢業證等),均涉嫌違法,請求職者務必提高警惕。
職位發布者
HRHR
阿里巴巴(中國)有限公司
-
IT服務·系統集成
-
1000人以上
-
中外合資(合資·合作)
-
杭州濱江區阿里巴巴濱江園區699
1年以上
本科
2026-02-01 10:54:18
733人關注
注:聯系我時,請說是在四川人才網上看到的。
