职位描述
岗位职责:
1.根据业务需求开发特定或通用爬虫模块,确保分配的爬虫开发任务按时,按质量完成。
2.负责对已上线数据源进行定期维护,包括:数据源改版重新适配、失效数据源清理、数据采集和处理监控告警处理。
3.通过大模型生成爬虫采集模板,对大模型Prompt进行优化。
岗位要求:
1.能够熟练应对常见反爬机制,有独立处理账号限制、复杂验证码、数据加密、JS防护/混淆等疑难问题的能力;
2.熟悉TCP/IP、HTTP、HTTPS等网络协议和各种Web前端技术(HTML/JavaScript/Ajax/CSS等);
3.熟悉requests/scrapy/Selenium/Puppeteer/PhantomJS等流行爬虫组件或框架,熟练掌握Python多线程编程;
4.熟练掌握Redis缓存、Kafka消息中间件等常用组件,能对分布式常用技术进行合理利用,解决实际问题;
5.精通MySQL、MongoDB等常用数据库,熟练掌握MySQL调优技巧;
6.熟悉linux操作系统基础指令,能在linux操作系统中独立完成程序部署、运行及维护工作。
7.有大模型应用经验者优先。