update: utils 模块多项优化与功能扩展
[asin_parse.py] - ParseAsinUs 新增 response_s 参数,支持外部传入 etree 解析树,避免重复解析 - 新增搜索框分类(search_category)字段解析 - 分类路径新增 all_nodeid(全路径节点 ID 拼接)及空值保护 - initialSeenAsins 解析新增空列表保护,防止 IndexError - AI 评论按钮解析改用 data-testid 定位,过滤无效短文本 - 修复 es 站品牌解析变量名冲突 bug - 修复评论数去括号逻辑及德站 Sternebewertung 判断错误 - 修复日期解析变量名 data_time 误用 bug - 移除优惠券动态 XPATH 追加逻辑,防止重复追加 [db_connect.py] - BaseUtils.__init__ 新增 site_name 参数(默认 us),不再硬编码 - 新增 doris_connect_adv() 连接 Doris 广告库(advertising_manager) - 新增 doris_adv_direct_connect() pymysql 直连 Doris 广告库 - 清理旧版 SQLAlchemy 注释代码及调试 print 语句 - Kafka 超时 30000→40000ms,linger_ms 150→350,重试 10→5 次 [requests_param.py] - 新增 next_page_lock 线程锁和 headers_num_int_s 属性,支持多线程分页 - 修复中文检测 check_str 为 None 时报错的 bug - cookie 加载上限 300→350 条 - 修正请求头 accept-Encodin 拼写错误,移除 authority 字段 - 请求超时 10→30 秒,提升慢速页面成功率 [params_asin_xpath.py] - 全站点 review_ai_list / review_button_list 新增 data-testid XPath,兼容新版 AI 评论结构 - 全站点新增 fbm_delivery_price 字段,采集 FBM 配送运费 - 全站点新增 search_category 字段,采集搜索框当前分类 - US/UK/DE/FR 站点 td_0_text 新增多条 XPath,适配 Amazon 最新页面结构 [check_columns.py] - 取消 __main__ 注释,支持脚本直接运行 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
Showing
Please
register
or
sign in
to comment