核心内容摘要
藏在纸页间的禁忌之吻:那抹令人脸红心跳的小黄书美学
示例网页链接https://movie.douban.com/subject/36907263/BUG浏览器开发者模式可以看到所需信息有对应的HTML显式结构但代码爬取时发现结构被hidden需要二次加载importrequests urlhttps://movie.douban.com/subject/36907263/headers{User-Agent:Mozilla/
0}responserequests.get(url,headersheaders)print(response.text)即便使用selenium将修改type属性让其不隐藏再取出被隐藏的数据也不行fromseleniumimportwebdriver driverwebdriver.Chrome()driver.get(https://movie.douban.com/subject/36907263/)jsdocument.getElementById(red).typetext;driver.execute_script(js)contentdriver.find_element(byid,valuered).textprint(content)driver.quit()其实我觉得这个逻辑是对的但结果非预期求助是不是哪块代码没写对 T^T 想打印下修改后的HTML也没打印出来 o(╥﹏╥)oDEBUGSelenium 的核心功能是模拟用户在浏览器中的操作所以只需要增加等待时间等待页面全部加载出来即可。
加载后的页面就是我们在浏览器开发者模式下看到的全部HTML结构。
fromseleniumimportwebdriverimporttime driverwebdriver.Chrome()driver.get(https://movie.douban.com/subject/36907263/)time.sleep(