https://github.com/phodal/2md
html转化为markdown
https://github.com/domchristie/turndown
这个是原始的网站工具
http://url2io.applinzi.com/docs
提取正文的网页服务
https://www.cnblogs.com/yetuweiba/p/4149683.html
提取网页正文的开源库的比较
https://www.cnblogs.com/jasondan/p/3497757.html
我为开源做贡献,网页正文提取——Html2Article
https://yq.aliyun.com/articles/622451
网页正文提取方法一二
https://www.yuanrenxue.com/crawler/news-crawler-content-extract.html
大规模异步新闻爬虫:网页正文的提取
https://dfkan.com/2333.html
使用API智能提取网页上的文章正文:url2io
https://www.jianshu.com/p/af5c5ef4f2f5
使用Python进行网页正文提取
http://www.elias.cn/MyProject/ExtMainText
ExtMainText —— 提取html文档正文
https://github.com/goose3/goose3
✨Python下非常好用的提取库