开了个新坑,搞一个一键转载的 Chrome 插件

缘由

最近重建了博客,但是另外想起一个站点,就是友链里提到的 笔记.xKnow,主要用来记录搜索过,可能日后还会再用到的知识点。正好前段时间看到一个项目,叫 GeneralNewsExtractor ,这是一个具有很高准确率的新闻新闻提取器,是基于文本及符号密度来提取网页正文。

因此我就想可以做一个 Chrome 插件,在看到需要记录的内容时,一键转载到自己的笔记平台中。

实验

  1. 这个库的算法,提取新闻网站的准确率很高,但是找了个代码网页的文件尝试,发现准确率不太稳定,当然也可能是我提供的 HTML 没有很好的处理噪声有关,具体的原因打算稍微往后一放再探究,同时研究下有没有针对带代码的博客内容进行优化的办法。
  2. 因为在这个插件的设计中,考虑到了针对常见的博客平台进行精准提取,所以第一条的相关探索便往后延放了,我就先通过选择器来精准提取了网页内容,然后准备把整体流程先跑通,对自己的想法做一个验证。
  3. 知识库的平台还在考虑,暂时在想用 Ghost,不过太久没用过了,准备本地搭一套来进行尝试,而且 Ghost 提供了足够的API接口,可以直接通过HTTP请求进行对接。这个插件我是想支持多种CMS平台的,比如 WordPressTypecho 等等,甚至还可以有掘金、简书等等。还可以对接ArtiPub这个平台,实现一问多发,这都是后话。

目标

  • 第一步的目标,找一个被转载网站和一个发布平台进行开发,实现基本的转载功能,并根据扩展性调整整体的代码架构。
  • 之后尝试搞搞通用的内容提取功能,使得在内置的平台外的任意网页也能有不低的提取成功率。

结语

不知道多久会填完这个坑呢?已经开挖了,感觉还蛮有趣的,先立个 Flag:我一定要把这个插件完成!

好了,开始了填坑之旅。

晚安。