目前初步的实验了一下,从网易导出数据使用的是blog_backup这个工具,这个工具目前是收费软件。作者的免费功能只能到抓取博客中的所有文章到其sqlite数据库(我个人感觉这个工作内容比较复杂,而后面需要注册的导出功能实际是比较简单的),幸好作者没有对这个数据库进行加密,可以直接用sqlite工具读取,这个工具本身也可以导出成多种格式的文件。但是这些都需要注册了。本来想试图破解一下,但是功力不够也嫌烦,想想sqlite文件都有了自己读取了生成rss2.0的xml也容易。用ruby + sqlite3-ruby这个gem写了几行代码就做到了。原来一共有216篇文章,生成一个rss文件后使用wordpress后台的导入功能时遇到了几个问题。
- 导入到某篇文章时会终止
- 导入的文章内容被截断,尤其是有“{”的文章,有些文章中包含源码,很多“{”符号
- 有些文章导入后导致主页排版有问题。
所以初步试验了一下后我又将导入的文章全部先删除了。这其中的问题就是网易生成文章的时候嵌入了太多的html元素。另外很多文章也是我以前复制粘贴上来的,也就意味着复制粘贴了当时引用页面的所有源代码,肯定格式会很乱。如果要继续搬家工程,就要对这些东西进行精简优化。看来各种问题还真的不少。同时也体现出来自己对HTML学习的不好。