利用citeUlike管理文献

http://www.citeulike.org

上次介绍了一个网络服务叫地沟,今天再介绍一个我最近几天在尝试用的好东西吧,citeulike,我叫它“引你喜欢”。

对于研究生和做科研的人来说,必不可少的事是读文献。(在北京的保福寺的研究僧称之为读经文。)读文献是一切科研工作中的第一步,重要性不言而喻。面对浩如烟海的文献,我们需要一个好办法管理起来,为了三个目的:

  1. 方面查找、分类、阅读文献;
  2. 方便引用;
  3. 跟踪相关文献和相关领域的研究者。

先说说如果不用任何文献管理工具的情况。我们往往这么干:

  1. 到网上下载文献,通过作者、关键词或者标题的搜索,找到文献,然后下载一个pdf文件;
  2. 把这个pdf放在自己机器里的不知道什么地方,有可能读,也有可能就忘了读没读;
  3. 需要用到得时候,已经想不起来了,即使能想起来,也需要重新去搜索一遍才能知道引用代码;
  4. 所有人都在重复这样做,缺乏交流和分享,大量的重复。

citeulike就是解决上面这些问题的。说说我的体会:

当你到你的专业领域的数据库网站找到你感兴趣的某个文献后,先别着急下载,通过一个citeulike的按键可以把这个文献添加到你的账户里。添加后会自动编排好文献的基本信息以及下载链接等,这里面靠的是国际通行的编码系统。你不用担心你的专业的文献不被识别。基本上这个世界上所有的正规出版物,都会具有一个国际统一的编号,这种编号有几种体系,下面顺便介绍一下吧:

  • DOI编码:例如 doi: 10.1088/1009-9271/7/1/08 是我的一篇论文;
  • PubMed ID:针对生命科学和医学领域的文献;
  • ISBN:全称是“国际标准书号”,例如9787533533687是我参与写作的一本书的编号。

基本上我们要读的文献都可以通过上面三个编码定位,citeulike就会按照格式编排进去。同时,可以让用户自己定义这篇文献的标签。在这之后,我们的图书馆里就有了这样一篇文献。接下来要干的事和上一篇博客中地沟的故事很像,你可以看到这篇文献还有那些人也添加在自己的图书馆中了,这些人可能是和你有一样研究方向和领域的同行,那么,跟踪他们将对你非常有利,citeulike提供这种联系功能。你可以直接和他交流,也可以查看他还添加了哪些其他文献,也许这当中有潜在的对你有用的。

在citeulike里,还可以创建自己的兴趣小组,也可以加入别人的小组共同分享文献。可以针对文献作出评论、记笔记。当然,最方便的是可以直接输出一批需要引用在你自己论文里的参考文献的引用格式,排序自然也不在话下。

我的图书馆是 http://www.citeulike.org/user/hippoh 欢迎关注,欢迎交流科学文献。这种类型的网站服务,只有当用户数量达到一定规模之后才能越用越出色。希望年轻的同学们都一起来尝试使用新技术带来的新科学方法吧。

最后说一句,citeulike的开发合作者是著名的斯普林格出版社,这是一家国际著名的专门出版学术著作和期刊的公司,总部就在海德堡。

银河系模型与模拟的基本构造

如果我们要用构建一个模型,用来模拟某一个天空方向(比如银北极方向)的、某天区面积内、某颜色范围(比如g-r在[0.2, 1.2])的、某视星等范围(比如g在[14,20.5])的观测,一般来说有两个大步要做。

第一步是要确定出太阳周围临域(比如半径25pc的球)中的恒星数目,并且知道这些恒星中有多少是盘的、多少是晕的,还要知道它们的颜色分布、绝对星等。也就是说需要知道太阳临域的恒星的光度、多波段测光、距离、星族归属这4件事。

第二步是明确所有模拟的方向(包括坐标(l,b)、面积A)。将视线方向的一个圆锥形的空间按照距离分割为若干个薄层(体积为dV(r))。然后根据某一个薄层所处的r计算第一步中的恒星数目到这里衰减到了多少,当然要分颜色算,分别算三个星族成分的。然后根据颜色和星族成分已知的绝对星等和这个距离r得到视星等。这样,我们就知道了在这个距离上、这个方向上有这么多的这个视星等的星存在。然后循环跑遍所有的r(给一个上下限即可)再进行累加,得到这个方向上全部的恒星在不同颜色、星等bin中的数目。当然也是分为三个星族成分的。这其中最主要的部分是衰减规律和距离积分。

这两步之后就会得到一个特定天区的Hess图,将其与观测Hess图进行比较,便可以拟合出最佳的参数。根据最佳参数得到的恒星在不同距离上的数目、星等、颜色,可以转换为一个假象的模拟星表,表中可以列出每一刻星的模拟参数。今天先说说第二大步的做法。

在太阳临域,thin disk,thick disc 和halo各自有他们的N(Mg,g-r)函数。在某个距离上,都可以将N带入一个密度轮廓函数得到n(r),当然也得是关于(Mg,g-r)的函数。这时由于r确定,针对一组g-r,一组Mg就被转化为一组g值。从而转化为一个m(g,g-r)函数。但这仅仅是针对一个特定距离上的恒星数分布。如果计算每一个r(给一个小增量dr),就可以得到每一个薄层的恒星数目在(g,g-r)中的分布。全家起来就是整个天区的结果。实际上沿着r方向积分是一种径向投影,损失掉了Mg的信息。我们不再关心恒星的空间距离和光度,因为我们只需要与测光巡天的结果对比即可。r可以线性分割,即dr是常数;但由于r与g的对数关系,如果我们希望将新生的g空间进行线性分割,就要求我们进行视线方向的积分时,dr是按照对数间隔选取的。这之后,如果再进行一次差值和一次高斯平滑操作,就可以得到预言任何颜色、星等处有多少盘星、晕星。

经过测试,结果对dr的取值依赖不大,对r的上下限的给定依赖不大,对平滑和差值误差依赖也不大;但结果对N依赖很大,对密度轮廓函数依赖一般。因此我下次专门说第一步中确定N的过程。

虚拟天文台科学应用测试

从我上次说虚拟天文台(VO)又过了几年了,现在已经发展到了一个新的高度。不过我这里不说任何技术问题,只说科学应用。这两年来我又有了一些对虚拟天文台的认识。虚拟天文台不仅仅是一个查询数据的数据库,而是应该成为一个链接所有数据库的桌面集成环境。虚拟天文台不仅应该不是数据库,反而应该刻意让人体验不到数据库的存在。比如我们感兴趣一个坐标位置,也许是某个恒星。我们不需要到几十个巡天项目中去挨个查询下载星表和数据,而是在VO平台中给出坐标,就可以一次性得到所有已经观测到得这个位置的星表、图像、光谱、数据。这个过程我们不需要关心这些星表和光谱分别来源于那个望远镜,也不需要担心他们之间的格式和定标问题。

在图中我们看到的是LMC方向的查询结果,背景的黑白图像是ESO的图片,红点是并和了各种巡天的恒星,还有一种小黑点是星系总表。当我们用鼠标选取他们时,下面就会列出星表。如果我们启动了另一个VO工具,比如Topcat,我们就可以直接将这个星表传递给Topcat,而不需要“另存为”。在Topcat中可以直接处理这个星表,比如画图或是提取光谱信息,再传递给另一个VO工具专门处理光谱。

他们之间有一个统一的借口,其技术标准由IVOA制定,这里不多说。

经过我的测试发现,Aladin向外广播很顺利,Topcat向光谱工具广播也很顺利,但Topcat向Aladin广播不是那么顺畅。另外,Aladin对图层的自动下载的控制功能较弱,面对多个大数据量的下载过程,期间如果想要中断或删除图层,经常造成卡死。这可能与网络有关,或者与我的内存有关。

Topcat经过几年的发展问题很少了,目前的操作已经得心应手。包括交叉认证、可视化、有条件选择子样本等等功能都非常实用。

另外Astrogrid我也尝试了一下,能够感觉出它的强大,但依然距离实用很遥远。实际上,通过astrogrid查询某些限定条件的SDSS星表时,并不比直接去SDSS网站查询省时间,可定制的程度也不高。但其桌面整合的思路很值得学习。

其实所有的VO工具都可以直接在线查询数据,但他们在功能上各有侧重。操作方式也都很不同。但这仅仅是一个开始,一个很有前景的开始。今天的天文学很少有人真的用VO平台完整自己的全部工作。人们依然喜欢去各种不同的地方搜集散落的数据,然后用自己“独门秘籍”一样的方法去发掘数据内容。VO的希望,应该寄托在今天的研究生身上,让这些人从一开始就有VO的概念,将来会好得很。

赫歇尔家族的辉煌

熬到半夜刚刚赶完presentation,基本上能在组会上讲清楚了,也是时候认真总结一下,所以准备的认真些。再加上很久没见姜老板和组里的同学了,希望大家都还好,很想念过去组会的气氛。熬夜工作的时候容易越来越兴奋,所幸加班加点再写篇博客吧。

150px-William_Herschel01

天文学家赫歇尔,学天文的都知道这个人,因为他发现了天王星。另外,他在银河系模型的工作上做了奠基性的工作。

这个赫歇尔是威廉·赫歇尔,生于1738年的德国。当时的德国汉诺威与英国结成了同盟,年轻的威廉正在乐队里演奏,所在的乐队被派到了英国。威廉本事搞音乐出身的,能熟练演奏管风琴和双簧管等乐器,还能自己作曲。他的乐团到了英国之后,他很快学好了英语,后来成为了乐团的总监和智慧。他在英国一直住在一个叫巴斯(Bath)的小镇,关于这个小镇的介绍请看鱼头的博客文章《巴斯光年》。不过,这位杰出的音乐家并没有在音乐领域被人没记住,他当年的大部分曲谱都丢失了,他被人们记住竟然是因为后来改行从事的天文学。

威廉·赫歇尔在35岁的时候才开始对天文产生兴趣。天文爱好者都知道,发烧级的爱好者都会自己手工制作望远镜。威廉很快就加入了这个队伍,开始自制望远镜。后来,他的同胞妹妹卡洛琳·赫歇尔也搬过来帮他,可能是觉得他哥哥鼓捣的这个东西很新鲜。一开始,他们用自制的小望远镜观测月亮,通过月面的阴影起伏来估算山峰的高度。这是当年天文学家和天文爱好者都很乐于从事的活动。后来还观测过一些双星,编写了双星目录。就这样,当了8年的半专业天文爱好者之后,有一天夜里他在观测双星,看到了天王星。天王星之前被人们看到过,但因为过于遥远,运动过于缓慢,天王星一直都被当做普通的恒星看待了。可能是威廉的望远镜精度高、色差球差比较少,他发现这颗星不是点源而是有一个云一样的面积。他报告说他发现了一颗彗星,在金牛座方向。当时的皇家天文学家觉得不太像彗星,因为没看到尾巴。后来随着人们关注的增大,技术的提高,很快被证实是一个太阳系内的大行星。于是威廉·赫歇尔一下子出名了,被英国王室授予勋章,封为爵士。由于他的出色工作,被选为皇家学会成员,变成一名年薪200英镑的职业天文学家。

妹妹卡洛琳·赫歇尔也和哥哥一样开始热衷于天文观测,很大程度上起到了辅助威廉的作用,尤其在彗星方面,妹妹撰写了大量的观测记录和星表。

在他的职业生涯中,他共制作过400多支望远镜。其中最大最著名的是一台12米长、口径1.26米的反射望远镜。就在1789年,该望远镜第一次使用时,他便发现了土星的新卫星,一个月后又发现另一颗新卫星。今天的英国皇家天文学会会徽即为此望远镜。可是,这台望远镜操作起来相当不便,他大部分的观测其实是利用另一台较小的。他经常把自己制造的望远镜送给别的天文学家使用,据说有一台被传教士带到了中国呢(乾隆年间?)。

他儿子约翰出生在观测室里,长大后协助他父亲和姑妈一起做天文观测,后来也成为了著名的天文学家。照相底片就是约翰发明的。由于约翰的杰出贡献,也被封为骑士爵位,死后举行了国葬,安葬于葬有牛顿、莎士比亚和英国皇室成员的西斯敏斯特大教堂。

儿子出生后,威廉创建了伦敦天文学会,成为后来英国皇家天文学会的前身。

在威廉、卡洛琳、约翰的一起工作下,他们完成了一个不可能完成的任务——数遍天空的星星,并且绘制成图。然后将其解释为银河系的结构。由于当时没有消光的概念,他们的图和事实大相径庭,但却开创了恒星计数方法建立星系模型的专业。

62岁的威廉发现了红外线的存在,64岁的威廉认证并开创了小行星的研究先河。究其一生,发现了一颗大行星,4颗卫星,无数的彗星、双星。最不可思议的是,他还在业余时间做了一台显微镜,并且观察到了珊瑚的动物特征的细胞膜,从而使人类认识到珊瑚是动物而不是植物。

如果说威廉的儿子子承父业的话,那他的孙子詹姆斯便是自学成才了。詹姆斯·赫歇尔从小受到约翰发明胶片照相的熏陶,后来创立了指纹认证身份的科学方法,成为刑事侦查学的奠基人之一。

如果一个人一辈子的努力工作,能给人类带来一项创造性的贡献,就算得上伟大了。如果一个家庭有一位伟大的人物,这个家庭就算得上名门了。可是赫歇尔一家三代四口人,给人类带来了几乎无法统计的大量贡献。他们发现了太多人类不曾知道的事物,他们解释了大量过去混淆的概念,他们给技术和科学都带来了决定性的推动力。那么,赫歇尔就不仅仅是伟大那么简单了,这个家族也就不仅仅是名门了。

最近学到的一些事

第一件事,是关于量化一个群体的非理性程度的方法。从别人的博客上学到一个技术,我给简化了一下,在北师大论坛上做了一下实验,实验的结果是北师大论坛的群体非理性程度是28%。

方法是这样的:

每个人自己从0到100选择一个数交给我,事先说好,最后大家的平均数的一半,最接近谁的数,谁就赢了。

很容易想到,选择50以上的人是笨笨,因为0到100的数字的平均数的一半不可能大于50.所以如果理性面对,都应该写一个50以下的数字才有赢的希望。好了,那么如果每个人都选了50以下的数字,这些数字的平均数的一半,必然在25以下。因此,在理性的基础上再选25以上的人也是笨笨。所以就得选一个25以下的数……按照这样的逻辑想下去,最终选一个0才是最理性的结果。如果这个群体的所有人都选0,那么全体都获胜。但是显然,总有人不那么理性,想不到那么深刻,因此选0反而不会获胜。那么选多少合适呢?要选一个小于50的、也不能过分小的数。也就是说,最终大家的这个平均数越小,意味着这个群体的理性程度越深。针对北师大的测验结果显示,这个群体的平均数是28.也就是说非理性程度达到28%。作为对比,数学论坛上的这个非理性程度是0,金融时报读者的非理性程度是18%,微观经济学课的学生的非理性程度是12.5%。

第二件事,是关于安装ICQ。很诡异,怎么都装不上,在进度条刚刚出现的时候就卡死了,怎么都不动,换了各种版本都不行。最终灵机一动,发现ICQ网站上说系统要求Flash9.0以上,这是为什么呢?于是装上了Flash10.0,在安装ICQ,通过了!原来,ICQ安装的进度条是一个flash动画,如果不能播放这个动画,就无法进一步安装操作了。

第三件事,鱼头的iphone让我给变成转头了。她想把sim卡里的通讯录导入手机,结果我一查,她的版本是1.1.2,太老了,根本不行,必须升级到2.2以上。于是就连接电脑开始升级,系统自动给升级成最新版本3.1.2了,结果,这是一个未经破解的版本吧,升级之后手机就变成砖头了,任何事都干不了了。

第四件事,gtalk不具备视频功能,email状态下可以,但是经过我的测试,完全不成功,漆黑一片。

第五件事,ICQ和yahoo msg对视屏功能的支持非常差,至少我的摄像头不行,但我在QQ和msn上就没有问题。

第六件事,我把伊巴谷卫星的太阳临近恒星的数据看了一下。这个数据有完备的测光、三维位置、三位速度,也就是说包括了很好的自行数据、视向速度数据和三角视差数据。这个数据集是构建银河系模型和很多理论工作的定标基准点,因为它的全部数据都是最直接获得了。选定了一个颜色和星等范围之后,得到若干的恒星样本,在CMD上有一个不错的主序带显示出来。根据Just的做法,要看一下意大利的理论CMD,覆盖在这个数据上,然后选择理论CMD附近的恒星作为我们的样本,这一步下个星期实践一下看看。现在发现大样本选源是一个非常常见但是麻烦的工作,不知道虚拟天文台有没有简便的工具。

下一步就按照这个sample分成若干的bin,每个bin分别计算速度弥散等参数,再和模型比较一下,下面的工作就打开了。UVW速度的程序我再努努力吧,这样就比较痛快了。