Category Archives: 伪学术

importing files with Chinese characters to R

I should post this on StackOverFlow..
Here’s some explanation on ASCII and UTF encoding. https://stackoverflow.com/questions…
My problem:
our questionnaire has some chinese characters, as you can imagine, all the location name is in Chinese, people’s name, seed variety, herbicide and pesticide etc, as well as the strategies they use. In excel, these characters can display fine, and so was the first time I processed them in R (now think about it, could be that I was using my mac instead of lenovo).
Anyway, the challenge is that I need to process the data in R, and I’ve exported all the excel files into CSV, with UTF-8 encoding option. However, no matter how many times/different functions I called in R, different settings in R (I’ve tried Windows default encoding, which is windows-1252, and ISO, or the different read.table, readr), the Chinese characters are still not showing properly.
Some of the tips I’ve found helpful to understand the possible errors:
Although these tips didn’t solve my problem. It’s not about choosing UTF-8 or fileEncoding or encoding. At the end, it is fucking excel’s problem, because I found this one and it helped a lot: https://stackoverflow.com/questions…
Turns out even you selected encoding UTF-8 when you converting xlsx to CSV, excel doesn’t do it..So you can either convert the data to txt, or using google spreadsheet and download it as a CSV. Also, you have to cancel the automatically open downloaded file this option, because once excel opens the CSV, the encoding is messed up again.
Another thing to pay attention is that, at Import Dataset, when you use Data Viewer, it may not show the proper encoding results. My data could be imported properly if I finished the importing process rather than just look at the Data Viewer.
I also find UTF-8 is different from UTF8 (however, I can’t prove which one is correct), but I think my main problem here is caused by excel.

【9】Can REDD save the forest?

 

【明明应该是六月七日发布的日志】

第九个月的主题当然是学术。

二月份的时候老板就说让我参加CAG,the annual meeting of Canadian association of Geographers。因为committee member 德哥刚来我们系任教,受命主持其中一个ABM的session。不然之前Ray告诫过我说在CAG上讲ABM底下的人都听不懂的,AAG还差不多(AAG有关ABM的section持续了两天)。老板当时问我做个poster怎么样,我考虑了一下,脑残的说,要不还是做个presentation吧。后来发现当时自告奋勇的我是有多“无知者无畏”和“不自量力”。

这个会议也让我意识到了自己有多严重的procrastination。proposal很早就写好了,却一直不去动手调程序,觉得应该没有那么难搞定。在这种盲目的自信和懒惰中迎来了最后一个月的苦逼生活。还好有ray(我那几天跟ray发了大概一百多封邮件。。。)和吴龑还有其他人的帮忙,在报告的前两天跑出了实验结果。也因此意识到很多idea是好,但是在具体执行过程中编程的困难;以及反之,编程时可以产生的一些新的idea。交相辉映?互为促进?

初写proposal时的想法其实很简单,测测那种价钱最合适补偿农民。实验进行中才意识到“从上至下”的宏观计算和“从下至上”的模拟之间可能产生的巨大差别。用经济学原理计算出来的农民肯接受的补偿价格要远远高于模拟时能够产生作用的补偿价格。虽然我也希望能够给农民更多补偿,但是当经费有限或者发达国家以“太贵”为借口时,我们可以拿出模拟的结果为例证驳斥这种说法。当然,模拟还是有很多需要验证/改进的地方的。

后来和老板还有德哥商量,按我自己的想法就是越快出文章越好。老板是老好人,什么都OK,德哥就不行了,直接来了一句“我们都知道这个实验的内容是不够出文章的”。德哥,我不关心第一篇文章的质量啊,555。。。这么一来我想趁热打铁出文章的斗志又没有了。

总之,还是斗志不够,自我管理能力不够。

【7】虚怀若谷

看,拖拉机不仅能拉猪还能拉人去枫糖节,要学着接受啊亲!

看,拖拉机不仅能拉猪还能拉人去枫糖节,要学着接受啊亲!

其实三月份的主题应该是“切忌刚愎自用”,或者更简单的讲,要能接受不同事物、想法、意见。虚怀若谷这个词可能也不对,欢迎提供纠正意见(我还专门查了该成语的意思,不仅英文没有练好,中文也退步了)。

之前跟同学聊天的时候说到“文商指数”——人们接受、适应不同文化的能力,加拿大国民的文商指数全球排名第一,这当然和加拿大是移民国家的背景分不开。作为在加拿大生活了七个月的我,也渐渐开始学会平心静气的接受不少cultural shock甚至academic shock了。

第一次意识到自己会不由自主的评判别的文化,是和中德混血heidi聊起西式早午餐这个话题。我当时皱着眉头问“为什么你们要在早上吃那么油腻的土豆呢?”,潜意识里认为西人果然肠胃更厉害且不会像我们做精致的各色早点。Heidi说,这是我们的习惯呀,以前农民要出去做工,早上出门前吃土豆会很管饱。这是个多么合情合理的原因啊,在我了解它之前为什么要在心里鄙视耐饿的土豆呢。。。

第二次是跟韩裔tutor的一次对话。前两个星期滑铁卢天气非常抽风,直接从冬天过渡到了夏天(今天又下雪了,暂时就不吐槽这个天气随机播放的2B城市了)。我只一个周末没有见到tutor,再看见她时她已经黑得像刚去了一趟非洲。我很惊讶(其实有点嫌弃)的问她怎么变得这么黑了,她说不知道呀,没注意就这样了,语气轻松愉悦,一点也不像我们晒黑后大惊小怪的样子。我其实知道北美这边流行”美黑“,在多伦多出生的我tutor肯定更是taned的爱好者,只是一时没忍住嘴快就问出了那个问题。关键是后来小组讨论的时候,一个香港背景的CBC说”啊,怎么会有人想要美白?!“。。。

说起来咱们祖国一直强调自己是多民族融合的国度,但其实汉族的同化力实在强大,我猜测大概由于我们不允许”特立独行“的事物或者行为以及人的存在。从小受这种教育长大的我,不仅理所当然的长成了一个”面目模糊“的”好学生“,更是认为所有的事情都应当和我的”饮食习惯“、对”美“的看法相同。但其实多元化才是发展的基础呀,不然我们干嘛拯救基因库,又为什么强调多学科综合,甚至连agent在做选择时也是不同偏好才使平均utility更高呢。

除了这些,最近因为读了几篇导师给的文章,所以对我博士研究的ABM也有了一点观念上的转变。我一直认为土地利用模拟一定要跟现实做对比,不能反映现实的模型不是好模型,不能被generalize的决策规则不是好的规则。所以以前读文章的时候总是纠结于ABM的验证环节的缺失和先天不足,以及即使做现实的模拟,结果也总是差强人意,甚至都不优于随机的模型结果。。不过现在已经开始慢慢接受这第三种科学方法了,我的理解就是试着通过现有的样本、案例、经验、理解做出在这种情况下最合理的假设,或者最好的模拟结果,对于导致这种结果的过程,我们可以怀着信心和信念,因为人类和环境的复杂性,我们看到的感知到的永远是受限制的。而且与其他科学研究以推理演绎、归纳总结为方法和Occam’s razor为指导思想不同的是,ABM是试图尽力反映人类的交互和人类环境交互的混乱性。。所以我们永远无法将所有的可能性考虑进来,提出一个简单的人类决策规则,建立一个完美的ABM模型。

reading list还很长,code也很多,同志仍需努力。学术之路,最重要的大概就是虚怀若谷了吧。

特别鸣谢:教授同学

 

Gmail真的越来越智能了

平心而论,我帮老板给他家里干得杂活要比小祁师兄少多了,但是遇到特别麻烦的也还是会忍不住咆哮一下,比如:

“帮老师整理在美国半年的跟他老婆孩子一起的各种吃饭和旅游的票据准备报销的时候再喜欢我老板也不禁想大骂一句老娘是你研究生不是你秘书!!”

而且我跟老板的绝大部分邮件都是论文的各种数据、会议安排之类。我的gmail邮箱里,至少有50%的邮件是老板发来的(有同学可以教教我怎么统计具体占百分之多少吗?)。又因为他没有写主题的习惯,这些邮件都是“无主题”以及拥有巨大的附件。

因此,常理思考,我的gmail是绝不可能会spam他的邮箱地址的。

但是Gmail的确Spam了一封我老板的邮件!而且是有主题有正文有附件的一封邮件!!

是一封帮他老婆下文献的邮件!!附件是两页的文献目录!!!

G妹啊,你到底是有多智能!!!我实在太爱你了!!!!

 

少林寺的扫地僧

最近毕业生的盲审意见返回了,文印中心的小姑娘们忙着把专家写在纸上的意见敲到电脑里。

我去的时候听到小姑娘A问小姑娘B:为啥这篇论文的一个专家意见是优,另一个是差?

小姑娘B答:可能两个专家看问题的角度不一样吧。

————————————————————

还有一次,小姑娘C问:为啥这本论文是精装的?

小姑娘D说:因为他获得了院长奖。

中国科学院地理科学与资源研究所2011年博士考试——生态学B

考试时间:2011年3月20日8:30-11:30.

一、名词解释(5分×6)

1、光周期XX

2、异养呼吸

3、互惠共生

4、食物链

5、生态足迹

6、r-选择

二、简答(10分×3)

1、我国植被生态系统分布规律(纬向和经向)及主要影响因子。

2、“趋同进化”和“趋异进化”的特征及举例说明。

3、土壤呼吸的XX(类似过程?的一个词)和主要驱动机制。

三、论述(20×2,三选二)

1、全球气候变化对森林生态系统的影响以及森林生态系统对减缓气候变化的作用。

2、外来侵入植物种对生态系统生态多样性及功能的影响。

3、试述氮沉降对生态系统的影响,并设计实验。

 

题目挺偏的,我开始还在想是不是把生态学A的考题拿过来了。

任何人都不许在底下给我说答案!当然欢迎补充那个我忘记了的名词解释。

只写了2个半小时就出来了,懒得写了。。

中国科学院地理科学与资源研究所2011年博士入学考试——自然地理

考试时间:2011年3月19日,14:00-17:00
一、简答(10×3)
1、气候形成的地理因子
2、主要成土过程
3、生物多样性
二、论述
1、我国水资源利用的主要问题(20)
2、我国地形的特征(20)
3、试述综合自然区划的研究内容(30)

个人总结:分别从水、土、气、生、地五个部门出了一题,最后一题必然是我们室的招牌:综合自然区划。据说这是郑先生搞了一辈子的东西。。。
狂写了3个小时整,期间反胃数次。
记录之,以飨后人。

ArcGIS 10–原来是念爱色瑞

7月30号去参加了ArcGIS10的新产品发布会,在亮马桥大厦。虽说跟自己目前的工作联系并不紧密,但是我不想丢掉本科时GIS的基础,况且在发布会上听到“矢栅一体化”、“时空GIS”等等,还是瞬间就唤醒了当年的基础概念,老激动了。

关于ArcGIS10的5大新亮点——协同、一体化、三维、时空和云,我觉得对我的工作有重要作用的将会是时空GIS和一体化GIS(当然没有试用不确定)。

时空GIS这个概念很早就有,认为地理数据不仅是空间上的信息(三维),还应当包括时间轴信息(四维)。比如1985年的土地利用数据、1995年的土地利用数据和2005年的土地利用数据。但是一直以来难点都在于四维数据的空间数据库结构吧(我个人认为),所以我的工作在使用ArcGIS9.2时,都是分开存储的,每次都是单独处理某一期的土地利用数据,有时候甚至会出现不一致的操作。但是在ArcGIS10中,1985、1995和2005三期的土地利用数据是可以通过time slider这个工具同时可视化显示的。当然我希望这个time slider不仅可以可视化,还可以管理和存储(不知道arcGIS10可不可以)。

一体化就是矢量和栅格的共同管理。就土地利用来说,之前一直是在envi或者erdas里面解译遥感影像,然后再用arcgis转成我们常用的矢量格式。相当于遥感影像是遥感影像,矢量是矢量,两者之间除了空间上可以对的上,其他也没啥关系了,而且操作起来很麻烦。arcGIS10是把这两种数据格式通过某种机制关联起来,意味着我们可以直接在矢量数据上叠加很多种遥感影像。方便很多呀。还有一个很牛B的功能是拉框显示影像中的所有建筑物,甚至是在阴影底下的也可以。当时他们演示这个功能的时候我没啥反应,倒是旁边对地观测中心的两个同学惊呼了起来。很让他们郁闷的是,平常他们的工作就是在图像上一个一个的画建筑物的边框,人家arcGIS可以一步就出来了,让他们情何以堪啊。。。

另外就是对云GIS印象也比较深刻。不过好像它跟云模型是截然不同的两个概念。我决定要好好学习一下云模型。

还有啊,google和微软的在线地图服务让esri也坐不住了,他们也开始要在线上地图和共享上做点事情了。

只是我不知道“衣色瑞”和“爱色瑞”两个发音,有啥子区别?大家都念“衣色瑞”,何苦要在宣传册上大字印出“我们的新发音‘爱色瑞’”呢?。。。反正黑猫白猫,大家爱你就是好猫啊。