内容の同じウェブサイトを作るとGoogle八分になる

朝大学に来てメール処理と研究室のウェブサイトの更新。研究室のサイトを3通りのアドレスで公開していたら、アフィリエイト目的のコピーサイトだと思われたのかどうか分からないが、Googleで検索してもどのサイトも出てこないようになってしまったので、びっくりして公開するサイトを統一する。公開した当初は検索して出てくるようになっていたのだが、首都大のアドレスをもらって同一内容で公開したあたりからがまずかったようだ。

NAISTのサイトでのページはそのまま置いておいて、首都大のページだけ今後は更新しようと思っていたのだが、それも大部分が同一のページが複数あるといけないようで、Moved Permanentally になるよう転送の設定をする。NAISTのほうも1年を目処に停止するようにしよう。

紙の大学紹介パンフレットには昔のアドレスが載ったままになってしまったので、来年忘れずに変更してもらわないといけない。こんなこと、あるんだなぁ。

昼過ぎ、Evernoteの毎月の転送容量のリセットが今日らしいので、せっせと書類のスキャン。有料会員なので月1GBまで転送できるのだが、手持ちの論文や書類を全部入れてしまった今となっては、よほどのことがないと使い切らない。今回もがんばって4月からの書類を入れてみたが、500MBくらいであった。まあ、2012年以降Evernoteをヘビーに使うようになり (それまでは Dropbox に置いていた)、あらゆる書類を入れておいて助かったことは両手で数えても下らないくらいあるので、転送容量を気にせず使えるだけでも御の字である。

午後は言語教育勉強会。hiromi-o さんの進捗報告と budi-i さんの論文紹介。進捗報告で、いろんな人が Skype の向こう側で発言しているのだが、知らない声がよく聞こえるので、4月から入学した人たちが活発に質問やコメントしてくれているようだ。今年の松本研のM1の人たちは学内のプロジェクトの公募にも2件採択されたようだし、自分たちで勉強会を2つも立ち上げて回していたりするようで、すごくエネルギッシュだなと感心する。

学部生のときは、大学で研究するのも先生が講義してくれたりするイメージで大学院に入学したものだが、実際のところ、勉強会や進捗報告を自分たちで組織して勝手にやるのが一番力がついたし、そういう自主的な研究環境こそが大学で得られるものなので、どんどん自分たちの興味のある勉強会やプロジェクトを立ち上げて中心になって動いていってほしいな、と思うのであった。(大学や大学院は、いかに「教わる」側から「教える」側に変わっていくか、というのを学ぶ場でもある)

読んだ論文は

  • Elif Eylgoez, Daniel Gildea, Kemal Oflazer. Simultaneous Word-Morpheme Alignment for Statistical Machine Translation. NAACL-HLT 2013.

である。これまでの単語単位のアライメントだけでは、派生や屈折がよく起きるような言語では統計的機械翻訳における対応付けに失敗することがあるので、文字単位のアライメントも同時に考えましょう、というアイデア。最近は文字単位の機械翻訳もあったりするし、自然な拡張だと思う。これまでなかったのは、計算量の問題かなぁ。これも、研究としてはいいのだろうが、実際のシステムで使えるかと言ったら使えないことのほうが多いだろうし……。

夕方は投稿準備中の原稿の添削。内容と表現と両方見ているので、けっこう時間がかかる。とはいえ、国際会議に出しっ放しにするのではなく、きっちりジャーナルにしていかないといけないので、地道に取り組む。

夜は火曜日の授業の試験問題作成。1学期中に小テストを2回、中間試験を1回することにしたので、これが3回目のテストであるが、期末試験も入れると全部で15コマあるので、3回に1回小テストすることにして (合計4回の小テスト)、小まめに理解度を確認したほうがよかったかな、と思ったりする。毎週いろいろと発見がある。

深夜2時までかかり、ようやく火曜日の授業の準備を完了。毎週恒例になりつつあるが、けっこうしんどい。月曜日の深夜1時から文化放送で声優の小松未可子という人の番組が2時間やっているのだが、これをラジオで聞きながら車で帰るのが習慣となりつつある。7月が終わったらこんな時間に帰るようなことはなくなると思うけど……