2024/06/09 医用画像の機械学習において一般画像を用いた転移学習を用いることについて

6 月 4 日の記事に対する補足である。 機械学習の分野において、まず「一般的な」データについて学習させたモデルを用意しておき、 それに対して「特殊な」データについて追加学習させる、という手法を「転移学習」と呼んでいる。 先日の記事についていえば、ImageNet を学習させたモデルに対し、単純 X 線画像を追加で学習させることで モデルのパラメーターを微調整 (fine tuning) する、という転移学習モデルを、 はじめから単純 X 線画像だけ学習させたモデルと比較したわけである。 理屈からいって、そんなのは後者の方が優れているに決まっているではないか、と、前回、私は書いた。

私は深層学習の分野を触り始めて日が浅いので、この問題を世間ではどう理解しているのかを知らずに、 単に理論面からの考察として前回の記事を書いた。 そこで今回は、これについて、他の人はどう書いているのかを調べてみた。

2018 年に電気通信大の庄野教授が 画像電子学会誌 47(4), 479-484 (2018) に書いた記事では、医用画像に対して転移学習が有効であろう、との見解が示されている。 庄野は、その根拠として Suzuki らの論文 ( 情報処理学会論文誌 数理モデル化と応用 11(3), 74-83 (2018)) を引用している。 ただし、庄野自身がこの論文の共著者であることに注意を要する。 この Suzuki 論文では、転移学習を fine tuning と feature transfer に分類している。 ここでいう fine tuning とは、深層学習モデルの前半部分 (いわゆる feature extraction part と呼ばれる部分であるが、 この命名は、深層学習の理論的背景をよく理解していない者による誤った名称であると私は考えている。 この点については、部分的に 4 月 29 日の記事 で触れたが、 いずれ、どこかで詳しく書きたい。) については追加学習させず、 後半部分 (いわゆる classification part) についてのみ学習させるものである。 先日紹介したラーマンの方法で比較対象とされた「従来法」も、この fine tuning の方法である。 これに対し feature transfer では、feature extraction part も含めた全体を追加学習する、という手法である。 先日の記事でいえば、先行報告である Krogue, Kitamura, Cheng らの論文は、この feature transfer にあたる。 ラーマンは、fine tuning を「従来法」と呼びつつ、その根拠として feature transfer の論文を引用したのだから、 不適切である。

Fine tuning の場合、まるで異なる画像で学習した feature extraction part を残すのだから、 転移学習によって画像の分類性能が向上するとは考えにくく、むしろ性能が低下する恐れがある。 これに対し feature transfer の場合、学習が速やかに収束するだけでなく、不適切な局所解に陥いることを避けやすいと 考えられるから、全体としての分類性能が上がることを期待できる。 ただし、学習の過程で適切な最適化が行われるならば、転移学習の有無で最終的な結果は変わらないはずである、 という点には注意が必要である。 とはいえ、少なくとも、feature transfer により転移学習することで分類性能が低下するとは考えにくい。

この問題について、デタラメな言説が飛びかっていることに業を煮やしたのか、 キチンと実験して 2019 年に報告したのが Raghu らである ( M. Raghu et al., Proc. 33rd Conf. NurIPS 2019 (2019).)。 これは、ImageNet などを事前学習に用いる転移学習では、医用画像の分類性能はほとんど向上しない、という 当然の結果を示すものであった。

Raghu らの報告に対する世間の反応にも一応、言及しておこう。 2020 年に国立がん研究センター研究所の小林は、この Raghu らの報告について 「興味深いことに, ImageNet を用いた転移学習モデルは, ランダムな初期値を与えられたスクラッチからの学習と, 最終精度において変わらなかった.」と述べている ( 人工知能 35(4), 509-515 (2020).)。 この「興味深いことに」というのは、少なくとも日本の深層学習界隈では共通の認識であったようで、 インターネット上の記事をみても、この Raghu らの報告について「衝撃的」というような表現で紹介しているものが 多数みられる。

この Raghu らが報告した「転移学習で医用画像の分類精度は向上しない」という事実は、 深層学習が具体的に何をやっているのか、ある程度数学的な部分まで含めて理解しているなら、 当然のことと感じられるであろう。 それに対し「興味深い」「衝撃的」などと反応する者が多かったのは、どういうことなのか。 理論的な理解なしに「よくわからないが、こうすれば、できる」という程度の 浅い理解で深層学習を扱っている者が少なくないのではないか。


2024/06/04 朝日新聞「X 線では『見えない骨折』AI が発見へ」の記事に対する批判

研究上の必要から、深層学習の基本的な部分を習得した。 世間では「人工知能」とか「Artificial Intelligence (AI)」などと呼ばれることもある分野だが、 この技術が行っているのはあくまでパターン認識に過ぎず、知能と呼べるようなものではない。

さて、本日付で朝日新聞に X 線では「見えない骨折」AI が発見へ 病院直結の工学研究所が論文という記事が掲載されていた。 この記事は、人間の眼では診断が難しいような骨折症例について、 深層学習を用いることで高精度に判定できた、というな雰囲気で書かれている。 この論文の筆頭著者はバングラデシュ出身の大学院生 (博士課程) であるラシェドーラ・ラーマンであるという。 この記事をみたとき、私は「おや」と思った。 深層学習を用いたこの種の研究では、何を「正しい診断」とするかが問題になる。 人間の診断を「正しい診断」つまり教師データとして用いるのは簡単であるが、 その場合、原理的に、深層学習では人間より正確に診断することができない。 それゆえ「診断の補助に有用」というような表現をされることが多く、 医師の代わりにコンピューターを使う、という水準には、なかなか達しない。 人間より正確な診断を求めるならば、教師データに何か特別な工夫が必要となる。

朝日の記事の見出しからは、この論文では人間より正確な診断ができたかのように読める。 そこで、いったい、どんな工夫を用いたのか気になり、記事全文を読んでみた。 記事によると、ラーマンは臨床的に撮影されたコンピューター断層撮影 (Computed Tomography; CT) から再構成された「単純 X 線画像風の画像」を教師データとして用いることで 「人間の眼では診断困難な骨盤骨折」の画像を作成し、教師データに用いたという。 なるほど、それなら可能だろうし、すばらしい研究だね、と私は思った。 通常、単純 X 線画像では CT に比して、診断の精度は大きく劣る。 それに対し、もし単純 X 線画像と深層学習の組み合わせで CT 並の精度を達成できるなら、 医療経済的にも、患者の被曝を減らす意味でも、また重症患者を CT 撮影室に搬送せずに済むという点でも、有益である。 特に骨盤骨折の場合、CT 撮影室に搬送すること自体が止血の妨げとなり生命を脅かす恐れがあるので、 CT なしに診断できることの意義は大きい。

朝日の記事にはラーマンの方法がどの程度の精度で診断できたのか書かれていなかったため、 元論文を読もうとした。なぜか朝日新聞は元論文の引用情報を記載していないのだが 兵庫県立大学兵庫県立 はりま姫路総合医療センターがプレスリリースを出しており、それによると Sci. Rep. 14, 8004 (2004) のようである。 なお、この Scientific Reports という論文誌は査読が甘いことで有名である。

元の論文を読んで、がっかりした。 そもそも、この論文が何を主張しているのか、さっぱりわからない。 結論 conclusion に相当する記述がないのである。 研究結果が科学的に極めて重要なものであるなら、結論など書かなくても自明である、ということもありえるが、 この研究がそれほどまでのものとは、私には思われない。

この論文では、深層畳み込みニューラルネットワーク (deep convolutional neural network; DCNN) を用いて 骨折の有無を判定するにあたり、「ImageNet と呼ばれる公開データセットで学習させた後に CT から再構成した画像でチューニングを行った場合」と、 「CT から再構成した画像で学習とチューニングを行った場合」の比較、などを行っている。 その上で、ImageNet を使う「従来法」に比べて、再構成画像のみを使う方が精度が良かった、などと述べている。 私はこの abstract を読んだ時点で、おや、と思った。 ImageNet というのは、犬やら猫やら苺やらが写った汎用画像データ集であって、 「写真に何が写っているか」を判定するための深層学習用教師データとしては有用であるが、 医療画像の判定に役立つとは思われないからである。 ところがラーマンによると、この ImageNet を使うのが「従来法」であるという。 一体、どういうことなのか。

ラーマンが引用している「従来法」の元論文 4 報を確認した。 まず J. D. Krogue et al., Radiol. Artif. Intell. 2, e190023 (2020)では 「教師データ数が少なく、適切な収束 (学習) が望めない場合には、ImageNet を先に学習させることで 学習の精度が上がることが期待できる」と述べているに過ぎない。 次に G. Kitamura, Eur. J. Radiol. 130, 109139 (2020)では ImageNet について 「ImageNet の重みを読み込んだ」としか書かれていないため、意図が不明瞭だが、 たぶん上述の Krogue と同じ目的であろう。 三番目の N. Twinprai et al., Heilyon 8, e11266 (2022)では本文中に ImageNet という語が登場しないので、 なぜ引用されているのかよくわからない。 この論文が引用している論文が ImageNet を使っているのかもしれないが、そこまで調べる気にはならない。 最後に C. T. Cheng et al., Nat. Commun. 12, 1066 (2021)でも「ImageNet の学習済み重みを使ってネットワークを初期化した」とだけあるので、 Krogue らと同じ意図であろう。

つまり、ラーマンのいう「従来法」とは、ImageNet でネットワークを初期化することで、 収束を速めたり、あるいは教師データが極端に少ない場合には学習の精度が上がる、というだけのことである。 教師データが充分にあるならば、ImageNet による学習を元に少しチューニングしただけのモデルと、 はじめから教師データで学習したデータを比較した場合、後者が優れているのは当然である。 この比較で、一体、ラーマンは何を主張しているのか。

もっとも、私はラーマンが研究者として特に劣っているとは思わない。 というより、現在の日本の博士課程大学院生の中でみれば、これだけの仕事をできるのは優秀な部類といえよう。 意味のよくわからない比較を行っているのも、当初想定したほどの精度が得られず、 お茶を濁したのだろう、と想像できる。 学位取得のための苦渋の決断であるならば、同情する。 問題なのは、この研究の本質を理解しないままに、大学や病院のプレスリリースを鵜呑みにし、 無批判に持ち上げる記事を書いた朝日新聞記者の資質である。 先日のスプーンの件もそうだが、裏付け取材のない記事なら、個人のブログと変わりがない。


2024/06/03 宮城谷昌光『孔丘』

好きな作家は誰か、と言われれば、私はまず宮城谷昌光を挙げる。 中学生の頃、囲碁部の先輩から借りて読んだ『晏子』は、今でも私が最も好きな小説である。 その宮城谷昌光が 2018 年から 2020 年にかけて書いた『孔丘』は、 だいぶ前に買ったまま積んであったものを、つい先日、読んだ。

孔丘というのは、いわゆる孔子のことである。 宮城谷昌光の作品には、中国のいわゆる春秋時代あたりの人物に焦点を当てた伝記的小説が多い。 『孔丘』も、その一つである。 あとがきによれば、宮城谷昌光は五十代の頃と六十代の頃に孔子を小説に書こうとして「むりだ」と諦めたらしい。 そして七十代になって「いま書かなくては、死ぬまで書けない」とおびえつつ、自分を鼓して書く決意をしたらしい。 「神格化された孔子を書こうとするから、書けなくなってしまうのであり、 失言があり失敗もあった孔丘という人間を書くのであれば、なんとかなるのではないか」と肚をくくったという。

それほど書くのが難しい相手であった、ということもあるのだろうが、率直なところ、残念な作品であった。 確かに面白い小説ではあるが、宮城谷がこれまで書いてきた『晏子』『楽毅』『管仲』『夏姫春秋』をはじめとする 諸作品と比べると、表現のあり方に対する探求が乏しいように思われる。 ほんとうに推敲したのか、と疑いたくなる部分すら、みられる。 以下、特に気になった部分を挙げる。ページ番号はいずれも文藝春秋の単行本初版第一刷のものである。

最も違和感が強かったのは、324 ページである。 孔丘の門弟である子説が、兄である魯の仲孫何忌と論争した場面であり、以下のように表現されている。

「無礼者め」
何忌は几をたたいて叱声を放った。弟の意見を正言とは認めたくないし、認める気もない。
「季孫氏を詆ってはならぬ。(中略) ゆえに孔先生には政治がわからぬといったのだ」
真の思想は真の不自由さから生じるものだ。それがわかるほど何忌は不自由な生活をしたことがない。 その点、子説は何忌と生母がおなじでも、養母がちがうため、早くから他人とのつきあいかたを学び、客観が育った。 そういう目で、兄の主観を照らせば、一理をみつけることはできる。

問題は、この「真の思想は真の不自由さから生じるものだ。」という部分である。 この段落が誰の視点で描かれているのかと考えると、最初の文の「何忌は」という表現から、子説視点とは解釈できず、 宮城谷視点と考えざるをえない。 すなわち「真の思想は……」は宮城谷の考えということになるが、このような思想的な部分について、 宮城谷が自分視点で断定することは珍しい、というより、私の記憶する限りでは、過去に例がない。 これまでであれば「……生じるものであろう。」と文末をやわらげるか、 あるいは登場人物の誰か、この場合であれば子説、の意見として語らせるかの、いずれかであったように思われる。 今回のような宮城谷視点での断定表現では、何忌の考えを一方的に切り捨てることになってしまい、トゲトゲしい。 美しくない、と思う。

次に気になったのは 359 ページである。 魯の未来について仲由と漆雕啓が論じる場面である。

要するに、晋の上卿が実際には天下を経営しているのであるから、かれらが陽虎の実力を認定すれば、 陽虎は三桓の上の位に登って魯国を支配することができる。 仲由は、そんなことがあってはならないが、まったくないとはいい切れぬことが怖い。

この最後の文において「そんなことがあってはならないが」が浮いていて、読みにくい。 「そんなことがあってはならないが、まったくないとはいい切れぬことが仲由には怖い。」 などとする方が良いのではないか。 敢えて「仲由は」を文頭に持ってくる意図が、私には読み取れない。

また宮城谷はこれまで『王家の風日』をはじめとして、少なくとも私が読んだ限りでは、 周の前の王朝の名称を「殷」ではなく「商」とし、その最後の王を「紂王」ではなく「受王」としていたように思う。 どちらが正しいか、という点について未だ定説はないと思われるが、 「商」「受王」を選んだことには、宮城谷の信念があったはずである。 しかし『孔丘』では 273 ページをはじめとして「殷」「紂王」を採用し、「商」や「受王」という名は一度も登場しない。 宮城谷の考え方が変わったのか、それとも『孔丘』における特殊事情があったのかは知らぬが、 その点については「あとがき」も含めて、一切の説明がなされていない。 これまでの宮城谷であれば、こうした点について、作中のどこかしかるべき場所で説明を入れていたのではないか。 説明する余裕がなかったのかもしれないが、いささか、読者に対し不親切であるように思われる。

以上は全て表現の問題であるが、内容についても一点だけ、気になった部分がある。 419-420 ページで、孔丘が師襄子に就いて琴を習った場面である。

練習のために一曲を与えた師襄子は、孔丘ののみこみの早さにおどろき、
「つぎに進まれたらよい」
と、いった。だが孔丘は喜ばず、
「この曲にある志がわかりません」
と、いい、曲から離れなかった。師襄子はころあいをみて、
「志はおわかりになったようですな。つぎに進まれよ」
と、うながした。が、孔丘は、
「この曲を作った人がみえてこない」
と、応え、さらに弾きつづけた。やがて孔丘はようやく納得したという表情で、目を高くあげて、
「作曲者がどういう人であるか、わかりましたよ。色はどこまでも黒く、そうとうな長身で、 志は広遠であり、そのまなざしは遠くをみるようであり、天下四方を掩有している。 これが周の文王でなければ、たれがこの曲を作れましょうか」
と、いった。

孔丘は、琴を習うだけで、その作曲者が文王であることを察知した、というのであるが、 これはさすがに、後世の人の創作であろう。 これまでの宮城谷であれば、文献に記載のある内容であっても、真実と思われる部分だけを採用し、 創作と思われる部分は省くか、あるいは創作であろう、とことわりながら紹介してきたように思われる。 ところが今回は、そういうことわりなしに、史実であるとみなすような表現で描かれている。 神格化された孔子ではなく、孔丘という人間を書く、と言いつつ、この逸話を採用するのは、 一貫性を欠いているのではないか。

このように、いくつか気になる点はあるのだが、あくまで宮城谷の作品だから、 過去の作品があまりにも文学として素晴らしかったので、それと比較して気になる、というだけのことである。 他の小説家の作品であるならば、このような細かな点について、私も気にしない。


2024/06/02 続・科学的に誠実ではない商品

もう一つの問題は、この実験報告の内容とキリンが発売したスプーンとでは、使い方が違いすぎる、という点である。

報告された実験 1 では、食塩水ゲルサンプル (寒天入り) に箸を突き刺し、そのゲルを舌の上に載せて塩味を評価した。 一方、キリンのスプーンの 取扱説明書 には 「約 0.5 秒かけて塩味を増強しているため、スプーンをしばらく口に入れて、じっくり味わってください。」 「食品が口に運ばれてから約 2 秒間、食品を介して微弱な電流が流れます。」 などと書かれているが、スプーンを口の中のどこに触れさせるか、などの指示はない。 なお、取扱説明書の記述では何が 0.5 秒で何が 2 秒なのかわかりにくい。 これについては元論文を読めばわかるが、重要ではないのでここでは説明しない。

実験 1 と同じ状況をこのスプーンで再現するには、次のような食べ方をしなければならない。 まず食物をスプーンの凹面に載せて口に運ぶ。 そしてスプーンは口の中に入れたままで、なんとかして、食物だけをスプーンから舌の上に移す。 その操作を行う 2 秒ほどの間、スプーンは口腔内に留めておく。 つまり、食物を口腔内に移す際に口唇を使ってはならない。 一体、誰がこんな食べ方をするのか。

本当に商品の性能を試験するつもりがあるならば、同じ形状で電流を流す機能の有無だけが異なるスプーンを作成し、 どちらのスプーンの方がおいしいか、あるいは変わらないか、を盲検下でアンケートするだけでよい。 それをせずに、このような条件設定の大きく異なる実験を、 それも文献を明示せずに「引用」するのは、一体、どういう了見であるか。 プラセボ効果に過ぎないという自覚がある故に、キチンとした試験を行わないのではないか。

何より問題なのは、朝日新聞の記者の態度である。 この記事は、「PR」などの表示もなく、 一応、広告ではなく記事だという扱いになっている。 この記者は、キリンの主張に対する裏付け取材を行ったのだろうか。 企業のプレスリリースをそのまま流したり、記者個人の使用感を書くだけならば、 いわゆる SNS やブログで個人が書く提灯記事と変わらない。 プロフェッショナルの報道機関としての矜持は、どこに行ったのか。


2024/05/29 科学的に誠実ではない商品

朝日新聞に 電気の力で塩味高めるスプーン発売という記事があった。 これは有料記事であるが、購読していない人も記事の冒頭部分だけ読んでいただければ充分である。 この商品はキリンが販売しており、 開発には明治大学の教授が関与しているらしい。

この商品開発を行った者は科学に対し不誠実であり、 これを書いた朝日新聞の記者は報道に対し不誠実である。

キリンのウェブサイトには、この商品に用いた技術について試験が行われたようなことが書かれている。 関与した明治大学教授のウェブサイトの記載からすると、 これは 減塩生活者を対象とした電気味覚による塩味増強効果の評価という報告のことであろう。 これは情報処理学会という学会が開催した インタラクション 2022というシンポジウムで発表されたものらしい。

上述のシンポジウムに提示された発表の予稿は、研究室のウェブサイトで公表されているので、 興味のある方が読まれるとよい。 この報告自体は、科学的に不適切というほどのものではない。 しかし、この報告をキリンが発売したスプーンの技術的根拠とみなすには、二つの大きな問題がある。

一つめの問題は、盲検化が不充分だという点である。 一応、本文中には「実験中, これらの条件は参加者に開示していない」と記載されており、 被験者に対しては盲検化したことになっている。 一方、実験 1 のデザインとして

はじめに, 実験担当者は参加者が舌へ正しくゲルサンプルを設置していることを確認したのち, 電気刺激の出力を開始する. 次に, 刺激波形の提示開始から約 1.2 秒経過したタイミングで実験担当者が合図し, そのタイミングの味を評価させた. 一方, 電気刺激なし条件では, 実験担当者は参加者が舌へ正しくゲルサンプルを設置していることを確認してから, 約 1.2 秒が経過した際に合図し, そのタイミングの味を評価させた.

と、記載されている。 この記載を信じる限り、ほとんど盲検は破れていると考えられる。 まず実験担当者の表情や仕草などが参加者からみえるのかどうか、書かれていない。 もしみえるなら、その表情などから、電気刺激の有無が参加者に伝わっている可能性がある。 ひょっとすると、電気刺激を開始するスイッチの操作がみえているかもしれない。 また電気刺激ありの場合は「刺激波形の提示開始から」1.2 秒を測っているのに対し、電気刺激なしでは 「舌へ正しくゲルサンプルを設置していることを確認してから」 1.2 秒であるから、 その違いを参加者は感じているかもしれない。 こういう違いが重大なプラセボ効果を引き起こすことは、 ヒトを対象とする実験を行う者ならば当然に知っているはずのことである。

本当に盲検化をするつもりなら、二重盲検化すべきである。 この実験セットアップであれば、実験担当者に対しても盲検化するのは、それほど難しいことではあるまい。 条件によらず実験担当者はスイッチを押すが、実際に通電するかどうかはコンピューターのみが把握しており 実験担当者にはわからない、という形にすればよいのである。 それをしなかったのは、実験計画者がプラセボ効果のことを知らなかったか、 あるいは盲検化する意思がなかったかの、どちらかであろう。 少なくともキリンのような大手企業の開発担当者がプラセボ効果を知らないとは思われないから、 遺憾ながら、これは後者であったのだろうと想像せざるをえない。

このように、プラセボ効果の疑いがあるような実験を根拠に、このスプーンの効能を主張するのは、 科学に対し不誠実である。 本当に効果のあるスプーンを作りたかったのではなく、 科学的な雰囲気のある根拠らしきものが欲しかっただけなのではないか。

長くなってきたので、続きは後日にしよう。

2024.06.02 語句修正

2024/05/26 北陸医大教授との思い出 (8)

私は当時、毎週木曜日にいわゆる外勤として、市中病院の病理部で非常勤医として働いていた。 そのうち第三木曜日であったか、一回分を減らし、関東の病院に行くよう命じられたのである。 この派遣に伴い、交通費相当額に加えて手当として 4 万円が、派遣先の関東の病院から私に支給された。 名目としては診療の補助ということであり、 病理部における切り出しを私が行い、それに伴う謝金というような名目であったと思う。 しかし常識的に考えれば、勉強に来る新人医師のために受け入れ側が報酬を払う、というのは、理解できない構図である。 さらにいえば、もともと私が行っていた外勤先では日当 7 万円という破格の待遇であったから、 それが 4 万円に減ったことで、私にとっては実質的に月 3 万円の減給となった。 先にも書いたが、この派遣は教授からの一方的な命令であり、私が希望したものではない。

私に対してこれだけの謝金を払うことは、先方にとっても大きな問題があった。 当時、東京近郊における非常勤病理医の日当は 4 万円程度が相場であったらしい。 そこでわざわざ北陸医大から勉強に来る新人に対して上述のような金額を支払うことは、 その受け入れ側病院に所属する医師の待遇とのバランスを欠いており、具合が悪いのである。 それでも私を受け入れたのは、北陸医大 (仮) 教授と受け入れ側教授との個人的な関係によるのだろうが、詳細は知らぬ。

さらに、以前、現在と同じ mitochondrion.jp に書いていた日記を一旦削除・閉鎖したのは、この腎臓事件と関係がある。 この関東の病院への派遣を言い渡された際、北陸医大教授から「ついでに言うが」というような感じで、 「これまで敢えて見逃してきたが、ブログをやめなさい」と命じられた。 むろん、業務とは無関係なところで個人的に行っている執筆活動について職場の上司から命令される筋合いはない。 しかし私は日記の中で北陸医大に対する批判を公然と行っており、また 北陸医大が実際にはどこの大学であるのか、調べればすぐわかるような形で書いていたことから、 就業規則に抵触する疑いはあった。 というより、刑事・民事的な責任という意味での不法性はないにせよ、 懲戒処分を受ける恐れはある、という覚悟の上で私は書いていた。 そのような、分が悪い、という自覚はあったので、教授の命にとりあえずは従って、日記を削除したのである。

今から思えば、あの時点で、退職を覚悟して教授に抵抗するという選択もありえた。 ただ当時は専攻医・大学院生の身分であり、ふたたび中退・退職した場合に立て直せるのかはっきりしなかったこと、 また何としても北陸医大で専門医資格と学位を取るという、振り返ってみれば意味のない覚悟を持っていたために、 「辞める」という選択を検討すらしなかった。 視野狭窄であった、といわざるをえない。

さらに、初めて東京の派遣先病院に行った際、先方の教授から 「うちに対する批判をブログに書かれては困る。書くなら辞めてもらう。」と通告された。 一方で、その派遣先病院のベテラン病理医からは 「ほとぼりがさめた頃に、また別のところで再開すればよい」とも言われた。 これらのことから想像するに、この病院の医師がまず私の日記と正体について察知し、 先方の教授から北陸医大教授に念押しがなされ、それを受けて北陸医大教授が私に閉鎖を命じたのであろう。

度量の小さい教授である。


2024/05/22 北陸医大教授との思い出 (7)

北陸医大では、腎生検については全例、外部機関に委託して電子顕微鏡検査を行っていた。 その際、その外部機関から光学顕微鏡所見のレポートも送られてくるのが通例であった。 そのため先輩病理医からは、その外部レポートを確認した上で、それに沿って報告を書くのがよい、 と申し送りされていた。 腎生検病理に不慣れな我々が曖昧な所見に基づいてレポートを書いた場合、 外部からの報告と食い違うとトラブルの元になる、というのがその理由であった。

きっかけは、ある腎生検の症例であった。 私が自分でみても、よくわからない、というのが正直なところであった。 外部からのレポートを参照すると、いささか稀な診断名と所見が記載されていた。 そこで私は教科書等を確認したところ、確かに、その診断名と合致するような所見であった。 そのため私は、その外部レポートに沿う形で報告を記載した。

これに、教授が怒った。 外部レポートに沿うよう申し送りされていることは知っているが、それは自分の指示ではない。 他人が書いたレポートを丸写しなんて、無責任ではないか、というのである。 その教授の言い分は、わからないでもない。 ただし、私は丸写しはせず、自分の理解に基づいて書き直していたので、いささか非難の度が過ぎるように思われる。 さらに、教授は顕微鏡をみながら「この尿細管の中の好酸性物質は何なのだ。キチンとみたのか。」などと批判したが、 それは非特異的な好酸性硝子円柱であり、所見として書く意義はないと判断したから書かなかったのである。 私を非難することが目的として先行した、言いがかりであろう。 さらに教授は「こういう診断が続くようであれば、君らを切らねばらなない。」などと言った。 切る、というのは、つまり免職、ということであろう。 それだけの権限が教授にあるかどうかは、知らぬ。

ひととおり私を叱責した後、教授は私に、関東地方の某病院に月一回程度、勉強に行くよう命じた。 その病院の病理部教授は、北陸医大教授の知り合いであって、腎病理を専門としていた。 そこでしっかりと勉強して来い、というのである。

一見、もっともな指示のようにもみえるかもしれないが、いろいろおかしい。 そもそも私は、独学で教科書等から多少学んだ以外には、教授等から腎病理診断について指導を受けたことがない。 よその病院に勉強のため新人病理医を派遣するというのであれば、 自分のところでまず基本的なところを教育してから送り出すべきではないのか。 丸投げというのは、先方に対し失礼ではないか。

さらに、この派遣には金銭的な問題もあった。それについては次回、書くことにしよう。

2024.05.26 語句修正

2024/05/15 北陸医大教授との思い出 (6)

北陸医大 (仮) 時代の教授との思い出の続きを書こう。 思い出といっても、むろん、楽しい記憶ではない。

当時、北陸医大病理医では診断の曜日当番制を採用していた。 すなわち、ある医師は月曜日にできあがった生検症例を診断するとともに、月曜日の術中迅速診断を行い、 さらに月曜日の切り出しを行い、その切り出した症例の診断を行う。 別の医師は同様に火曜日の生検、術中迅速診断、および切り出し・診断を行う、という具合である。 自分の担当曜日以外には新たに症例が割り当てられることはなく、既に割り当てられている症例についてひたすら診断する、 という具合である。

当初、私の担当は金曜日であった。 つまり、木曜日か、場合によっては水曜日に施行された生検や手術の症例が、私の担当になるわけである。 各診療科にもそれぞれ曜日毎のスケジュールがあり、たとえば消化器外科は原則としてこの曜日にしか手術しない、 婦人科の手術は通常この曜日である、などと決まっているので、結果的に、 私の担当する症例 (診療科) には偏りが生じた。

問題になったのは、腎生検である。 当時、腎生検が施行されるのは水曜日であったか木曜日であったか、 とにかく、基本的に私が診断を担当することになっていた。 腎生検の病理診断というのは、いささか他の臓器とは異なる特徴がある。 腎臓の場合、光学顕微鏡だけでなく、電子顕微鏡所見や免疫蛍光法の所見も併せて評価し、 総合的に診断するのが通常である。 また光学顕微鏡所見も、他の臓器とはいささか異なった評価方法が用いられる。 このため、腎生検の病理診断は苦手とする病理医が多いように思われる。

実際のところ、腎生検に関しては、外部機関の腎専門病理医や腎病理診断を修めた腎臓内科医が施行し、 院内の病理医はそのレポートをコピーして承認するだけ、というような体制をとっている病院も少なくない、 と聞いたことがある。 むろん、そのような「診断」は無責任ではないか、という批判もあろうが、 正直なところ腎病理をよくわかっていない一般病理医がアヤシゲな診断を発する方が無責任である、 との考えもありえる。

このあたりの歪みによる軋轢があったのは、私が病理医一年目 (医師三年目) の終わりに近づいた頃のことである。


2024/05/11 大麻規制

ロイター通信の 3 日前の記事によると、タイの首相が大麻規制の強化を表明したらしい。 改めて検索してみると、私はこれまでの日記で大麻規制について一度も書いていないようなので、 この機会に記載しておこう。 なお先に書いておくが、私は大麻規制の緩和には断固反対の立場である。

大麻については、世界的に規制緩和を主張する人々が少なくない。 その多くは、大麻使用による有害事象は比較的軽微である、とする考えに基づいている。 特に、多くの国で合法である酒や煙草に比して、害が小さい、と主張するのである。 また医療上の有益性を主張する人もいる。 これらの点について議論しよう。

まず医療上の有益性についてであるが、これは、大麻規制を論じる上では関係ない。 大麻の成分の一部が医療上有益である可能性はあるが、それならば、 それを医薬品として取り扱えば済むだけのことである。 実際、コカインは医療現場で使われている。 すなわち、医療上の有益性があるという事実は、大麻そのものの規制を緩和する根拠とはならない。

次に大麻による有害事象は比較的軽微である、という点についてである。 有害事象の重大性の大小をどうやって比較するのか、というのは難しい問題である。 致死用量云々で議論する人もいるが、一回あたりの用量が違うのだから、 煙草の致死用量と大麻の致死用量を比較しても意味がない。 一回あたりの用量で規格化する、などという考えもあるかもしれないが、 一回あたりの大麻の用量など、個人差が大きすぎて評価できまい。 とはいえ、煙草が発癌リスクを大幅に上昇させることを思えば、大麻の慢性有害事象は煙草と同等以下であろう、 という推定は、妥当であるように思われる。 また酩酊した人間が様々な反社会的行為に及んでいる現状を思えば、大麻の急性有害事象は酒よりも軽微であろう、 という推定もまた、もっともらしい。 総合してみれば、大麻は酒や煙草よりも害が小さい、という主張は、明らかに誤りであるとはいえない。 むしろ、正しいかもしれない。 しかし法を犯してまで大麻で快楽を得ようとする者がこれほど多い、という事実は、 大麻への精神的依存の強さを示唆している。 酒や煙草に比して大麻は依存を来しにくい、とする報告もあるようだが、 それは大麻が違法であるが故に歯止めがかかっている、というだけのことではないのか。

また、仮に大麻による害が小さいとしても、なぜ、大麻の規制を緩和しよう、という方向に向かうのか。 大麻よりも危険な酒や煙草を規制しよう、と、なぜ考えないのか。 人類の歴史において、酒や煙草が嗜好品として消費されてきた期間は長い。 しかし現代では、酒や煙草の医学的有害性が認識されており、特に煙草に関しては、社会からの放逐が進んでいる。 国立がん研究センター によれば、日本における喫煙率は年々低下しているようである。 飲酒に関しては、はっきりした統計がわからないが、「大人なら酒を飲んで当然」というような認識は以前よりも 弱まっているように思われる。 いわゆる飲み会の席においても、20 年前に比べれば「私は飲みません」というような表明をしやすい風潮が 広まっているのではないか。

中には、かつての米国の禁酒法問題などど持ち出して、酒や煙草が社会にとって必要なのだと主張する者もいる。 しかしこれは、社会を急激に変革させようとしたことが失敗しただけであって、 酒や煙草を規制すること自体に問題があったわけではない。

よくよく考えていただきたい。諸君の人生において、本当に、酒や煙草は必要なのか。 酒は、酩酊して不適切行為に及ぶ危険を犯してまで飲む価値が、本当にあるのか。 「私は自分をコントロールできるから、酒を飲んでも不祥事を起こさない」と思っているかもしれないが、 本当に起こしていないのか。 周囲が我慢しているだけではないのか。 あのような有害薬物に頼らねばならないほど、諸君の人生には彩りが乏しいのか。

一応書いておくが、私は他人に欺かれて酒と知らずに飲んでしまったことはあるが、自分の意思で飲酒したことはない。 むろん、喫煙したことは一度もない。

私は 19 歳で京都大学に入学した際、囲碁部に入部しようと思っていた。 そして入学式前日であったかと思うが、囲碁部の活動に参加し、飲み会に誘われた。 百万遍の「アンなんとか」という名の居酒屋であった。 私は飲酒しない旨を表明していたが、当時 4 回生だか 6 回生だかの佐藤という男が 「コーヒー牛乳である」と偽って「カルーアミルク」なる酒を、 さらに「オレンジジュースである」と称して「スクリュードライバー」なる酒を、計 2 杯も私に飲ませた。 周囲にいた他の囲碁部員の誰も佐藤を止めようとしなかった。 私は店員にも「未成年者ですので」と伝えていたが、店員も佐藤に同調して 「オレンジドライバー。。。あ、間違えた、オレンジジュースです」などと言って、その酒を持ってきた。 佐藤も店員も犯罪者である。 私はそれらを全て飲んでも、それが酒であることに気づかず、 飲み終わってから周囲に教えられて初めて、自分が飲酒したことを知った。 佐藤は、ここに書くのは憚られるような下品な冗談を言いながら笑っていた。 むろん、私は結局、囲碁部に入部しなかった。 あれから 22 年が経ったが、私は佐藤と京都大学囲碁部に対する恨みを忘れていない。

2024.05.12 一部表現を修正

2024/05/09 大シルクロード展

宮城県の東北歴史博物館で開催されている 特別展「世界遺産 大シルクロード展」に行ったので、感想を書いておこう。

まず、この特別展の名称が気に入らない。なぜ「世界遺産」とつけるのか。 確かに、いわゆるシルクロードの一部は UNESCO 世界遺産リストに登録されている。 しかし、それが何だというのか。 いわゆるシルクロードの歴史的重要性や、それに関連する文物の文化的価値は、それ自体に存在するのであって、 世界遺産として認定されることによって生じたものではない。 歴史的遺産はそれ自体に価値があり美しいのであって、世界遺産だから尊いわけではない。 すなわち、自立した精神と独立した知性の持ち主であるならば、 「人類の貴重な文化的遺産である」という理由で特別展の文物を見学したいと思うことはあっても、 「世界遺産である」という理由で特別展を訪れたいと思うことはない。 特別展の名称に「世界遺産」とわざわざ付けるのは、それを訪れる人々の知性と精神に対する侮辱に他ならない。

次に、入口に掲げられていた挨拶文が気に入らない。 挨拶文のパネルが三人分、掲示されており、よく覚えていないのだが、最初の二人は 博物館の館長か誰かと、駐日中国大使か誰かであったと思う。 館長は理解できるし、この特別展が中国の博物館に所蔵されている品々を借用して展示するものである以上、 中国大使も妥当であろう。 問題は三人目である。

なぜ、池田大作の挨拶文が掲示されているのか。 確かに池田は、民間レベルでの日中友好に尽力した人物であり、今回の特別展の実現にも貢献したのであろう。 しかし少なくとも形式的には、今回の展示の主催にも共催にも関係していない。 そして池田は、特定の宗教勢力および政治勢力と深く結び付いた人物である。 民間団体の催しであるならともかく、公的な博物館である東北歴史博物館の特別展であるならば、 このような特別扱いには相当の理由がなければならない。

事情は理解できる。 おそらく、この特別展の実現のために池田の助力が必要であったのだろうし、 中国側や関連団体から、池田の挨拶文を掲示するよう強い要求もあったに違いない。 それでも、それを正当化できるだけの根拠が、一体、どこにあったのか。

最後に、展示内容が気に入らない。 「シルクロード展」と称しつつも、展示されているのは中国の文物だけである。 正確にいえば、中国が自国と称している地域の文物だけである。 西方からの影響を受けた中国の文化的遺物は展示されていても、 中央アジアや西アジアから運ばれてきた歴史的遺物はごく僅かしか展示されていない。

そして何より、その「中国の文物」の大半はウイグルやチベットのものであった。 いうまでもなく、ウイグルやチベットは、いわゆるシルクロードにおいて重要な交易拠点であった。 しかし、なぜ、それが「中国の文物」として扱われているのか。 いつ、ウイグルが中国になったのか。誰がチベットを中国と認めたのか。 ウイグルもチベットも、現在は中国による占領下にある。 そして現地の文化や言語を破壊し、いわゆる「漢化」が猛烈に推進されている。 その文化破壊、民族浄化を、諸君は知らないというのか。

ウイグルの墓から「出土」した文物が、多数、陳列されていた。 むろん、「出土」の経緯は記載されていない。 誰が、どうやって、それを墓から取り出したのか。 現地のウイグル人は、それを承諾したのか。

歴史遺物の展覧会を開催するために、現在起こっている社会的民族的宗教的問題に、目を瞑るのか。


2024/05/02 画像処理界隈における「標準画像」

最近、研究上の必要から Python を用いた画像処理技術の習得に励んでいる。 私は中学生の頃から趣味で C 言語プログラミングに勤しんできたが、画像処理には触れてこなかった。 Python の基本的な部分は習得したので、実際の研究上の処理を行いながら画像の扱いを学んでいる次第である。 主にインターネット上で情報収集しながら学ぶにあたり驚くのは、 こうした分野の技術的情報をウェブ上などで公開している人々の社会問題への意識の低さである。 典型的なのが Lenna と呼ばれる女性の画像をサンプル画像として掲示している人の多さである。

Lenna の画像については Wikipedia などに経緯がまとめられている。 この画像は、もともと 1972 年の『プレイボーイ』誌に掲載された女性の画像であったらしい。 これを学会発表の際にサンプル画像として使用した者がいたのだが、 これが陰影や平坦領域など様々な要素が含まれているためにテスト画像として優秀だとして、 他の人々もテストに使い始めたのだという。 なおプレイボーイといのは、女性の性的な姿態を得意とする写真雑誌である。 テスト画像として広く使われた写真そのものは、それほど卑猥なものではないが、 出展が猥褻雑誌であることは間違いない。

そもそも、そうした猥褻な写真をテスト画像に使うこと自体、品性を疑う。 さらに、元々が写真雑誌なのだから、著作権上、および肖像権上の問題も生じる。 プレイボーイ社も、この写真を使うことについて明示的な許諾はしていない。 それにもかかわらず、平然と、この画像を使って画像処理方法を説明しているウェブサイトは非常に多い。

さすがに近年では Lenna の画像が使われる頻度は下がっているいようであるが、2010 年代までは しばしば使われていたようである。 現在でも、ウェブサイト上で公然とこの画像を「標準画像」として紹介している大学教員も存在するのは驚きである。

2024.05.26 誤字修正

2024/04/29 畳み込みニューラルネットワーク

深層学習の分野で用いられる「畳み込みニューラルネットワーク (Convolutional Neural Network; CNN)」 と呼ばれる手法がある。 これは手書き文字の認識や画像処理などのパターン認識に広く使われている手法である。 これのバリエーションの一つに U-Net と呼ばれるものもあり、これを原型とする手法が 放射線医学分野における画像の機械認識に広く使われている。

ところが、この CNN について、「なぜ、それで、それができるのか」という部分を 理解して使っている人は少ないように思われる。 「よくわからないが、それでできると先人が報告してくれたので、マネしたらできた」という程度の理解で 扱っている者が、この分野には多いのではないか。 実際、インターネット上の文献にせよ、書籍として出版された文献にせよ、 CNN についてデタラメな記載が非常に多い。

たとえば CNN の代表として LeNet-5 (Y. Lecun et al., Proc. IEEE 86, 2278-2324 (1998)) を考える。これは手書き文字の画像について、何の数字が描かれているのかを判別するモデルである。 これについて「畳み込み層やプーリング層によって、描かれている図形の特徴が抽出され、 一方で『それがどこに描かれているのか』という位置情報は曖昧化する」というような記載をしばしばみかける。 これを書いている人々は、たぶん、計算内容を数学的にも定性的にも理解していないだけでなく、 自分が書いている内容が正しいかどうか数値的検証すら行わずに記事を書いているのであろう。

畳み込み層やプーリング層の計算内容を考えれば、数学的観点からいって、 「図形の特徴だけを抜き出す」だの「位置の情報が曖昧化する」だのといった働きがあるとは思われない。 実際、LeNet-5 を使って数値的に検証してみると、そのような処理は行われていないことを容易に確認できる。 このあたりについて東北大学の田中が簡潔なメモ ( 1, 2, 3 ) を公開しているので、興味がある人は読まれるとよい。

何を言いたいかというと、他人の言うことを鵜呑みにせず自分の頭で考え理解する、という基本的なことを できていない者が、この分野には少なくない、ということである。


2024/04/24 修正

昨日の記事の一部に表現の不正確な部分があったため、修正した。


2024/04/23 不動産投資 (2)

結局のところ、不動産投資の是非は次のような簡単な計算で評価すればよい。

(一年あたりの収益期待値) = (期待される一年あたりの家賃収入) - (利息その他の必要経費) - (一年あたりの不動産価値の下落額)

なお、家賃収入は物件が古くなるにつれて安くなるであろうこと、空室リスクがあること、 必要経費には経年劣化に伴う修繕費などの他に登記費用などの初期費用も含まれることに注意を要する。

投資を勧誘する業者は、この簡単な式で評価すると赤字になってしまうので、この式を必死に否定し、 減価償却云々を持ち出して「書類上は赤字にするが、実際に支出するわけではない」などと詭弁を弄するのである。 念のために説明しておくが、減価償却費というのは、資産の価値が年々低下していく分について 「毎年、少しずつ損失を出している」として経理上処理する項目のことである。 たとえば 1000 万円で買ったマンションを 25 年で償却するとすれば、毎年 40 万円支出している扱いにするのである。

仮に実際の市場価値の低下が年 30 万円であり、 一方、家賃収入からローンの利息その他諸経費を除いた残りが年 30 万円であったとしよう。 ふつうに考えれば、資産の減少分と収入が同額であるから、損得なし、ということになる。 しかし市場価格の低下は客観的評価が難しいので、税務上は、これを減価償却費として取り扱う。 前述のように減価償却費 40 万円を計上した場合、税務上は 30 万円の収入に対し 40 万円の損失を出しているのだから、 マンション経営全体では 10 万円だけ「帳簿上の損失」が生じていることになる。 つまり帳簿上、所得が 10 万円少なく評価される。 仮に所得税率が 20% であるならば、毎年 2 万円だけ税金が安くなるので、確定申告することで、その分が還付される。 これを利用して、勧誘業者は、不動産投資で利益が出るかのようにみせかけるのである。

むろん、これは正しくない。 上述の例について、たとえば 10 年後に 700 万円でマンションを売却したとしよう。 このとき、経理上は 600 万円の価値しかない物件を 700 万円で売却したのであるから、 100 万円の所得があった、ということになる。 所得税が 20% であるとすれば、20 万円の所得税が課されるので、先に得た毎年 2 万円の「得」は帳消しになる。 むしろ、売却した年にまとまった収益があることで、累進課税の具合によっては、税率が上がって損になる恐れもある。

あたりまえのことだが、上述の式でキチンと利益が出るなら、 そのようなビジネスを私や諸君に紹介するのではなく、彼ら自身が実践すればよいのである。 あるいは、銀行は我々に貸し付けるのではなく、不動産部門の子会社で運用すればよいのである。 それをしないということは、つまり、そういうことなのである。

繰り返しになるが、ローンを組んでまでマンション経営することの利点は「脱税がバレにくい」という点にしかない。


2024/04/22 不動産投資 (1)

不動産投資の話をしておこう。 世の中には、小金を持っていそうな相手に対して不動産投資をもちかける業者がいる。 私のところにも、最近はようやく減ったが、以前は頻繁にそうした業者からの営業電話がかかってきた。 私は実際には対した資産を持っていないのだが、医師ではあるから、 その種の名簿屋から入手した情報に基づいて営業電話をかけてきたものと思われる。 私は、そのような資産運用に全く興味がなかったのだが、 一体、どういうビジネスモデルを彼らが提案するのかという点にだけは興味があったので、 時間のあるときには彼らの営業トークにつきあっていた。 念のために述べておくが、私は常に電話の冒頭で「興味ございません」と言って断わっている。 断わっているにもかかわらず、彼らが強引に営業トークを展開するのである。 つまり、私が悪戯で彼らの時間を浪費させているわけではない。

その種の不動産投資業者の勧誘内容は、だいたい共通しており、以下のような具合である。 少ない頭金で、銀行のローンを活用し、基本的にはワンルームマンションを購入する。 それを賃貸に出すことで家賃収入を得ることができ、それをローンの返済に当てる。 家賃収入がローン返済額よりも月 2,000 円程度高いモデルを示す業者もいるが、 たいていは、家賃収入よりはローン返済額のほうが高い。 しかしマンション経営をすることで、ローンの利息や、マンションの減価償却費、その他 経営に必要な経費を考慮することで書類上赤字にすれば、確定申告で税金の一部が戻ってくる。 これにより正味では利益が出る、というような説明をする業者もいるが、 そうではなく将来の年金のようなものとして考えていただきたい、というような説明をする業者もいる。

だいたい彼らの説明は曖昧で漠然としており、理解しがたい。 法律や経済に詳しくない人のために後述するが、減価償却費やら何やらで「書類上赤字」になっているなら、 実際に赤字になっているはずであって、全体として利益を得られるはずはない。 マンション投資などせず、全額をを銀行に預けておく方がマシなはずなのである。 だから彼らの説明は何かが嘘なのであるが、どこが嘘であるのかは、なかなか掴めなかった。 そこで粘り強く、何回も彼らと話をして、ようやく、彼らの提示するビジネスモデルを理解することができた。

要するに脱税なのである。 たとえば諸君が大阪にマンションを買ったとする。 また、あるとき、たとえば京都や大阪に遊びに行ったとする。 ここで、実際には単に遊びに行っただけであったとしても、 これを大阪の不動産業者との商談だったことにして、交通費を経費計上して確定申告するのである。 むろん、本来であれば実際に商談していない交通費は経費として認められないのだが、 税務署も忙しいから、そのような細かい点をイチイチ調べないらしい。 そのようにして、細かな経費を計上すれば、もともと高額の所得税を納めている人の場合、 「節税」することによって正味の利益を得ることができるのである。

このシステムをようやく理解した私は、電話をかけてきた業者に 「実際には使っていない経費を、使ったことにして確定申告するのは、違法な脱税ですよね?」と非難した。 すると、相手は「いえ、キチンと認められています。大丈夫です。」と強弁した。 脱税をそそのかしておきながら、ずいぶんとフテブテしい奴である。 そこで私は「私が税務署職員や検察官であったとしても、同じことを言うのですか」と問うてみた。 すると、相手は「ええ、キチンと認められていますから」などと言う。 私は「あ、言っちゃうんだ」と思わず漏らし、困惑した。 そして相手は脱税が合法であると主張し続けるので、とうとう私は 「それは違法であって、認められていませんからね!」と語気を強めた。 すると、とうとう相手は「あ。。。じゃぁ、この話、やめましょうか。」と言ったので、 「ええ、やめましょう」と言って電話を切った。


2024/04/19 多層パーセプトロンモデル (2)

昨日の話の続きである。 多層パーセプトロンモデルは、英語では MultiLayer Perceptron であり、MLP と略されることが多い。 各々のパーセプトロンが別の複数のパーセプトロンから入力を受け、 また別の複数のパーセプトロンに出力を提供する姿を「神経回路の構造に類似している」などと表現されることもある。 このような「神経回路に似ている」計算モデルを「ニューラルネットワーク」と呼ぶこともあるが、 適切な表現ではなかろう。 本当の神経細胞内における興奮の伝導は、いわゆる全か無かの法則に従っていると信じられている。 また入力部分については複数のシナプスから非線形で複雑な制御を受けている。 いわゆるニューラルネットワークは、本当の神経細胞に比べると、非常に単純な態様で情報を処理しているのである。

それはさておき、多層パーセプトロンモデルでは、入力される値の相互関係は考慮されない。 黒地に白い数字が書かれているい画像の例で考えよう。 各ピクセルは、0 から 255 の範囲の数値によって「白さ」が表現されているものとし、0 を黒、255 を完全な白、とする。 多層パーセプトロンモデルでは、あるピクセルの値と、隣のピクセルの値の相関は考慮されない。 その上で、各ピクセルの値と書かれている数字との相関を学習する。 たとえば「『3』と書かれている場合には、座標 (5, 20) のピクセルは白であることが多い」といった具合である。 ノードの数が多い複雑な多層パーセプトロンモデルになると、この学習内容も複雑になり 「『3』と書かれている場合には、座標 (5, 20) の値と座標 (3, 8) の値を足したものから 座標 (9, 12) の値を 3 倍したものを引いたら小さな値であることが多い」といった具合になってくる。 ともあれ、各座標の値を何倍かして足したり引いたりした結果をみて、書かれている数字との相関を「学習」するのである。

問題なのは、この「座標」を多層パーセプトロンモデルでは位置として扱っておらず、 単なる通し番号、識別のための記号としてしか取り扱っていない点である。 たとえば、座標 (3, 5), (3, 6), (3, 7), (3, 8) がいずれも白であるならば、人間の感覚からすれば これは直線 (正確にいえば線分) のようにみえるであろう。 しかし多層パーセプトロンモデルでは、これらが互いに隣接する点であるという情報を用いず、 単に異なる 4 個の点が白い、というだけの情報として処理を行う。 図形としての認識を行っていないのである。

その結果、何が起こるか。 たとえば「6」と書かれた画像があったとしよう。 この画像を 1 ピクセルだけ右に平行移動させたとする。 人間の眼では、両者はほとんど同じ画像にみえるだろうし、いずれも「6」と判読できるに違いない。 ところが多層パーセプトロンモデルの観点では、この平行移動により 「これまで白かったピクセルが黒くなった」「これまで黒かったピクセルが白くなった」という変化が 多数生じるため、「かなり違う画像になった」と認識することになる。

要約すると、多層パーセプションモデルは、画像のどのあたりが白くてどのあたりが黒いか、という情報だけを 用いており、図形としての認識を欠いている。 このため、単純な多層パーセプションモデルでは、画像に回転や平行移動などの変形が加わると 全く別の画像と認識してしまい、両者の異同を判断することができない。


2024/04/18 多層パーセプトロンモデル (1)

医学の話は保留して、深層学習の話をしよう。 インターネット上には深層学習について「わかりやすく」解説した文書が多数公開されているが、 それらの著者が、いったい、どれほど正しく理解した上で記載しているのかは疑わしい。 おそらく、表面的な使い方だけを習得して、内容は他人が書いた文章を受け売りしている者が多いのではないか。 というのも、本当に理解しようとすれば当然に湧くであろう疑問に対して言及していない例が非常に多いのである。 そのような浅い理解で適切に扱えるほど深層学習は簡単なものではない。

多層パーセプトロンモデルについては 東海林智也氏による解説 が簡潔で明快である。 ただし、東海林氏の解説は数学が苦手な人には難解であろうから、私が補足しよう。

まず前提として、このモデルへの入力は有限個の数値として与えられているものとする。 1 個の数値は「入力層 input layer」において 1 個の「パーセプトロン」に入力される。 パーセプトロンは「ノード」などと呼ばれることもある。 「層」というのは、いくつかのパーセプトロンを集めたもののことである。 入力層の各パーセプトロンは、入力された値を a 倍して b を 加える、という操作を行い、出力する。 a や b の値は任意であるが、これらをうまい具合に調整する作業を「学習」と呼んでいる。

入力層の次には何層かの「隠れ層 hidden layer」が置かれる。 層の数はいくつでも構わないし、各層に含まれるパーセプトロンの数も任意である。 通常、隠れ層の全てのパーセプトロンは、直前の層に含まれる全てのパーセプトロンの出力を 入力として受け取る。 たとえば、入力層に 128 個、最初の隠れ層に 512 個のパーセプトロンが含まれているとすれば、 入力層のパーセプトロンは各々 512 個の隠れ層パーセプトロンに出力を送るし、 また隠れ層の各パーセプトロンは入力層から 128 個の入力を受け取ることになる。 そして隠れ層パーセプトロンは、それらの入力に対して線型な計算を行い、出力する。 線型というのは、各入力値を何倍かして、さらに定数を加える、という意味である。 この「何倍か」というのは、入力ごとに異なる。 すなわち、あるパーセプトロンから受けた入力は 3 倍し、 別のパーセプトロンから受けた入力は 0.1 倍する、といった具合である。 繰り返すが、この「何倍するか」の値を調整するのが「学習」である。

なお、各々のパーセプトロンが前段の全てのパーセプトロンから入力を受け取る状態にあるものを「全結合層」と呼ぶ。 多層パーセプトロンモデルは全ての層が全結合層であるのが通常であるが、本質的には、これは必須ではないだろう。 ただし、全結合層にしないことに利点があるとは思われない。

隠れ層を何層か経たのちに、「出力層 output layer」が置かれる。 出力層に含まれるパーセプトロンの数は、そのモデルで何をしたいかによって決まる。 たとえば 0 から 9 までの数字、つまり 10 通りのパターンを判別したいのであれば、 出力層には 10 個のパーセプトロンを含めるのがわかりやすい。 「3」と書かれた画像を入力した時には 3 番目のパーセプトロンが大きな値を出力し、 他のパーセプトロンは小さな値を出力する、といった具合に学習できれば便利である。 何が書かれているかわからない画像を入力し、仮に 8 番目のパーセプトロンが大きな値を出力すれば、 書かれていた数字は「8」であろう、と推定できよう。 問題は、そのような学習がはたして可能なのか、という点である。

長くなってきたので、続きは次回にしよう。


2024/04/16 PyTorch 2.4 on NetBSD 10.0

研究上、深層学習 (deep learning) の技術を習得する必要が生じた。 これはデータ処理上、時として有力な手法であるが、しばしば処理内容が black box 化するので、 扱いには慎重になるべきであろう。 世間では「人工知能 (artificial intelligence; AI)」として近年もてはやされている技術と密接な関係にある。 ただし何をもって「人工知能」と呼ぶかは曖昧であるし、現在の機械学習による情報処理は あくまでパターン認識に過ぎず、知能と呼べる代物ではない。 それにもかかわらず、これを知能として宣伝する専門家も多く、 また、素人の中には機械が知能を持って考え始めたかのように錯覚している人もいるようである。

それはさておき、深層学習を学ぶ環境として PyTorch が便利である。 これを使った入門メモを Uta 氏が 書いているので、これに倣って深層学習に触れてみよう。

と、思ったのだが、PyTorch が公式にサポートしているのは Linux, Windows, MacOS のみであり、 私が使っている NetBSD はサポート外である。 NetBSD の pkgsrc にも PyTorch は含まれていないようである。 しかしソースをみる限りでは、なんだか NetBSD でも動きそうな気がする。 そこで、公式サイトの手引きに従って、Linux でソースからビルドするのと同じ要領でインストールを試みた。

環境変数に "CFLAGS=-D__NetBSD__" を加えることで、PyTorch に含まれる一部のプログラムは NetBSD に対応されるようなので、これを設定しておく。 無論、それでも多量のエラーが吐かれるので、適宜パッチを作成した。 もし私と同じようなことをしようとしている人がいたら、参考になるかもしれないので、 一応、そのパッチをここに置いておこう。 ただし、私は PyTorch や NetBSD を知り尽くした上でパッチを作成したわけではないので、 これが適切に動くかどうかは、知らぬ。 特に Scalar_test.cpp に対しては、よくわからないのでエラーを吐く場所をコメントアウトする、 という乱暴な対処を行ったので、どこかで不具合が生じそうな気がする。

以下は 2024.04.17 追記

昨日アップロードしたパッチでは、実行時に "operating system is not supported in cpuinfo" というエラーが不必要に表示される。 動作には問題ないのだが、邪魔なので、このエラーメッセージを表示しないように修正してパッチを更新した。 なお torchvision は import 時に "operator torchvision::nms does not exist" のエラーが出て使えない。 これを修正するだけの気力がないので、とりあえずは空いている PC に Debian 12.5 (Linux) をインストールして 計算サーバーとして、手元の NetBSD から ssh 経由で使うことにする。


2024/04/15 イラン情勢

医学や北陸医大時代の思い出を書きたいところであるが、中東情勢が緊迫しているので、本日はそちらの話をしよう。

朝日新聞などの報道によると 4 月 13 日夜から 14 日未明にかけて、イランがイスラエルに対しミサイル等を用いた攻撃を行ったらしい。 イスラエル軍が迎撃し、実際にはほとんど損害は出なかったようである。 これに対し 日本の内閣総理大臣が「こうしたエスカレーションを強く非難する」と述べたり EU 諸国も非難声明を出すなど 少なくともいわゆる西側諸国では、イランを責める意見が主流のようである。

まるでイランが紛争を煽っているかのような論調であるが、それはあまりに不公正な批判である。 イランの在シリア大使館を攻撃することによって挑発したのはイスラエルである。 それに対してはほとんど非難もせず黙認しておきながら、イランによる反撃には猛反発する西側諸国の態度は、 厚顔無恥である。 非難するならば、双方を等しく非難し、相互の自制を求めるべきである。

以前にも書いたが、イスラエル軍によるパレスチナ自治区侵攻についても同様の偏った批判が日本では目立つ。 ハマスによるイスラエルへの攻撃に端を発する紛争、などとする論説がみられるが、 それはイスラエルが建国を宣言して以来、継続的に行ってきたパレスチナ弾圧の歴史を無視した不正な批判である。 ハマスがイスラエルで民間人に対する虐殺や性犯罪を行った、として激しく批判する人もいる。 おそらく、そうした犯罪があったのは事実であろうし、それは非難されるべきであるが、 一方で、どうしてイスラエルがパレスチナ人に対して行う虐殺や性犯罪は問題にしないのか。 どうして諸君は、イスラエル人を自分達と同格の人間として扱う一方で、 パレスチナ人を野蛮で獰猛な獣であるかのように扱うのか。 どうして諸君は、かつてスペイン人やポルトガル人が世界中で行った非道な振舞いを真似しようとするのか。


2024/04/10 NetBSD 10.0 インストールメモ

新年度に入り、新しい環境にも慣れつつある。 大学で使うコンピューターに NetBSD 10.0 をインストールしたので、備忘録としてメモを残しておこう。 なお、このコンピューターは私物ではなく備品である。 既にインストールされていた Windows を削除するのは憚られるので、NetBSD は私物の外付 SSD にインストールし、 BIOS 設定でこの外付 SSD をブート順位筆頭にした。 SSD が刺さっていれば NetBSD が起動し、 SSD を外してから電源を入れれば元の Windows が起動する、という寸法である。

NetBSD というのは、いわゆる Unix 系 OS の一つである。 コンピューターに馴染みのない人は、近年一部で流行している Linux の仲間だと思っておけばよい。 NetBSD は Linux などに比べると、昔の Unix の面影を残した OS であるように思われる。 Unix 系の OS は、カスタマイズがしやすく、慣れるとたいへん便利である。 とはいえ初心者には扱いにくいので、Windows や Macintosh などのグラフィカルな OS に慣れて育った人は、 NetBSD のようなマニアックな OS を使う前に Linux などで Unix 系の環境に馴染む方がよいだろう。

以前は環境依存のエラーなどのために NetBSD のインストールや初期設定がなかなかうまくいかず、苦労したものである。 今回も手元にあった古いノート PC へのインストールは困難で断念したが、デスクトップへのインストールは容易であった。 まず DVD から full install を行い、その後 pkg_add で以下の基本的なソフトウェアをインストールした。

zsh, vim, skk-jisyo, ibus-skk, fvwm3, ja-sazanami-ttf, wget, firefox115, firefox115-l10n, texlive-collection-langjapanese

各種設定ファイルは以前の環境から持ってくればよいのだが、今回は北陸医大で使っていたノート PC の故障などが あったため、一から書き直した。具体的には、以下のファイルを新しく用意した。 TeX 関係は未設定である。

.vimrc, zshrc, xinitrc, .fvwm/config

FVWM はカスタマイズの幅が非常に広いウィンドウマネージャーであり、自分に合った適切な設定を行えば 非常に快適なデスクトップ環境が手に入る。 私が採用した設定の要点だけ書いておこう。 まず Alt + F5 で日本語表示可能な xterm を呼ぶために

DestroyFunc StartTerminal
AddToFunc StartTerminal
+ I GotoPage 0
+ I Exec exec xterm -rv -fs 12 -fa "Sazanami Mincho" -geometry 118x26
+ I Wait xterm
+ I Next (xterm) Focus

Key F5 A C StartTerminal

とした。私は、デュアルモニタ環境において、一方のモニタにターミナルを 複数並べて主たる操作を行い、 もう一方のモニタにブラウザなどを表示する、という格好で作業することが多い。 そこで Alt + F6 で Firefox をセカンドモニタに表示するために、以下のようにした。 もっと適した設定方法もありそうな気がするが、じっくり改良することにしよう。

DestroyFunc StartFirefox
AddToFunc StartFirefox
+ I Exec exec firefox115
+ I Wait "Mozilla Firefox"
+ I Next ("Mozilla Firefox") Focus
+ I Next ("Mozilla Firefox") Move 100 0
+ I Next ("Mozilla Firefox") Maximize

Silent Key F6 A C StartFirefox


Home
Copyright (c) Francesco
Valid HTML 4.01 Transitional