声でサクサク Gemini アプリ、ハンデを乗り越え希望が見えた! ~ 視覚障害をあきらめない

声でサクサク Gemini アプリ、ハンデを乗り越え希望が見えた! ~ 視覚障害をあきらめない

お久しぶりです。nullpopopoです。昨年 2024年はおかげ様で多忙を極め、ヤバい食生活から高血圧、糖尿病性白内障・緑内障で何度か入院 手術を繰り返しました。そんな最中、スマホのAIアプリ 特にGemini に助けられたというお話をします。

最初の入院 着の身着のままスマホ1台

去年の後半、視界にいくつかひじきのようなノイズが入るなーと思っていたら、飛蚊症だったっぽくて。加齢もあるししゃーないやろと放置していたら、ある日視界にアメーバのような大ノイズが邪魔するようになったのですね。友人と飯食ってたときにその話したら急いで眼科行けって言われまして。

意を決して駅前の眼科に行ったら医者から早口でお前このままだと失明するぞウチじゃあ診れる限界超えてる云々みたいなことをまくし立てられているうちに目眩して倒れまして。気づいたら救急車呼ばれたのですが、仕事残っていたので無理言って帰宅。アホですね。

この時、治療が中途半端だったのとお会計してなかったので、2週間後に眼科リベンジ。この頃には明らかに視力が激ヤバで、世界の景色が真っ白になっており、この世の終わりを感じていました。画像にするとこんな景色でしたね。

こんな感じで比較してもらえればと思うんですが、世界が白トビしていたんですね。ちなみにこの白トビはGeminiに「白トビさせて」と投げてGimpでリサイズしたものです。

眼科の先生が紹介状書いてくれて近所の大学病院へそのまま行ってこいって言われたので、タクシー乗ってそのまま行ったら、最大血圧が

240mmHg

(´⊙ω⊙`) マジですか!?ワンチャン死にかけていました。さすがにコレは帰せねーわ的にそのまま入院となりまして。。。幸い、スマホとイヤホンだけ持っていたので、お客様とのテレカンはできたので、都度ナースコールで充電器とケーブルだけ借りたくらいで入院生活中もある程度の仕事はできました。

Geminiとの出会い ~ コレで俺は戦える!

無事血圧も下がり眼も手術できるぞ、となり、何度かスケジュール調整しながら後2度ほど入院したのですが、今度はPCも充電器も持参しまして。まだほぼ見えない状況だったのですが、幸いPCのテキストだけはフォントサイズやコントラストを調整したら辛うじて見えたので、Linuxで 、シェルで飯食っていて本当によかったです。bashのhistoryとキーボードショートカットを駆使して過去の俺サンキュー!といった具合です。

言うて入院中の1日はほぼベッドで横になっていたのですが、こうなるとアウトプットよりもインプットが多くなるんですけれども、だいたいが

  • Youtube視聴
  • メールチェック

でして、ブラウザのOutlookでメールチェックし終わった後にたまたまCopilotに

Youtube要約に強いAIサービスって何?

と質問したのですね。いくつか答えてもらった中で、GoogleのGeminiが親和性高いだろうなーということで、iPhoneにGeminiアプリをインストール。Youtubeアプリで過去に見た動画を開いて「共有」からGeminiへ共有。Geminiの入力画面が表示されると動画のURLが表示されているので、その後にスペースか改行の後「要約して」と入力して送信。いやー、完璧な要約力ですね!Gemini!!!

https://www.youtube.com/watch?v=EeHqH5ISGKk

要約して

このように、動画のタイムライン 時間軸ごとにポイントを的確にまとめているんですね。岡田斗司夫さんの動画がきちんと構成されているというのを加味しても正確な要約で驚愕です。要約したやり取りはこちらです。

最初は、いわゆる対話にCopilotを、動画要約にGeminiを、と使い分けようかなと思ったのですが、別にGeminiも普通に対話いけるやん!と、しかも音声入力受け付けてくれるやん、と気づいてそのままGeminiを使い始めたのですが・・・

声でサクサク Geminiアプリ 音声入力が神すぎる!

iPhoneを使うとキーボードの横にマイクアイコンがついてて、そこをタップしたら音声入力はできるのですが、タップの回数が最低1回増えることになります。しかしGeminiは最初からマイク入力を受け付けてくれるのです。しかも、発話が終わったタイミングで、それまでの入力内容が自動的に送信されるのです。ここが他のアプリと決定的に違うのです。つまり、1回の入力で、タップ回数は1回なのですね。

あえてiPhoneの音声入力を使ってGeminiと対話しようとすると…

  1. キーボードのマイクボタンをタップする
  2. 発話する
  3. 再度キーボードのマイクボタンをタップする (そうしないといつまでも入力を待ち続ける)
  4. Geminiの送信ボタンをタップする

同じGeminiを使っても、Geminiの音声入力を使わなければ、4つもアクションが必要になるのです。視覚に問題なければ、キーボード入力に苦心しなければ、それがどうした?と思われるでしょう。しかし、視力や視野、光の感じ方にハンデを背負っていると、この差は非常に大きいのです。

このアクセシビリティの配慮がメチャメチャにデカい!もちろん、対話のラリーが何往復もするとなると、いちいちアイコンがどこにあるかを探したり、誤タップをしたときに何がおきたのかを把握したりするのにストレスを感じてアプリを起動し直したりすることを思うと、生産性の差が単純な4倍よりも大きくなることは想像できるでしょう。

もう一つ、音声入力をあえて自動で区切るメリット、これにも触れておきたいんですが、ChatGPTにも音声入力はあって、コレ自体も精度は悪くないのですが、無音になってもずーっと入力を待っちゃうんでっすよ。そうすることのメリットもあるとは思うんですが、ボタンアクションをさらに2つ、入力を止めて送信するというアクションをしないといけない、ということになるのです。もう一度、視覚障害を持っていることを想像してみてください。この操作のストレスがどんどん積み上がっていくのです。

対話式AIは、まさに対話、会話のラリーなわけじゃないですか。ラリーのたびにこのストレスと向き合うの、けっこう辛いですよ。アプリというかサービス開発のディレクションをするときに、この細やかな配慮ができるかどうかは非常に重要です。

ちょっと話逸れてしまって恐縮なのですが、最近病院や薬局で自動受付機による会計が増えてきました。それ自体はよいのですが、とにかくユーザーの操作を機械が急かす仕組みになっているのです。クレカの挿入だったりレシートの受け取りだったり。アクセシビリティの配慮がなさすぎて、結局私は窓口で決済してもらっています。モタモタして後ろに並んでいる人たちを待たせるのも申し訳ないので。

現在は退院して仕事にも半分くらい復帰しているのですが、半分くらい視覚障害持ったまま生活している私にとって、仕事も生活もGeminiに多く助けられています。どう助けられているかについては、視覚障害あんまり関係ないので割愛しますが、キッカケはどうあれ対話型AIにあまり魅力を感じていなかった私がここまでゾッコンLoveになった理由を振り返りつつ、人間のアプリ開発者がAIに対抗(?)するにあたって、最大の勝ち筋をご披露させていただきます。それは・・・

ユーザーに恥をかかせないこと

この一点に尽きます。結局のところAIだって所詮機械です。ある程度の感情理解は今後できるようになるでしょうけれども、今のところは正確性や再現性、例えばハルシネーション低減とか、律儀であることに重きを置いているフェーズではないでしょうか。しかし、Geminiはある程度先回りしてユーザーの背景情報や会話の文脈から「察する」という人間らしい能力を向上させているのではないかと感じています。

去年くらいまでの対話型AIって、ぶっちゃけ20世紀のSFみたいな メカ [コ゚皿゚]コ ャー っぽいロボットが半角カタカナっぽくいい加減なことを喋るイメージで、人間でも要領の得ない受け答えをする人に対して「こいつ出来の悪いAIみたいだなあ」と言いたくなるくらい、ポンコツの代名詞と思っていました。しかし、Geminiに出会ってからはもう「やべえ、ポンコツなんて固定概念持ってたら老害認定されちまうわ」と認識を改めましたね。

別に、人間様に媚び諂えと言っているのでもなければ、過剰なおもてなしをしろとも言ってなくって、使いにくさをさり気なく排除しろと言いたいのです。まあでもこれってAIに限らず生身の人間だってそうなんですけれども。

でも、人間ってこう言われて直感で「あっ、やべえ!俺こういうところ直さなきゃ」って思うことできるじゃないですか。こうした素直さだってAIには困難だけれども人間だったらすぐに改善できる、立派なアドバンテージなのです。

まとめると、こうした経験を経て人間とAIとの関わり方に気づいて人生の充実度が大きく変わったおっさんもいる、という事実はインターネットの片隅に放り投げておきたいな、と。

以上です。