
スクラムにSREを「生成AIの力を使って」導入する
本セッションでは、従来エンジニアが手動で行っていたテレメトリーデータの洞察を、LLM(生成AI)を用いて自動化した上で、スクラム全体に組み込んでいく活動を紹介します。
KDDIアジャイル開発センター株式会社 北浦 智也

Elasticsearch & Kibana v9.0の登場! ログ運用へのAI/MLの活用方法10選
ElasticsearchとKibanaはバージョン9.0が4月リリースされました。これまでのv8.xでは機械学習を使った異常検知や、LLMを接続して使うAIアシスタントといった機能が追加され、AI/MLを活用したログ運用の新たな姿を切り開いています。本セッションではこれらのAI/ML機能で具体的に何ができるかをお届けします。
Elasticsearch合同会社 関屋信彦

生成AI時代のDataOps~流行の裏でデータ基盤運用が壊れていないか?~
生成AIの業務活用が進む一方で、多くの現場ではPoCや個人レベルの試行にとどまり、運用設計やDataOpsの観点が置き去りにされています。非構造データやベクトルDBを扱う中で、従来型のデータ基盤運用では対応が難しい場面が増えています。
こうした状況を踏まえ、「生成AI×運用」の落とし穴や、これから求められるDataOps再設計(=DataOps 2.0)の考え方を整理し、共有します。また、生成AIの活用を業務に根づかせるために、運用者が今考えておくべき視点を提示します。
クラウドエース株式会社 松本 直樹

クレジット関連サービス稼働中のGKEにおいてクラスタ情報抽出AIツールによる本番障害対応高速化の紹介
二桁超のサービスが稼働するJCBのKubernetesでは定期的にアップグレードを行なっており、その差分影響調査に運用コストを取られることが課題でした。そのためクラスタの差分情報から本質的変更のみを抽出・要約を行う生成AIツールを作成し、運用コストを削減しました。障害訓練時にも使用して原因の切り分けを高速化しました。今回はその仕組みと今後の展望について説明します。
株式会社ジェーシービー 島﨑 千尋

「さらばアラートノイズ!」AIエージェントでインシデント対応を自動化する
毎日飛んでくる「影響がない」アラートの対応に追われ、時間が奪われていませんか?
復旧不要な攻撃検知や一時遅延等の確認作業は、時間だけでなく心身も疲弊させます。
この課題に対し弊社は、蓄積データや推論を基にアラートを自動分析・評価し、「対応が必要なもの」だけを人に通知するAIエージェントを開発しました。
このエージェントを開発し、運用保守プロセスの変革に挑んだ挑戦の道のりをご紹介します。
クラウドエース株式会社 髙橋 和真

人手不足時代のIT運用革新:イチから学ぶAIOps入門、アラート地獄脱却と推奨アクション自動化の試み
慢性的な人手不足が深刻化するIT運用現場では、膨大なアラート対応や複雑な障害対応が大きな負担となっています。本セッションでは、AIOpsを活用し、AIによるアラートの自動相関分析や、過去の対応履歴をもとにした推奨アクションの自動提示、
さらには定型作業の自動実行など、実際の導入事例を交えて具体的に解説します。これにより、運用担当者の負担軽減と運用品質向上をどのように実現できるかを学ぶことができます。
JTP株式会社 小林 知夏

AIエージェント活用で変わる申告対応業務~PoCから見えた課題と今後の展望~
クラウド運用に携わる方や生成AIの活用に関心のある方を対象としています。
大規模言語モデル(LLM)と情報検索を組み合わせたRAG(検索拡張生成)技術を活用し、
クラウド運用業務における生成AIの具体的な活用事例や、その導入による業務効率化のポイントを解説します。
受講者の方に、RAGの基礎的な知識と、自社のクラウド運用に生成AIを取り入れるための知見をご共有できればと存じます。
KDDI株式会社 荒川 透

去りゆく匠の知を仕組みに変える:生成AIが支えるIT運用の世代交代
これまでに蓄積された運用ノウハウやベンダー情報を活用して、生成AI(Generative AI)を用いたIT運用高度化に向けた取り組みを行っています。
自社に導入を始めているプロジェクトの活動内容とともに、機密データの取り扱いや精度向上へ向けた取り組みをご紹介します。
ユニアデックス株式会社 藤田 勝貫

起動せんしトラブル さぐりあい運用
ある日のこと、ロートルになったハブカくんは会社に言われます。「いま流行りのAIOpsとかできないの?真心こめて手で運用とかもういいから」と。しかしハブカくんは「AIなにそれ美味しいの?」状態の素人です。
ってことで、世の中 AI Native な時代に追いつけていない Boys & Girls に贈る「そんなジジババも今日からできるAIOps」「誰でも始められるバイブスオペレーションによる AIOps」を紹介します。一見すると完全にネタ優先で手抜きのような題材にも見えますが、
そんなことありません。ちゃんと緻密に ChatGPT に手解きを受けながら奮闘もといElegant & Vibrantに溢れたセッションです。(残念ながら歌わないし、ワインラッパ飲みもしません)
5/22追記:
ご指摘のとおり表現を改めたいと思いますので、該当部分については以下からより適切と思われるものをチョイスして頂けますと幸いです。
* 「そんな老若男女も今日からできるAIOps」
* 「老若男女でも今日からできるAIOps」
* 「誰でも始められるバイブスオペレーション」
* 「誰でも始められるバイブスAIOps」
* 「AIOpsでバイブスぶちあげろ」
「老若男女」も時代的にはセンシティブな言葉かもしれませんが、「ジジババ」よりは大分穏当な表現かとは思います。
また、いくつか書いてみた感じだと「誰でも」のほうがよりビギナー向けを表現できている気もします。
ぜひ事務局側で相応しいものを選んで頂けますと幸いに存じます。(どれを選ばれても個人的には何も文句ありませんので)
Megazone株式会社 Osamu Habuka
運用苦労話(しくじり、トラシュー)

復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた
AWS KMSキーをうっかり削除してしまうと、暗号化データが復号できなくなり、重大な問題につながる可能性があります。私は、キーの削除をあえて「面倒」にすることでヒューマンエラーのリスクを減らしました。
本セッションでは、この仕組みに利用したRCPやEventBridgeルールの設定例をご紹介します。AWS運用の安心感を高めたい方に、ヒントを持ち帰っていただけると幸いです。
ENECHANGE株式会社 岩本 隆史

AIチャットボットや障害試験サービスなどプライベートクラウドの利便性向上に向けた挑戦
KDDIでは、OpenStackを用いたプライベートクラウドを構築し、その上で通話などのサービスをテナントシステムとして展開しています。
本発表では、様々なテナントを支援するために開発したAIチャットボット、障害試験サービス、OpenSearch構築サービスなどについて、
テナントの利便性を向上させるための工夫や苦労を共有します。
KDDI株式会社 Yokoyama Shuta

Goで作る!ストレージ筐体間での安全なCinder volume移行システムの開発と運用
プライベートクラウドのOpenStack基盤において、ブート用アプライアンスストレージのEOLに伴うストレージ筐体間 Cinder volume 移行のために、課題を抱えていた Cinder 標準の retype に変わる手段として
独自ストレージマイグレーションシステムをGoで開発しました。アプライアンスストレージを用いる Cinder の技術的詳細や、Goによるシステム開発、さらに実際の移行にまつわる苦労話等についてお伝えします。
株式会社サイバーエージェント 近藤 智文

膨大な運用業務に苦労した2年間から得た教訓!運用工数を90%削減したクラウドサービス運用者の道のり
クラウド上でアプリケーションを提供・運用しているプラットフォーマー必見!自由度が魅力の汎用アプリケーションですが、プラットフォームを提供する際には、運用者にとって想定外の利用が悩みの種となります。リリース当初は、1ユーザーで1000件以上のアラームが鳴り響く事態に!しかし、監視システムや自動化、運用体制の構築など、様々な工夫を重ねた結果、最終的には運用工数を90%削減することに成功しました。今回は、ユーザー数が増えても運用負荷が変わらないクラウドサービスを実現した、ちょっとした知恵についてお話しします。
KDDI株式会社 若林 直希

社内Oracle Cloud Infrastructure (OCI)環境のSingle Sign-On実現に挑戦した話
日々加速するパブリッククラウドの需要に伴い、今期からAzure, AWSに続いてOCIの活用を本格化しています。社内のOCI技術力向上を目指し、チームでは検証用OCI環境の整備に着手する中でGoogle WorkSpaceでのSSOを実現するべく
挑戦を始めました。本講演ではOCIが気になってきている方や社内環境の運用者に向けて、OCIの取り巻く環境と併せて取り組みを経て得られた知見とその軌跡について共有します。
株式会社エーピーコミュニケーションズ 坂口 拓生

ベストプラクティスに沿わないシステムの運用のツラみ
インフラの設計をおろそかにすると、どういう問題が起きるかと、その結果どうなるかについて紹介します。
講演ではGoogle Cloud に構築した一般的なプラクティスに沿わないシステムを構築したときに遭遇した問題について紹介します。
そして、その教訓を活かしてどのようなシステムを構築したのかについて紹介します
クラウドエース株式会社 北野 敦資

Kubernetes Operatorを用いた宣言的デプロイによる クラウドリソースの運用効率化
ソフトバンクの提供するMSPサービスでは、マルチベンダー対応のクラウドリソース構築基盤を提供しています。従来は、Terraform やcliなどを用いて手続き的にクラウドリソースをデプロイしていました。
しかし、コードと実態との乖離による運用の属人化・一括アップデートの難しさ、といった問題がありました。
そこで我々は、Kubernetes のCustom Operatorによる宣言的デプロイに着目しました。
本発表では、環境毎の状態管理とアップデートを容易にした、Operator導入の取り組みについてご紹介します。
ソフトバンク株式会社 小久保 信彦

HPCクラスタサーバ屋の挑戦:プライベートクラウド導入で見えた未来
弊社は長年に渡りバイオインフォマティクス研究機関にHPCクラスタを提供してきました。
従来のHPCクラスタでは、計算負荷やストレージ要件の制約から不便を受け入れるしかない状況でした。
そこで構成の一部にOpenStackを導入したところ、潜在的な課題を顕在化させ、解決の糸口を見出しました。
本セッションでは、ストレージ移行やネットワーク構成の課題に直面しつつも、アプリケーション提供の改善や運用コスト削減を実現できた過程と得られた知見を共有します。
株式会社ナベインターナショナル 吉村 淳
仮想化基盤サーバー担当者が語るCeph入門
オンプレ環境でKubernetesやOpenStackを管理してきた立場から、初心者がCephストレージを運用するうえで押さえておきたい基本知識と注意点をお話しします。
KubernetesやOpenStackとの連携ポイント、初期構成、障害対応など、実際の運用経験に基づき「現場目線」でわかりやすく解説します。
GMOインターネット株式会社 長谷川 泰斗
手作業よ、さらば。アラーム通知の自動化を目指して ~クラウド初心者の試行錯誤の記録~
弊社では中~大規模法人向けにZabbixを使用した監視・運用代行サービスを提供しております。
当初は検知したアラームを元にオペレータが資料をみて影響規模判断・メール作成~送付していましたが、
案件増加に伴うアラーム増加と通知期限厳守に耐え切れなくなりつつありました。
そこでLambda/DynamoDB/SESを活用した自動通知・影響判定システムを構築することにしたのですが…
中々一筋縄ではいかなかったシステム構築事例を紹介します。
NTT東日本株式会社 増田 晃介
変わり続けるOpenStackを「再現可能な運用」で活かし続ける:研究インフラとしての運用実践
国立情報学研究所では、「再現可能なインフラ」として、設備管理も含めフルスタックで運用可能なよう改造したOpenStack「NIIBMC」を開発し、自前で10年間以上運用しています。運用にあたっては、進化の速いOpenStackに追従するため、「再現可能な運用手法」として「LC4RI」を考案し、その試行を続けています。本発表では、LC4RIの概要と、NIIBMCの維持や運用においてLC4RIがどのような形で貢献してきたか、苦労話を中心に具体的な事例とともにご紹介します。
株式会社ボイスリサーチ 谷沢 智史
運用自動化(Dev/Ops、CI/CD、IaC)

GitOpsによるシステム運用の自動化
この春、 クラウドエースは24/365のシステム運用サービスの提供を始めました。このサービスは、お客様の問い合わせをやりとりするサービスデスクやお客様のシステムを可視化するダッシュボード機能などを提供しています。
本講演では、このシステムのGKE と Cloud Run のアプリケーションの構成管理を Argo CD で実現したことを紹介します。
クラウドエース株式会社 北野 敦資

少人数で開発チームを支えるBtoBのインフラ運用(Azure, Terraform, GHA)
BtoBのSaaS Ops を少人数でどのように支えているか
ビジネスの導入期から成長期にかけて、生産性と品質をどう向上させてきたかについて紹介します
- 基準とモジュール化で新サービスを1人日でローンチ可能にする
- 乱立したインフラを統合して均一化した水準のインフラを提供する
- 基準とモジュールを改善して全体の品質を向上する
Colorkrew Inc. 秋山 康平

プラットフォームチームがKubernetesを使ってインフラチームから面倒な運用業務を開放させた話
近年、Kubernetesがクラウド運用の最強基盤となり得ることで注目されています。その手法は、Kubernetesを中心に周辺リソースも含めyamlで一括管理するというものです。今回、その手法をプラットフォームチームとして
複数のインフラチームに提供し、大幅に運用コストを削減した事例についてお話しします。
ソフトバンク株式会社 野口 雅史

Cut CI/CD Costs by 77% & 2x Deployment Speed with GitHub Actions on EKS Auto Mode
"We have a lot of products and to support the development workflow, we have lot of GitHub repositories.
As we started to increase our product portfolio, our CI/CD pipelines also started to become more complex, concurrent and frequent leading to the need of more computation power and eventually more robust infrastructure layer which supports our growing needs.
Running Github Actions on default free machines (called as runners) started to become slow. So I built this solution for platform teams to run their CI/CD Github Action on EKS Auto Mode.
The audience will learn that results {Performance, Speed, Cost} of this solution were not only astonishing but impeccable and promising enough to adopt this solution at the enterprise level. This solution isn't just AWS agnostic, with the knowledge gained in this blog can be extended to Azure(AKS), google(GKE) or if you are running K8 on your own bare metal servers.
They will learn on how to implement this solution from scratch using Terraform."
Colorkrew Jatin Mehrotra

How to Survive and Thrive in a Multicluster World
Over the last few years, we’ve seen a shift in how organizations operationalize their Kubernetes clusters. Instead of huge, monolithic production clusters, we’re seeing a marked shift to multicluster Kubernetes environments, using entire clusters to isolate development teams or manage workloads.
The multicluster world can bring in dramatic wins for reliability and operational efficiency, but of course it has its challenges! In this talk, we’ll explore this fascinating world, from why the shift is happening, how to effectively use a service mesh and GitOps-style workflows to make multicluster secure, reliable, and observable, the pros and cons of multi-cloud rather than simple multicluster, and how new technologies like federated Services affect the multicluster world. Join us to learn how it all comes together!
Buoyant Ivan Porta

社内サービスの稼働状況と効果の可視化で、サービス価値を最大化- Amazon Managed Grafanaを活用した事例
社内サービスの稼働状況や効果の可視化の重要性と、Amazon Managed Grafanaを活用した実現方法について、弊社の事例を交えてお話します。 ビジネス層、運用者、開発者それぞれに有益な情報を提供し、効果測定の標準化や工数削減につながった取り組みを紹介します。
アイレット株式会社 上地 航平

日常にバージョンアップを 〜Kubernetes Operatorで持続的な運用〜
ここ近年、生成AIなど技術の移り変わりが激しさを増しています。
最新技術を取り入れたアプリケーションの開発は、企業にとって競争力を維持するために不可欠です。
しかしながら、最新技術を取り入れるためには、バージョンアップが必要です。
このバージョンアップを運用担当者は苦労しているのではないでしょうか。
本セッションでは、継続的なバージョンアップや日々の運用を助けてくれるKubernetes Operatorの活用方法を紹介します。
株式会社ブロードリーフ 左近充 裕樹

新入社員が挑戦!アナログ業務を約6か月で自動化した秘訣
「クラウドを使って業務改善したい」 「でも何から始めればいいかわからない」そんな方に向けた講演です。
弊社では、従来手動で実施していた架電業務を、AWSを活用しわずか6か月で自動化しました。
本講演では、下記ポイントを中心にクラウド初心者の新入社員でも短期間で業務改善を実現できた秘訣をお伝えします。
・Amazon Connectを活用したシンプルな設計
・IaCとCI/CD(GitHub Actions)を活用した構築の効率化
「自分にもできそう!」と思ってもらえるような、リアルな経験と実践的なヒントをお届けします。
NTT東日本株式会社 久保田 留奈

“遺せる運用”を目指して:Zabbix自動展開テンプレートの挑戦
AIの隆盛により、多様なアクセラレータを扱うインフラが増加している。中でも高性能なDC向けGPU等は高価で貴重なリソースであり、着実な管理のもとで利用率を最大化することが重要である。この講演では、CIにおけるGPUの共用を題材として、GitHub ActionsやKubernetesの新機能Dynamic Resource Allocation(DRA)を用いた効率的な共用手法の一案を紹介する。
日本電信電話株式会社 渡邊 拓磨

GitHub Actions+K8s新機能で虎の子のGPUを使い倒す一案
弊社では中~大規模法人向けに運用監視代行サービスを提供しており、監視基盤としてZabbixを採用しています。
案件の増加に伴い、顧客ごとのZabbix展開が運用上の課題となっていました。
そこで、CloudFormationやImageBuilder、SSM等を活用しZabbix展開のテンプレート化に挑戦。
属人性を排し、再現性と継承性を備えた""遺せる運用""の実現に向けた取り組みを紹介します。
NTT東日本株式会社 保坂 光希

Custom Controllerで実現するベアメタルサーバ向けNova Computeデプロイの最適化
LINEヤフーでは、新しいプライベートクラウドへの移行に際し、OpenStackおよびKubernetesで数千台のベアメタルサーバを管理する上で、デプロイの複雑化、デプロイ速度、K8Sリソースの大量消費といった課題に直面しました。この講演では、カスタムコントローラを導入してこれらの課題をどのように解決したかを紹介します。カスタムコントローラとそのReconcile処理を活用し、クラウドインフラの運用効率を向上させる実践的な方法を学べます。
LINEヤフー株式会社 黒羽 正徳

Operating OceanBase: Distributed SQL Database on Multi-Kubernetes Clusters in Production
Running a distributed database in a Kubernetes environment is never easy—and it gets even more challenging when you need to operate across multiple clusters, availability zones, or even cloud providers.
In this session, I’ll share our experience operating OceanBase, a distributed SQL database, in real-world production environments using custom Kubernetes Operators. I’ll walk through our architecture, how we manage cluster resources using custom CRDs like OBCluster, OBZone, and OBServer, and the lessons learned from ensuring high availability, failover handling, and data consistency across clusters.
This talk is ideal for DevOps engineers, SREs, platform teams, and anyone managing stateful workloads on Kubernetes. Attendees will gain practical insights into building and operating reliable distributed systems with Kubernetes, and walk away with concrete ideas for managing complex, multi-cluster deployments in their own environments.
Whether you’re exploring distributed databases, building your own Operator, or simply curious about scaling stateful services, this session offers hard-earned lessons from the trenches.
OceanBase PENG WANG
チームづくり・人材育成

サービスのreliabilityはチームから!enablingを通じて実現する、信頼されるサービスづくり
SREにおけるreliabilityとはなにも可用性やMTBFだけを指すものではなく、利用者が期待する振る舞いを持続的に満たせているかどうかを指しています。そして利用者の期待をもっとも理解しているのはドメインの課題に向き合うstream-alignedチームです。
Platform SREチームがstream-alignedチームとともにDevOpsを実践しreliabilityを向上するためには、stream-alignedチームをenablingすることが欠かせません。stream-alignedチームが自発的に監視や仮説検証を行えるようにするための仕組みやコミュニケーションについて、弊社のケースをご紹介します。
株式会社ヘンリー Kengo TODA

目の前の仕事に集中できる開発チームへ〜運用と開発の両立〜
「目の前の仕事に集中したい」開発現場の願いを叶えるため、私たちはチームを分割し、開発現場の変革に挑みました。既存開発チームではアラートや問い合わせの可視化や「20%ルール」による改善活動を推進し、リプレースチームでは自動テストとCI/CDで品質とデリバリーを両立させ、各々がより集中できるチームへと成長しました。このセッションでは、各チームが直面していた課題とそれに対する打ち手、これからの展望を具体的な事例と共にお伝えします。
レバテック株式会社 山川太一

マルチクラウドに展開するSREサービスを提供するエンジニア組織の作り方を大公開!
サービスの運用に携わるチームリーダーや管理者、これからチームビルディングを始める方を対象に、当社のSREチームを事例に、その成功の秘訣をご紹介します。効果的なチームビルディングに焦点を当て、エンジニアの能力を最大限に引き出す具体的なアプローチを解説します。さらに、時間外のトラブル対応を効率化する体制構築や、長期的なシステム運用におけるエンジニアのモチベーション維持についても、実践的なノウハウを惜しみなく共有します。
クラウドエース株式会社 間瀬 真

俺たちの障害対応訓練 - チーム全員が動ける!障害対応フロー作成と訓練の実践
我々のチームではauお客様向けサービスを提供するシステムの基盤運用を行っています。AWS基盤の障害、システム内や対向システムの障害などを起因として、アラームや不具合申告が発生し、至急調査・復旧対応を行なわなければならない場面があります。チームメンバー全員が障害発生時に能動的に動けることを目指し、障害時の対応フローの整理を行った上で、障害対応訓練を始めました。本講演では、訓練の実施内容を紹介しつつ、訓練を通じた運用改善やスキルアップの取り組みについて共有します。
KDDI株式会社 横山 周太

インフラ運用を変えるオブザーバビリティとシフトレフト。そしてプラットフォームのあり方。
クラウド運用を進めていくにあたって、開発チーム(特にアジャイル)とのコミュニケーションを進めていくことが重要になっています。
いままでインフラ運用を進めてきたチームがアジャイルチームをタッグを組むと、意思疎通の問題や課題が発生し、アジャイル開発チームが本来目指したい、アジリティ・変更容易性を担保できない事象も多く発生します。
そのインフラ運用チームのあり方を、組織から変えていく手法として、「オブザーバビリティ」「シフトレフト」というアプローチ、そしてプラットフォームエンジニアリングが近年注目されています。
今後のクラウド運用チームが、どのような目的でビジネスにどの様に組織、そして事業に貢献していくべきかをセッションを通じて考えていきます。
ウルシステムズ株式会社 小出 泰喜

弊社運用チームの24/365安定稼働への取り組み
オンプレからパブリッククラウドに移行したサーバーを24時間365日安定稼働させるために、私のチームがどのように運用しているかについて
アラートの監視方法や発砲された時のフローに興味があるエンジニアや、対応しているチームのメンバー管理などのマネジメントについて知りたい方向け
株式会社グリー 青木史帆

実践!Policy as Code ~社内ルール準拠のAWS自動チェックを1年間運用して~
ダイキン工業では研究開発部門だけで100以上のAWSアカウントを抱えています。CODT2024の講演では、多数のアカウントを効率よく管理する為に、セキュリティ自動チェックシステムを導入し、社内ルール準拠のカスタムルールを導入した際のことを、主に技術面にてお話ししました。本セッションでは更に発展し、このシステムを1年間かけて社内展開する中で、突き当たった運用・コスト面の課題や、思わぬ副次的な効果についてお話しします。
ダイキン工業株式会社 角田 潤也
OpenStack

VMwareからのOpenStack移行戦略:virt-v2vによる実践と運用基盤構築のポイント
br/>VMwareからの移行先としてOpenStackは有力な選択肢の一つです。本講演では、OpenStackへの移行を実現するOSSツールvirt-v2vに焦点を当て、その機能と具体的なVM移行プロセスを解説。さらに、OpenStack環境の構築・運用における課題と、それらを包括的に解決するアプローチの一つであるVirtuozzo Hybrid Infrastructureについても紹介します。
AXLBIT株式会社 草開 新太郎

Windowsで爆速クラウド基盤開発!Vagrant+Libvirt+WSL2でOpenStackを動かす
Vagrant+libvirtでWSL2上にNested VMを構築し、WindowsローカルでOpenStackのマルチノード環境を再現。複数Linux Bridgeによるネットワーク構成やMac派も驚く実用的なクラウド検証環境構築TIPSを共有します。
富士通株式会社 岩松 昇

ベアメタルプロビジョニングの要素技術紹介 -OpenStack Ironicを試してみて-
汎用的なベアメタルプロビジョニングの紹介から、OpenStack Ironicを使ってみた場合のポイントを解説します。
GMOインターネット株式会社 竹本 裕宣
監視・ログ・オブザーバビリティ

AI エージェントの実運用を支えるオブザーバビリティの実践
AI エージェントの活用が急速に進む中でそれらを活用した運用監視の高度化とAI エージェント自体に対する運用監視の重要性が高まりつつあります。
AI エージェントの複雑な構成やブラックボックス化された内部ロジックは監視やトラブルシュートを困難にし、結果としてパフォーマンスの低下やコストの増大、ユーザーの信頼性の低下といったリスクを引き起こしかねません。
そこで本セッションでは、AI エージェントに対するオブザーバビリティを高め、クラウドインフラからRAGパイプライン、LLMの出力まで、AIスタック全体を可視化して深いインサイトを得るアプローチを解説します。
具体的には以下の内容を学べます:
- AI エージェントにおけるレイテンシ、エラー、トークン使用量のトレース方法
- ハルシネーション、プロンプトインジェクション、個人情報漏洩(PII)の評価・検出方法
- DatasetやExperiments機能を活用し、AI エージェントのデプロイを改善する方法
Datadog Japan 角田 高彬

SIEMを利活用した信頼性向上プロセスと実践
昨今、サイバー攻撃の脅威が増加の一途を辿っており、サイバー攻撃が進化することで従来の対策をすり抜けるリスクも高まっています。
SIEMを用いた分析を日々行うことによって、「DDoS攻撃の予兆検知高速化や対策強化」や「プロダクトの特性に応じたプロアクティブな攻撃遮断」に取り組むことができました。
本セッションでは運用観点から「サイトの信頼性を向上する取り組み」や「SIEMのノウハウ」をご紹介します。
株式会社ココナラ 川崎 雄太

仮想マシンをクラウド環境へ移行する際のシステム監視 ~既存の監視運用って簡単に変えられないよね~
オンプレミスで運用しているサーバー、特に仮想化基盤のクラウド化を考えがちな情勢ですが、「クラウド環境の監視はどうするんだろう」と悩むこともあるかと思います。
これまでに運用してきた「サーバーに監視用のエージェントを導入し、監視マネージャーから状況を確認する」方式では、クラウドネイティブなプロダクトの監視に悩むことがあるかもしれません。
本セッションでは、「これまでの監視運用はあまり変えずに、クラウドネイティブな仕組みも監視する」ためのノウハウをお伝えします。
クラウドエース株式会社 廣瀬 隆博

GuardDutyとSIEM on OpenSearch Serviceによる脅威分析の実例
当社では、AWS環境に対して、GuardDuty、SecurityHub、OpenSearch Service上に構築したSIEM等を活用し、リアルタイムでセキュリティ監視を行っています。
セキュリティ対策は機能の有効化だけでなく、運用時のアラートやログの分析、リスク判断が重要です。本講演では、GuardDutyのアラート発生時にSIEMでログを統合分析し、4W1Hで事象を洗い出し、要因を特定する手法を具体例と共に解説します。
NTT-ME 菅原 捷汰

非同期処理のトラブルシューティングを加速!Google Cloud × OTel でトレースを繋ぐ
非同期処理運用者向けに、オブザーバビリティ実践によるトラブルシューティングを加速するノウハウを提供します。複数の選択肢がある Google Cloud での非同期アーキテクチャ例と、トレースが途切れがちな非同期処理での
OpenTelemetry との連携でトレースを繋ぐためのノウハウなどを解説します。
エヌ・ティ・ティ・コミュニケーションズ株式会社 林 知範

クラウド運用をシンプルに最適化! ~Hinemosで実現するクラウド運用のトータルコスト削減~
"パブリッククラウドの採用が業界やシステムを問わず増え続ける中、クラウドの運用管理には依然として多くの課題があります。クラウドのメリットを最大限に享受し、運用のトータルコストを削減するためには、これらの課題を解決するクラウドに最適化した運用管理が求められます。
本セッションでは、クラウド運用において発生しやすい課題からHinemosの高度なクラウド対応によるクラウド運用の効率化までご紹介します。"
株式会社NTTデータ先端技術 金山 晃

パブリッククラウドを使いこなす人のためのCNAPP入門
パブリッククラウドを活用しているものの、セキュリティ対策が不安…そんな方に向けて、今注目されているCNAPP(Cloud Native Application Protection Platform)の基本と、フォーティネットのCNAPPが提供する機能をわかりやすく解説します。このセッションに参加すると、セキュリティ対策の第一歩として、自社のクラウド環境に足りないものが見えてくるでしょう。
フォーティネットジャパン合同会社 伊藤 明子

OracleCloudInfrastructure(OCI)で特定ユーザーのMFAを回避させる方法
システムを運用していると、ユーザーのサインイン時に基本的にはMFAを必須とするものの、読み取り専用ユーザーなどは例外としたいというような場合があります。
こういった特定のユースケースでMFAを必須としないニーズに応えるOCIの権限設定の方法を紹介します。OCIの基本的な特徴と権限まわりの用語に触れつつ、MFA回避設定の手順を解説し、設定時の注意点なども共有します。より柔軟なOCI運用の一助となれば幸いです。
株式会社エーピーコミュニケーションズ 髙野 朱理

快適なエンジニアリングライフを実現するためのワークもとい会社ハック
本セッションでは大企業における働きやすいエンジニアリング環境の構築方法を共有します。
開発・検証環境の改善、柔軟なドレスコードの導入、エンジニアブログの立ち上げ事例を通じて、エンジニアがエンジニアとして快適に働ける環境を作るために行った具体的なハックを紹介します。参加者は自分たちのエンジニアリング環境を
良くするための実践的なノウハウを得ることができます。
NTTコミュニケーションズ株式会社 小倉 真人

働く部屋を快適に!k8sで構築する環境モニタリングシステムと実践ダッシュボード運用術
みなさん、監視してますか?当たり前に毎日ダッシュボードを見てるって?
いえ、私がお伺いしたいのはサーバやネットワーク機器ではなく、ご自身が働く部屋の温度・湿度・CO2濃度といった環境値についてです。本セッションでは、私のおうちk8sクラスタ上で稼働させている環境モニタリングシステムと、
作って終わりではない実践的なダッシュボード運用のコツをお話します。快適で健康的に働くヒントを共有できれば幸いです。
NTTコミュニケーションズ Kazuki Sato